2004-08-25 Wed
* 通訳学校 [t]
テーマは、David Beckham ("Golden Balls") と Victoria Beckham
("Posh Spice") について。
新語、metrosexual を習う。metro- は都市という意味で、ファッション
にも気を使う「都市型の男」を指すらしい。当てはまる日本語がわからな
い。若干 -ve な文脈でに使われているような気もする。
http://www.wordspy.com/words/metrosexual.asp
授業は、ひたすら再生の練習。3 文ぐらい聞いて、45 秒で言う。内容保
持が原則だが、順番保持も重要らしい。どうも、私の記憶再生は、スタッ
ク構造 ( Last-In-First-Out ) になっているから、生成の順番が逆になっ
て、苦労した。英→英変換だから、まだいいけど、英→日変換はぜったい
に無理。
* Dan Melamed [r]
完全に敗北です。あなたのすばらしいと絶賛されている作品は、私には、
全く理解できません。
学生時代、あんまりわからなかった Alshawi や Brown の論文だって今は
ある程度イメージがつかめて理解できた気分になっていますが、あなただ
けは別格です。学生時代読んだ論文を、何度となく再読してもわからない
し、本もわからないし、最近発表している論文もわからない、です。くや
しいですが、一部のショートペーパーを除いて、煙に巻かれたままです。
むぅー。Kevin Knight ぐらい、難解なことでも平易に表現してくれない
と十分に理解できない、私の受信能力に問題があるんだが。Dan Melamed
には自明なことでも、凡人の私にはわからんのだぁー。
2004-08-24 Tue
* EM 実習 [r]
aspect model は、くどうくんの PLSI モデルと同じ結果がでているよう
だ。optimization や refactoring は後回し。(気が向いたら)
TODO: sparse matrix, random generator, 数学公式周り。
動いてはいるんだが、いくつか未解決なことが。
分からないこと I - モデル学習のときは、 P(d|z) を推定して出力され
るけど、それと同時に、"inverse" prob として P(z|d) も出力できる。
P(d|z) が old の行列(推定値)を出力しているところまではわかるんだが、
P(z|d) は current の P(d|z) の行列を転置したものを出力している。
current を使うのはいいとして、転置しただけで、p(d|z) --> P(z|d) と
いう解釈になる理屈が、自分で考えられない。
※ メモリ流用している部分のコードを勘違いしていた。
分からないこと II - gain の計算と収束条件。なんとなくわかった気に
はなってみたが、まだ、だまされているような。
※ 最初は、最尤推定みたいな値と入れていた。
product model は、細かいところで予想通りトンザした。隠れ変数の共起
確率 P(u,v) の初期値は、一様分布でいいんだろうか。P(d) や P(w) は
どうやって求めるんだろうか。aspect の場合は、P(d) = P(d|z) * P(z)
でいいのだが、product の場合は、P(d) = P(d|u) * P(u) となるけど、
推定しているモデルは P(u,v) だから、P(u,v) から周辺確率 P(u) を求
めるのでいいのだろうか。
2004-08-18 Wed
* 通訳学校 [t]
一ヶ月ぶり。自衛隊のイラク派遣と憲法第9条の解釈について。
前半は英語モードに切替えるのに苦労して、なかなか集中できない。
# day-dreaming ともいう。
後半は、英語の dictation と口頭要約。私は受験英語で鍛えられていな
いから、翻訳モジュールが貧弱で全く使えない。けど、高校、大学、大学
院と英語で授業を受けていたおかげで、英語の換言モジュールは、ネイティ
ブには到底及ばないが、それなりに使えるものを所有している。というわ
けで、適当に処理して、授業終了。
疲れた。
* 勉強会 [o]
担当。Co-clustering ネタ。
http://www.cs.utexas.edu/users/inderjit/public_papers/kdd_bregman_coclustering.pdf
肝心なところが分からないままで終ったような気がする。まずい。
収穫なのかどうか不明だけど、今の私の課題(wamf)に、そのままでは使え
そうにない、ということを改めて認識しただけ。(泣
2004-08-17 Tue
* kaorux 時代のメールボックス [l]
1か月以上読んでいなかったものを読む。BioNLP (www.bionlp.org) のス
レッドが面白い。
Google と PubMed の検索の違い、合わせ技の可能性など。BioMed 系の研
究者がどちらを研究する上での情報探しサイトとするか、とか。CompSci
系の人間だったら、Google と citeceer 両方使えて便利じゃん。で終り。
PubMed に Google ボタンを付ければ、それで終るんじゃないの?
あと、TRL の T さんと U さんの夏休みを知ってしまう。全世界に散らばっ
ていると思われる BioNLP 購読者に告知しなくてもいいような気がする…。
* wamf [r]
PLSA に熟知されておられる T 助手に、私の妄想を聞いてもらう。大域的
な言語モデルと文レベルのアラインメントを同じレベルで扱っていいのか、
そこがフニオチナイ、と言われて、なるほどと納得。確かに、文レベルで
の joint distribution (data matrix) は missing values だらけだし。
あの論文は、non-negative matrix factorization であればなんでもいい
訳で、PLSA を適用するための正当化 (justification) は特になかったよ
うな気がする。と返答しつつも、T 助手の指摘はマットウで、やはり、モ
デルとその解釈をしっかり詰めておかないと、気持ち悪い、ことを実感さ
せてもらう。感謝。
今の私は、EM の基本を押えていないから、細かい話についていけない。
ということで、wamf はちょっと置いといて、当面は、EM の理解を深める
ために時間をさくことにする。
* 翔ちゃん [o]
久しぶり。T村さんにほぼ文脈レスで招集されて(なんか、メールのやり
とりがあったらしい…)、ミーティングに参加することになる。インター
ンでの課題について説明される。何を期待しているのか、謎のまま。イン
ターンを受け入れる方もインターンする方も苦労しているね、って印象を
持った。
個人的には、特許文書を相手にするとしても、翔ちゃんが言っていた「フ
レーズレベルのアラインメント」より、特許のカタカナ語か、もっと広範
囲の未知語を対象とした対訳ペアの抽出とした方が、現実的じゃないかと
思う。もし、特許文書の未知語の大半が英語とその翻字(カタカナ語)と
いう主張ができるのであれば(この主張は怪しい)、transliteration の
問題として取り組む方が良いと思うんけど。
受け入れ先は、音声言語のグループって伺っているし、transliteration
は phonetics と morphology をつなげるものだ、と強引に「音声」言語
なところを強調もできる。。
いずれにしても、transliteration のモデルを作る上で、
transliteration の対訳データ(英語とカタカナ語の対)は必要だから、
インターン中は、第一歩として、それらを半自動的に集めました、
というのでまとまるような気がするけど…。
2004-08-16 Mon
2004-08-12 Thu
* wamf [r]
PLSA と AIC などの基準について、某助手さんに質問する。
やっていて思うことは、alignment の数(潜在変数の数)をあらかじめ指定
してモデルを学習するのだが、そこが、なんとなく単語アラインメントの
タスクとずれているような気がする。一番難しいのは、alignment の数を
決定することだし…。
彼の突っ込みは、最初の co-occurrence data だけから出発するのが気持
ち悪い、だった。そこの意識も共有できるけど、ま、いろいろな工夫は、
わりと容易にできると思う。
なんとなく、Aspect model と Product model のことを指して、あーでも
ないこーでもないとイメージしていたが、それはこういう名前があります
よ、と教えてもらった。ちょっと、すっきり。感謝。ただ、もう少し考え
ないと、整理つかない。
今日は、夏休みで人が少ない通勤列車で、↓を読む。
http://www.cs.brown.edu/people/th/papers/HofmannPuzicha-IJCAI99.pdf
終らなかったので、きっちり長津田で降りて、喫茶で続きを読む。乗り過
ごさなくって良かった。以前のように町田まで往復するなんて、辛すぎる。
どうも、Aspect model の方がモデルがしやすいとか、精度が良い、とか
書いてあるが、これは適用する問題に依存するような気もする。それより、
わからない言葉と式で、理解できない。Variational EM(変分ベイズ法?)
とか mean-field approximation (平均場近似?)とか、聞いたことある
かもしれないが、実態はさっぱりわからんコンセプトばっかり。悲しい。
昨日、ぼやいたけど、どちらのモデルでも z の数なり、クラスタの数は
予め指定してしないと学習できない。フリダシニモドル。
2004-08-11 Wed
* wamf [r]
http://acl.ldc.upenn.edu/acl2004/main/pdf/187_pdf_2-col.pdf
行列の分解を PLSI で近似しているけど、他にも考え方があるように思う。
対訳文は、二部グラフの隣接行列で、グラフの分割をすればいい。
# ひょっとしたら、他のグラフの行列表現方法の方がいいのかなぁ。
Dekai Wu がちょっとだけ披露した translation-driven segmentation の
ように、top-down でアラインメントとるのであれば、recursive に
spectral graph bi-partitioning でいいような気もするけど。カットを
考えて、cross しているやつが少ないようい分割する。乱暴かな。
ただ、あの論文や Alshawi の論文だって、phrase structure か
dependency relation かという違いはあるけど、ある pivot word とその
周辺が正順か逆順かという判断を学習させながら parsing しているよう
に思う。こういう正攻法も捨てがたいけど…。どうだろうか。まあ、彼ら
の問題意識は、デコードを視野にいれた翻訳モデルにあるだろうから、単
に、アラインメントデータ作成という動機とは違う。そこんとこ押えてお
かないと。
行列は、グラフの表現形式だから、その辺りを考えれば、面白い関係が見
えてこないかあ。いずれにしても、one more twist が欲しいところ。
とりあえず、こういった議論を展開する上で、私は、線形代数ですでにわ
かっている行列の性質を知らなさすぎる。修行せねば。
2004-08-10 Tue
* wamf [r]
word alignment を matrix factorization でやろうという論文の細かい
ところを理解すべく、ここんとこ、reverse engineering に励んでおりま
す。頭の回転も手も遅いんで、まぁ、ぼちぼちといったところ。
100-best alignments を decoder で出力して、関連度行列を作るところ
は、ずるして、test data を IBM 4 で学習して、translation table を
得る。これを両方向でやって、log で適当に整数コストに落とす。まあ、
ここは、いわゆる辞書をそのまま入れてもいいと思うし、対訳ペア抽出で
算出した重さを入れてもいいから。
さて、PLSI は、くどうくんのパッケージを使わせてもらう。どうも、入
力データ準備にバグがあったみたいで、悩む。どうしてもわからなかった
から、T村さんに聞く。問題の箇所を的確に指摘してくださる。列でみた
とき、使われていない素性が混入していたみたい。足すと1にならない、
と実装上困るでしょう、といわれて、納得。助けてもらって、やっと学習
してモデルができる。ふぅー。
で、あとは、最大の cept を選んで、行列の積をとった。結果は、うーん。
よくわからない。cept の数をあらかじめ決めておかないとまずいんだか、
これは、入力依存だし、この辺りのコツがつかめてない。
2004-08-06 Fri
* decoder [r]
N-best candidates を出力するのには、decoder が必要だという自明なこ
とに、今気づく。ボケボケ。
誰か、decoder の情報をお持ちでしたら、教えてください。どの論文が比
較的親切とか、ネットのどこに落ちているとか (ISI ReWrite
http://www.isi.edu/licensed-sw/rewrite-decoder/ 以外)、なんでもい
いので、お願いします。
MT の最近の動向は、よくわからない。COLING が始まる前に、ACL を制覇
しないと思い、読んではいるが…。NAACL より、SMT 以外にも少し門戸を
開放している感じもするけど、どうなんだろう。2年間、bioinfo な世界
にいたから、もう、謎だらけ。道のりは長くて険しそう。
やっぱり、デコーダーは、永田さんの教科書や渡辺さんのD論でも読んで、
自分で作るしかないかな…。ソースコードがないと理解できないから。
2004-08-05 Thu
* GIZA++ [r]
GIZA++ の translation table の値を使いたいのだが、
e2f.t3.final と e2f.ti.final は、何を出力してくれているんだろう。
学習の時は、
$ GIZA++ -T sample_vcb.fr -S sample_vcb.en -C sample_snt.ef
としたが、(e が source で f が target の意)、
学習された e2f.t3.final はどの確率を指しているんだろう。
Each line is of the following format:
s_id t_id P(t_id/s_id)
where:
s_id: is the unique id for the source token
t_id: is the unique id for the target token
P(t_id/s_id) the probability of translating s_id as t_id
とあるのだが、e2f.t3.final は、P(f_i|e_j) でいいの?
あと、inverse probability table は何者なの?
何を inverse したの? どうやってあの値を計算したの?
じぃーっと、データをを眺めてみると、
e2f.t3.final の一行目
0 3 4.1079e-07
e2f.ti.final の一行目
3 0 1.21181e-05
e2f.actual.ti.final
$ NULL 1.21181e-05
とある。e = "$" で f = "NULL"。ということは、source が e で、
target が f と仮定した場合、
e2f.t3.final は、P(f_i|e_j)
e2f.ti.final は、P(e_j|f_i)
ということらしい。なぜ、inverse だけ、文字列変換しているのか、謎。
識者の方々、GIZA++ の出力の意図を教えてください。
* やっぱり完全アラインメントよね [r]
4月の GB で所信表明したように、『完全アラインメント』課題を取り扱
おう。前からやってみたかったことだし。
とりあえず、F田くんに発表スライドを譲ってもらった XREC からの論文
を再読。行列での表現方法、その分割問題になる、ってところまで、3年
前からなんとなく考えていたことと一緒。こうやったら解けるんだー、目
から鱗。なんだか、嬉しい。
しかし、細かいところでつまずく。LSA の説明で、隠れ変数の数 (c) を
どうやって求めているか分からなかったから、T村キャプテンに質問。
「テキトーです。実験を重ねて最適なところを求めるんです。基準として、
AIC、BIC、MDLみたいなのがあります。」らしい。疑問解消。さすが。
やっぱり、センスとノウハウは日頃から磨いておかないと、と思った。
2004-08-03 Tue
* 参加して良かったこと [r]
1. marginalized kernel が、頭の中でイメージができるようになったこ
と。
つぼいくんの発表の時のK沢さんのコメント。となりに座っていた、S木さ
んのミニ解説。休憩時間に、くどうくんとつぼいくんにも、いろいろ。
私なりに表現してみると… ある場所で平均場近似しながら損失を取り込
みながら学習して、デコードの時は、前後を考えずに、Viterbi-like で
ベストパスを見ればいい。
marginalized しているから label bias も起こらないし、カーネルでき
るらしい。任意の素性の畳み込みができるらしい。で、loss function は
その場所、その場所での平均場近似をしているから、point-wise の方が
都合が良いらしい。
K島さんの説明を読み返してみると、なんとなく、わかってきた。これで、
例のネタにパクつけそう。
2. max-margin parsing と svm_struct の論文が、前より、だいぶ、分かっ
たこと。
休憩時間に、くどうくんに、max-margin の論文のトリック
primal->dual(alpha)->primal(rule) のところの極意を説明してもらった。
多謝。あれは、損失関数をあのようにしたから、exponential -> cubic
に計算を落せるということらしい。一般的に、exponential 制約について、
解消しているわけではないらしい。
3. EMNLP のくどうくんの発表を、動画で、S木さんにみせてもらったこと。
# テレビがない生活をしていると、動画に異常な感動を覚える。
その他、S保さんから、グラフ関係の話を聞いたり、F田くんから、
statistical MT の細かいところについて教えてもらったり、有益でした。
総括すると、とても有意義な時間を過ごさせていただきました。
ありがとうございました。
ちなみに、私の発表の ppt に、図やアニメーションは一切なかった。
絵ゴコロがないので…。あしからず。
そうしたら、F田くんが、アニメーション ppt を恵んでくれた。
修行させてもらいます。