2005-03-29 Tue
* 単語アライメントと機械翻訳 [r]
対訳単語アライメントが、今の品詞タグ付けツールぐらいの完成度(汎用
性)で公開できるといろいな可能性があって、面白いとは思うのよね。い
ろいろな可能性の一つに、機械翻訳への貢献があるかもしれないけど、そ
れだけに限らないと思う。むしろ、機械翻訳以外の分野と絡めると面白い
と思う。
単語アライメントは機械翻訳と違う。
* リラックマ分布 [o]
Teao 分布を真似してリラックマ分布を求めてみるべきかも。
http://www.tahoo.org/~taku/teao/
この Teao 分布は、私が、松本研に入ったころに盛り上がったネタ。
一式そろったので、そろそろ記念撮影をしないと。
奥村研で、いろいろ協力していただきありがとうございました。
2005-03-28 Mon
* 胃腸が… [l]
今日は、GBがあって、もうDyamaさんと会えないから、と無理するつもり
だったけど、「もう壊れてるよ」とか、「言うこと聞いてくれないー」っ
ていわれ続けたので、しぶしぶ病院にいく。
「ストレスがなくなれば、胃酸も減りますよ。」と当たり前のことをいわ
れる。余計にイライラしたから、薬だけもらう。検査は断ってくる。それ
から、高村さんに断り電話をいれる。
近所の総持寺を通って帰る。 http://www.sojiji.jp/
前も見たんだけど、立ち止まって読む。
実践する者にとって、理想は現実の中にあり、
実践しないものにとって、理想は空想となる。
今は焦ってもしょうがないかと思い、大好きな寺田寅彦の随筆を再読。
ちょっと冷静になれたかも。高岡さんに、「無理してはいけません。無理
だから。」といわれたのを思い出した。
2005-03-23 Wed
2005-03-21 Mon
* BioNLP [r]
ごぶさたなネタですが、UPenn がとうとう PubMed の Treebank を作った
らしい。
http://bioie.ldc.upenn.edu/publications/latest_release/
viva 力業 ! すげー。
仕様をさらっと読んだだけだけど、私が訴えつづけた
tokenization ambiguity の問題意識
は共有できているみたい。よかった。
Some of our tokens contain white space, when it is included between parentheses inside a single chemical word;
some are substrings of what would be considered a token in Penn Treebank.
annotation tool は Tom Morton が作ったみたい。以前、何度かデモを見
せてもらったことがある。ツールとしては、とても高い完成度で、職人気
質を感じました。
一方、辻井研も頑張っています。Treebank のベータ版もできている。
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/
ちなみに、依存構造のアノテーションもあるみたい。
http://www.ifi.unizh.ch/cl/kalju/download/depgenia/
データが揃ってきたから、昔の named entity recognition rush のよう
に、今度は、構文解析バブルがおきるんだろうね。Charniak parser も
2,3 年前から、PubMed 用のモデルがあったから、そのうち、チューニン
グされたパーザーがでてくるんでしょう。
放置しておけば、2年もしないうちに、有志の皆さんがやってくれるでしょう。
* 結果を眺めながら、タグ付けしながら、妄想 [r]
いいかげんに作った対訳モデル(確率つき対訳辞書)を Darts で検索可能
な辞書にして(この辺りもう少し賢くできそうですが、今回はくどうくん
の恩恵をうけてお手軽に)、Viterbi/MWM/RMM でアライメントさせた結果
を、まじめに、眺める。
ビタビアライメントでも、二部グラフマッチでも、安直なデコードでは、
残された課題を本質的に解決することができないことに、いまさら、気づく。
どうしたものかねぇー。まぁ、攻め方はいろいろあると思うから、思いつ
くものから試してみるか。いささかあきらめモードなんだけど、制限時間
ぎりぎりまで、頑張ってみよう。
タグ付けも同時進行。今日でやっと 150 文。先は長い。
やっぱり、500 文は準備しないと。> 小人さん(ぇ
2005-03-17 Thu
* 言語処理学会 [o]
終わった。人、いっぱい。ソーシャライズ、恐い。
ずっと心配をかけてしまったお方とは、数日前から別件でメールのやりと
りがあったのですが、きちんと、対面でも、報告させていただきました。
多くを語れない心境を察していただいたようで、とても、ありがたかった
です。とにかく、感謝でいっぱい。
発表は反省するすべきことばかり。特筆すべきは、タイトルと内容が違う
のと、表示方法も話術もへたれだったことでしょう。あと、これができる
と何が嬉しいという点について、自分にはあるんだが、明確に答えられな
かったことも、敗因。
最初のころは、調子がわからずあせりまくり。ポスター発表は、初めてだっ
たけど、講演発表とは違うポイントをおさえておかないとまずい。もっと
修行が必要。それでも、辛抱強く聞いていただいた方(お情けだと思うけ
ど、数名いらっしゃいました)には、対話の中で要点を引き出してもらえ
て、ありがたかった。この直接フィードバックで、自分のいいたいことが
精錬されていくのが、ポスターの良さですね。
実は、途中、誰もいないポスター横での待機が疲れた。だから、後ろで様
子をうかがっていた。そうすると、お一人、ポスターをじろじろ見ておら
れた方が現れる。後ろ姿なので確信はないけど、「ちょっと考えればすぐ
わかる」。対応せねば、とは思ったが、恐怖心には勝てなかった。ってい
うか、絶対に、「無理」。
(ほんま、すんません。すんません。すんません。すんません。)
今回は、意図的に、自分の研究とはあまり関係ないセッションに出ました。
大会全体で、ぐさっときた発話。
「受信用の機械翻訳と送信用の機械翻訳とは別物って考えている。」
「課題を人工的に設定するきらいがある。」
「データとアルゴリズムは、同時に考えないといけない。」
「やりたいことは、○○なのね。タイトルは××だけど。」
「結果は、エッセンスとは違う。で、エッセンスは何なの?(略)
それからコメントするから。」
「単発の研究が多い。それ、本当に自分が欲しいものなのか、って突っ込
みたくなるときがある。」
「僕は、気長にお待ちしております。」
「そっちへ展開しちゃうと、あなたが生きている間に終わりません。」
2005-03-10 Thu
* 絶不調(続) [l]
今朝の追試は、やはり不合格でした。勉強していないから、当然の結果で
す。でも、人間できていないので、ヘコみました。お昼、桑畑さんと一緒
だったけど、いろいろ聞いてもらって気が楽になりました。
気持ちを入れ換えて、昼から、お仕事。進まない。現実は厳しい。とても
厳しい。もう、投げ出したい。でも、許されない。うぅぅ。
そんなときのリラックマ。なんと、仲間が4種類になりました。ありがと
うございます。癒されます。
それでも、今日は、やっぱり、めげた。
* グラフマッチング [r]
「最適」割り当て問題を考える上で、「最適」の定義が結構むずい。
「最大重みマッチング」は、エッジ重みの総和を最大にすることを考えた
アルゴリズム。で、有名なやりかたは、あの、ハンガリー。
それに対して、rank-maximal matching といって、greedy にマッチング
していく方法もあるらしい。G = (V, E) で V が A と B に分割されてい
るとする。割り当て問題だとすると、A が人の集合で、B が仕事の集合。
で、このとき、A のそれぞれの要素 a は、自分ができる仕事の優先度付
きリスト [b1, b2, ... ] をもっている。で、ある優先度 1 以上のエッ
ジを対象にしてマッチングする、次に優先度 2 以上のエッジを対象、3、
とどんどん続けて r までマッチングをする。
このやり方も http://www.mpi-sb.mpg.de/~michail/rmm.shtml によると
ハンガリーでできるらしい。(間違っているかも。なんせ、論文の内容は
ほとんどわかってない。)
ポイントは、エッジの重みで何を表現しようとしているか、につきるかと
思う。人間 a と仕事 b のすべての組み合わせの total order がわかっ
ていれば、教科書通りの maximm weighted maximum cardinality
matching で最適な解が求まるはず。(たぶん。自信なし。)ただし、片
方の優先順位しかわかっていない(仕事 b の優先順位がわかっていない
とき)は、エッジの重みでは表現しずらい。そんなときに役立つらしい。
で、単語アライメントの場合は、どうなんだ? partial order しかわか
らないけど、でも、一応、日英の両方の組み合わせがわかっているから、
エッジの重みはきちんと定義できそう。だから rank-maximal ranking に
しなくてもいいのかな。
ただ、現実は、両方向で conditional prob (P(e|f) と P(f|e))を求めて、
苦しい紛れの補完係数つけて joint prob として扱って total order に
するぐらいなら、partial order でランク付けした方が吉かなぁ。
わからん。 わからん。 わからん。 わからん。
うーん。どうしよう。うぅぅ。
2005-03-08 Tue
* プレゼント [o]
M山さんから、リラックママスコットをいただく。ありがとうございます。
詳細は、ここ(↓)。でも、シークレットのやつをもらったみたい。ラッキー。
http://www.itoen.co.jp/news/2005/030401.html
昼から、「にぶぐらふ」で連敗中。またまた挫折か、と思いきや、いっき
に、やさぐれモード解除。多謝。
もう少し、キリが良いところまで、やってしまおう。
2005-03-07 Mon
* 田中先生の最終講義 [o]
聴講させてもらいました。田中先生の魅力満載で、素敵でした。
印象に残った形容詞は「おもしろい・つまらない」。
頻出した固有名詞(人名)は「淵さん」。
わくわくする研究をするよう、たゆまない挑戦をしてこられたのだろう。
それが、お言葉からよく伝わりました。
最後のメッセージは、きなくさい世の中への警告でした。最後の最後のメッ
セージは、途中で去った学生さんが元気かどうか気がかりだということだ
そうです。やさしいお人柄です。そして、最後の最後の最後のスライドは
「ありがとう」かその類似表現だったらしいですが、見せるのを忘れてし
まった!ってオチャメな感じで暴露されて、終わりました。
もう一度、LR 法を勉強しておこうかな。
* Data-Driven Machine Translation [r]
機械翻訳の研究は、「統計」と絡めないと認められない時代に入ったでしょ
うか。2001, 2003 年に開催されたワークショップは、今年も開催される
みたいです。ただし、今回は、data-driven ではなく、statistical であ
ることが重要なようです。
http://www.statmt.org/wpt05/
ちなみに親サイト http://www.statmt.org/ は Philipp Koehn が運営し
ているみたい。
今回のワークショップは、「統計」しない機械翻訳は、排除している感じ
です。あと、アイヌ語とか希少言語を対象にしようということみたいです。
日本語を片言語にすると、もう片方の言語の選択は resource-poor でな
いとまずい。英語はもちろんのこと、フランス語、ドイツ語、中国語、韓
国語は resource-rich なのでだめ。東南アジア系の言語ならOKかも。 こ
れも、時代の流れなのでしょうか。
ちなみに、今回も shared task があるみたいです。評価型ワークショッ
プにして、ソーシャルネットワーキングして、研究者仲間を集めて、数字
で勝負して、brain storming を行ない、最後はお互いを励ましあう。こ
れも時代の流れなのでしょうか。
前回の shared task の発表は、わざと面白い視点を捨てるように、規格
化を推進しているようで、なんとなくしっくりこなかった。救われたのは、
Ted Pedersen がとってもいい人で、率先して、多様性を認めるように話
をもっていっていた。今回はどうなるでしょう。
私は、「統計」と絡まないし、resouce-rich な言語対だし、そもそも間
に合わないから、提出しない方針。これからの機械翻訳関連の研究は、い
ままで以上に統計を語らないと、肩身が狭いようですね。多様な視点がま
だ許される時代に、この分野と関われて幸せだった、と思う。
2005-03-06 Sun
* The Hungarian Method [r]
最適割り当て問題の解説は、↓にもありました(pp.66-70)。
http://www.amazon.co.jp/exec/obidos/ASIN/4535601402/ref=pd_sims_dp__5/249-0022586-9255571
この講義ノートが、私にとって、一番、わかりやすかったです。
http://www.cs.ucsb.edu/~suri/cs230/Matching.pdf
恥ずかしい話だが、bipartite weight *matching* と bipartite weight
*assignment* は同じものだと思っていた。
A matching in a graph G=(V,E) is a subset M of the edges E such that
no two edges in M share a common end node.
An assignment in a bipartite graph is a matching M such that each edge
of the graph has an incident edge in M.
とんだ勘違いだった。one-to-many や many-to-one 型のアライメントを
扱いたかったら、assignment を考えるべきなのね。あ、まだ傷口が小さ
い段階で、気がついて、良かった、良かった。
# 後記: matching も assignment も one-to-one の対応でした。
# 勘違いの勘違い…。
* 久しぶりのマッサージ [r]
疲れが溜っていたから。30分。極楽。家路への帰り、スターバックスへ
いく。チャイラテを飲む。
思わぬ展開になって、なぜか「紅茶のおいしい入れ方」のについて講釈を
聞く。学んだことは(誤解も含めて)、
- 形容詞にも連用形は存在する。
しかし、助動詞で呼応させるのが通常の用法。
e.g. 「おいしかった」「おいしくない」
- 形容詞の連用形の後に、動詞を続ける用法は、不可らしい。
e.g. 「紅茶をおいしく入れる」は * マークらしい。
正しくは、「おいしい紅茶を入れる」だろう、ということ。
- こういうヘンテコな現象をコリージョン(その人の発音から、
back-transliteration できなかった)というらしい。
# 後記 コアジョン?かなぁ。でもスペルわからない。
勉強になりました。もちろん、美味しいチャイでした。
家にかえって、気になったから、Cabocha で解析させてみた。
* 0 1D 0/1 0.21236038
紅茶 コウチャ 紅茶 名詞-一般 O
の ノ の 助詞-連体化 O
* 1 2D 0/0 2.00199354
おいしい オイシイ おいしい 形容詞-自立 形容詞・イ段 基本形 O
* 2 3D 1/2 0.00000000
入れ イレ 入れる 動詞-自立 一段 連用形 O
方 カタ 方 名詞-接尾-特殊 O
を ヲ を 助詞-格助詞-一般 O
* 3 -1O 0/0 0.00000000
習う ナラウ 習う 動詞-自立 五段・ワ行促音便 基本形 O
。 。 。 記号-句点 O
EOS
どうも、「紅茶」が「おいしい」に係ることが不自然、ということを説明
したかったようだ。。
2005-03-05 Sat
* 業務連絡 (続 The Hungarian Method) [r]
内山さんから、任意の無効グラフの最大重みマッチングを求めるプログラ
ムのラッパー(mwm)を提供してもらいました。早速、使ってみました。
例えば、この対訳文だと
夜 が 明けよう と する 頃 やっと 仕事 が 終わった 。ベースライン(いわゆる P(e|f) と P(f|e) のリンク集合積をとる方法で
I finally finished the job just as the dawn was about to break .
precision はとても良い、recall はあきらめた方法)はこんな感じでした。
6 やっと 1 finally
9 終わった 2 finished
7 仕事 4 job
5 頃 10 about
10 。 13 .
今回の、最大重みマッチングによる方法。最初のコスト行列は、P() を
log() とって、 -1 かけて、逆数にする、ふつーのやりかた。あ、一応、
e->j と j->e 方向それぞれにコストだして、「苦しまぎれのα」で線形
補完。
0 夜 5 just
1 が 0 I
2 明けよう 3 the
3 と 6 as
4 する 11 to
5 頃 10 about
6 やっと 1 finally
7 仕事 4 job
8 が 9 was
9 終わった 2 finished
10 。 13 .
まだ、評価する段階じゃないけど、recall は 0.302470119521912 から
0.353147410358566 に上がりましたが、precision は下がっていそう。
# I-world データは、部分的にしかマークされていないから、
# recall しか計算できないのが、難点。
# これの完全正解データを作るべきなんだろうなぁ。(泣)
先週は、The Hungarian Method で止まっていて、敗北だったが、試せる
ようになったから、少し進歩。
ありがとうございます。> 内山さん
まだ感触がつかんだばかりで、工夫の余地はありそうなので、いろいろ試
してみたいと思います。まとまったら、ご報告します。
2005-03-03 Thu
* The Hungarian Method [r]
かなり回り道をしていたが、要は、この問題を解けば、対称コストでやる
方法を再現できるらしい。しっかし、肝心のアルゴリズムがわからんのだ。
http://www.cs.elte.hu/egres/design/generated/pub_techrep55.html
やっと、それっぽいライブラリが見つかったけど、今は商用ライセンスが
必要らしい。↓。日本ではただの評価版が見つかる。↑。ダウンロードし
たら、今度は、tar で展開できない。↓。ゆえに、本日も、敗北。
2005-03-02 Wed
* 書きかえたい言葉一覧 [l]
通知表などの所見欄に,書きたいけど書けない言葉を書カき換カえる一覧イチランです。参考にして下さい。
http://www.kyo-sin.net/reframe.htm
とあります。おもしろい。
これって、PN (形容詞)のデータにならない? > T村さん、Iたさん
ちなみに 「こだわりのある」は「自分の意見を持った」や「意志が強い」
と言い換えられていた。「こだわる」のは悪いこと。私の両親は前期高齢
者に認定されている年代ですが、彼らにとって「こだわる」のは悪いこと。
昨今、ラーメン店主がインタビューで、「スープにこだわっている」など
答えているのを聞くことがあるけど、とても違和感を感じるといっていた。
大辞林 第二版では
(1)こだわること。拘泥。
「今では彼に何の --- もない」
(2)なんくせをつけること。文句をつけること。
「本家から --- のくる嫁をとり/柳多留拾遺」
とある。これからは、「こだわり」を捨てて、しなやかな人生を送りたい。
一方で、誤用とはいえ、無視できないんだ、ということも認識。だって、
そういう用法が Web に氾濫しちゃうと、それが、de facto standard に
なるから、そこからマイニングする場合は、PN も本来の意味とは違うこ
とになるのね。
2005-03-01 Tue
* 技術力も翻訳力も、つけたい! [l]
Ajax や、web service 系の API に関する話題が続出。
とくに、http://la.ma.la/blog/ で紹介されているハックがすごい。
今後が楽しみ。
そして、いつもAjax の文書の訳 みたいに良
質な文書があると、飛躍的に広まるっていう現象を見る。
今の私は、中途半端でパッとしない似非職業研究者だから、こんな技はで
きないけど…、地道に修練して科学や技術を体験して伝達できる人になり
たい。