2004-12-22 Wed
* 高村さんは偉い! [o]
今日は、勉強会で、Markov Random Field と EM と Mean Field Theory
辺りと絡んでくる論文を「解説」してくださった。学生時代から、いつも、
偉いと思っていて、なかなか見習えないところは、式を「解説」してくれ
るところ。どうやって読みといたらいいか、過程を順序だって解説すると
ころ。論理に落し穴があんまりないから、おいてけぼりに、あんまり逢わ
ない。今回も、わかった「気分」にちょっとだけさせてもらいました。幸
せ因子がすこし増えて、脳細胞がほろ酔いして、いい感じ。
ただ、私以外のスタッフさんは、皆さん、お疲れモードみたい。人徳があ
るから、疲れる、ってのも可哀想。職場の仲間として、さらに雑用を増や
さないように自分で処理できることをすこしずつ増やしていこう。
2004-12-20 Mon
* Dyama さんとMつださん [o]
Dyama さんは GB で、Mつださんは AA で、奥村研究室にいらっしゃる。
いつぞや年末に松本研に卒業生が大集合した感じみたい。728に5人と
いうのは、高密度。
皆さん、お元気そう。「最近どう?お忙しいですか?」と大人語で雑談が
始まり、大物松本研出身者が近々東急沿線にくるよ、だから、ごたごたが
一段落したら、関東地区で集まりましょうねー、という話もでてきた。こ
れからも、関東進出の勢いは止まらないらしい。私は、アマノジャクなの
で、逆行する予定ですが、まぁ、その前に、ソーシャライズ恐怖症が治っ
ていると、ありがたいかも。というわけで、今回の打ち上げも不参加。
2004-12-10 Fri
* Non-Emperical methods in NLP [r]
ちょっと Kevin Knightの論文が読み
たくなってページをみていたら、こんな SIG があるらしい。
http://www.isi.edu/natural-language/people/nemnlp06.txt
NLPの業界で、何をもって emperical methods と主張できるのか不明なん
だが、この方法は emperical じゃないって主張する方がもっと難しそう。
2004-12-05 Sun
* T 中研 OB 合同研 [o]
面白かったです。
何が、って… 発表後の OB 方々のツッコミが。発表も、ですが。数多く
あった爆弾発言の中で、「それは、人手エラーなのか手抜きなのか。」は
深いと思いました。
我上司の O先生、他には、T永先生、S井先生、I師匠とは、いままでお話
することもあったのですが、他の OB の方々は、名前を知っている程度だっ
たので、いろいろ人物観察ができて楽しかったです。K 野さんを久しぶり
に見て、昔のパワーがあったから、妙に安心したり。
あんな OB を育てた T中先生ご自身の幅広さと奥行きに、改めて、感動。
私が学生時代のときは、S山氏や A辺川氏 の発表を聞く機会があったんだ
けど、最近はあんまりなかった。やはり、T中T永研は、人口知能分野の由
緒ある研究室なんだよね。AIの全体の展開をみながら、自然言語処理に貢
献しているんだよね。言語と音声と画像のインターフェースを大事にして
いるからこそ出る発想ってのがあって、OB の方々もそれをいい形で継承
してるなぁーって感じ。皆さん、発想が柔軟で好奇心旺盛なんだけど、結
構、マニアックに食いついて噛み砕くだけの根性をお持ちなのよね。(教
養も根性もない私には無理だけど。)
指導者として、生成や理解という深いところまで進もうとしている努力や、
(時には怪しまれることもありそうな)境界・融合領域にかかんに立ち向
かう勇気やいたずらに抽象論を好むアカデミズム偏重ではなくきちんと現
実を見据えていこうという姿勢が随所に感じられました。うまく言えない
けど、学術的進歩と実用的進歩の間で、絶妙なバランス感覚というか美意
識がみなさんにあって、それは見習いたいな、と思いました。
今回、私が深く反省すべきことは、質問しなかった点ですね。時間がおし
ているんだよ…という司会の先生の目線と、今さら感で、引いてしまった
のが、敗北かも。でも、I 師匠が愛のあるツッコミとフォローをしていた
ので、まあ、いいか。私も、他の先生方のように、あのような場でも、き
ちんと質問やコメントができるように修行しないといけないなぁ。
全般的に、とてもいい経験させてもらいました。感謝です。
* 電車運はなかった [l]
今日は、大岡山へ。ということで、いつもと違うルートなんですが、
電車には、ことごとく裏切られました。
行きは、京浜東北線は××のため、運転見合わせ。京急は、××のためダ
イアが乱れる。東急東横線は、停電のため、運転見合わせ。とかいわれて、
もう、パニック。普通なら(鶴見->大井町->大岡山)、間に合う時間に家を
出たのに、行き方わからず。結局、京急蒲田から東急蒲田まで20分ぐら
い町のなかを歩きました。ルートは、京急鶴見->京急蒲田->東急蒲田->多
摩川->田園調布->大岡山だった。東急多摩川線とか、東急目黒線とか、乗っ
たことのない線ばかりで、緊張しました。
帰りは、大井町で。大宮行きと大船行きを間違えました。方向音痴です。
2004-12-03 Fri
* AER [r]
AER (Alignment Error Rate) は、わかち書きが正しいという前提の評価
尺度である。わかち書きが間違っている可能性がある時はどうしたらいい
んだ? cAER (character-based Alignment Error Rate) ? mAER ?!
データみていて気がついたんだが、juman の ContentW.dic にとって、
「補佐官」は未知らしい。「長官」は既知だけど。「補佐」は、サ変名詞
となっていて、cost(普通名詞-普通名詞) < cost(サ変名詞-名詞) だから、
選ばれなかったのね。
コンドリーザ コンドリーザ コンドリーザ 未定義語 15 カタカナ 2 * 0 * 0
・ ・ ・ 特殊 1 記号 5 * 0 * 0
ライス らいす ライス 名詞 6 普通名詞 1 * 0 * 0
国家 こっか 国家 名詞 6 普通名詞 1 * 0 * 0
安全 あんぜん 安全だ 形容詞 3 * 0 ナ形容詞 21 語幹 1
保障 ほしょう 保障 名詞 6 サ変名詞 2 * 0 * 0
担当 たんとう 担当 名詞 6 サ変名詞 2 * 0 * 0
大統領 だいとうりょう 大統領 名詞 6 普通名詞 1 * 0 * 0
補 ほ 補 名詞 6 普通名詞 1 * 0 * 0
佐官 さかん 佐官 名詞 6 普通名詞 1 * 0 * 0
を を を 助詞 9 格助詞 1 * 0 * 0
指名 しめい 指名 名詞 6 サ変名詞 2 * 0 * 0
する する する 動詞 2 * 0 サ変動詞 16 基本形 2
。 。 。 特殊 1 句点 1 * 0 * 0
EOS
対応で考えると、語源は、<advise,補佐> だろうから、そこからなんとか
救われる方法が見つかるといいんだが。どうしたものか。
2004-12-01 Wed
* SMT のいまさら [r]
SMT で、word alignment を対訳コーパスから学習する vanilla モデル
(IBM方式)は、原言語の1単語は、たかだか目的言語の1単語に対応する
という仮定でモデル化している。こうすると、複数語で対応するときが問
題だ、という自明な批判がはいって、かわすためにいろいろ拡張がある。
その一つに、alignment template なる方法 (Och ら 1999) があるのだが、
その中で、初期の alignment matrix を作るのに symmetrization という
操作を行なっている。なんのこっちゃない、f->e と e->f の両方を学習
させて Viterbi alignment を算出して、alignment links の集合積と集
合和をとっているだけ。(正確には、集合積リンクから少しずつ拡張する
ため提案もしているけど。)
実は、この集合積の precision がかなりいい。論文では、Verbmobil (英-独)
で88.4 とあった。長い文でも precision がいいかな、と、気になったので、
やってみた。
内山コーパスの上位 500 文で学習、新聞リード文の対訳でテスト
内山コーパスの上位 5000 文で学習、新聞リード文の対訳でテスト
内山コーパスの上位 50000 文で学習、英字新聞リード文の対訳でテスト
内山コーパスは、読売新聞で同じ分野。にしても、見た目、すごくいい。
悔しいから、特許でもテストしてみた。
内山コーパスの上位 500 文で学習、特許の背景文の対訳でテスト
内山コーパスの上位 5000 文で学習、特許の背景文の対訳でテスト
内山コーパスの上位 50000 文で学習、特許の背景文の対訳でテスト
こっちは、そこそこ。分野が違うと、recall がはげしく落ちるのが観察
されるぐらい。
…手ごわい相手だ。フリダシに戻ってしまったかも。やばいぞ。> 私
* ブログで知識獲得 [r]
今日、宿題をやっていたのに、それを忘れて読んでしまった。
http://blog.livedoor.jp/y-46/
本来の目的は figurative speech というか as adj as .. のイディオム探し。
http://efl.htmlplanet.com/similes.htm
この ChangeLog はただのワタシノキロクだから、他人に役立つことを書
くつもりはないけど(というより書けない)、ブログで学ぶことって案外
多い、としみじみ感じた。
# 他のO研究室のメンバの、「いまさら…」という声が聞こえそう。