2004-06-30 Wed
* 通訳学校 [t]
今週は、John Logan のインタビュー。最初は、大意を伝える練習。意外
と楽。次は、情報を過不足なく、嘘をつかずに、伝達する練習。むずい。
インタビューは、書き起こしてみると、脈絡ない発話で、まとまりがない。
リアルタイムで聞いているときは、フィラーに惑わされないだけでも、一
苦労。話ことばの研究って大変、と思ってしまった。
来週は、troop in Iraq だそうだ。単語リストを作っておくのが宿題。こ
れって、non-parallel corpus からの対訳表現抽出。。。まずは、イラク
関連の新聞記事をとってくることから始めないと。面倒だから、誰か時事
単語リストを web に置いていないかなぁー。
* 本日 [o]
仕事復帰。リセット。
いろんな意味で、非現実的な時間と空間を過ごした4日間だった。
4月から続いた「すこし休養してもいい」期間の最終日。
ぼちぼち、仕事( CREST らしい研究 )します。
2004-06-24 Thu
* imput [o]
計算が長くなりそうという憂鬱な実験の場合、スクリプトの最後に、結果
のまとめを mail コマンドで自分に送ることがよくある。前の職場は、モ
デル学習が多かったから、特に。外出先でも、結果だけ眺めて、早めに落
胆して、という感じかな。
奥村研の環境のローカルマシンでは、
$ cat result.txt | mail -s "subject" [user's address]
とすると、多分、/var/mail/user に送られてしまう。アドミンの N さん
に聞いたところ、SMTP サーバに送らないといけないらしい。F さんのア
ドバイスにより、
$ cat result.txt | imput -s "subject" [kaoru's address]
とする。ちゃんと、自分のメールボックスに送られてきた。imsetup で設
定している人は、(mewを使っている人は)これで良いらしい。ありがとう
ございます。
でも、前の職場で、mail コマンドで、できていたのが、謎。やっぱり、
ネットワークに関しては、もう少し修行しないといけないかな…。
でも、アドミンさんが優秀だから、苦労せずに答えが発掘できるし、それ
に、甘えてしまう。結果として、ユーティリティ度低い、迷惑人間のまま、
成長しない。ありがちな負のパターン。
後日談 ([2004-07-01])
今日も、30分ぐらい、NFS マウントしているホームからの応答が鈍くな
りました。刺さっている…とつぶやいて、現場から逃げてしまいました。
本日は、アドミンさんらがご出勤されていたので…。ごめんなさい。ごめ
んなさい。ごめんなさい。計算機を使わせてもらうだけで、嫌な仕事を奉
仕していない、現状はよくない。と思っていても、改善策なし。
あかんやん、自分。
今日は、なぜか人口密度が高った。確かに、アドミンさんにとっては、出
勤している間は雑用が多くて仕事にならないから、家で仕事をする方が能
率があがる、という主張はよくわかる。
代わりに、コーヒー豆とフィルターを生協で購入して、補充しておきまし
た。帰ってきたら、正常になっていた。すばらしい。
2004-06-23 Wed
* 通訳学校 [t]
今回は、現役通訳者(日本人)が先生で、お題は、「再生」。
日→日と英→英。
基本は言語モデルの強化、翻訳モデルはその後、という方針らしい。機械
翻訳も、単言語での言語モデルがリッチな(つまり、単一言語内での高度
な内容理解と換言処理ができる)方が、応用がきく、ということなのかも。
「再生」は「文脈をとらえながら、内容を生成する」ことが重要。
# もちろん記憶力と集中力がつづければ、「繰返し」でもいいけど。
Speech-to-Speech Reproduction なので、フィラー、言い直し、言い淀み
は再生の対象としてはならないし、長い場合は、等価な内容への要約(も
しくは換言)がリアルタイムで求められる。
そんなんできるか、と心で思いながら、2時間ぐらいやる。ヘトヘト。
* 勉強会担当 [o]
http://www.cis.upenn.edu/~libin/paper/ijc04.pdf
いつも通り私の説明がヘタレであったが、IさんもAさんもそれなりに発話
してくれて、なんとか終った。とは言え、reranking という言葉に困惑な
3人だった。
2004-06-22 Tue
* 続 mecab-0.78 [o]
奥村研の *標準* 環境は、debian @ athlon です。
N 野さんに、他の環境で試してもらった。
redhat@intel は、異常なし。(予想通り)
debian か athlon かという切り分けをしたかったので、debian@intel で
も試してもらう。ダメだったらしい。
ということで、debian が、mecab と相性が悪いみたい。
* mecab-0.78 [o]
mecab の新しいバージョンがでたので、getCost で落ちる問題に再挑戦。
今回は、pthread は無しでビルド。怪しいとのアドバイスのため。
Perl/Ruby バインディングの挙動もおかしいんだが、そもそも、ソースの
example/example.c が、0.77 と同じで segmentation fault で落ちる。
考えるに、mecab.h と libmecab.cpp の C/C++ インタフェースの橋渡し
が、AMD Athlon と相性が悪いかも。SWIG も mecab.h で定義されている
関数を呼んでいるみたいだし。
画面に表示させないように、小技を試してみたけど (Fさんに言われたこ
と)、どれも敗北。
# 負の報告ばっかりになってる…。ダメダメな感じ。
* Named Entity tagger のモデル作成 [o]
CoNLL-2003 の Shared Task のデータを使う。
eng.train で学習、eng.testb でテストをする。
学習は、YamCha を使わせてもらう。
素性につっこむための前処理は、内山さんの各種ツールで対処する。
で、結果。
P R F
LOC 0.8216 0.8117 0.8166
MISC 0.7749 0.6082 0.6815
ORG 0.7078 0.7074 0.7076
PER 0.8052 0.8565 0.8300
all 0.7780 0.7685 0.7733
何にも考えずにやったからだけど、ちょっと悪いかな…。奥村研の共
用ディレクトリに置ける精度じゃない。もうちょっと考えよう。
2004-06-11 Fri
* 続 comedy duo [t]
"a straight man" は、ボケ役の英訳なのか、ツッコミ役の英訳なのか?
M 研の A 助手から、"a straight man" だと激しく突っ込まれた。
O 研の T 助手からは、次のような情報をいただきました。
(以下、無許可で抜粋)
直観と違ったので、実は僕も少し調べてたのですが、
簡単に逆だとも言い切れないような感じもします。
A straight man is a role in comedy
where a performer works with a comedian
by setting up the situations that allows the partner to make a joke.
http://encyclopedia.thefreedictionary.com/Straight%20man
ジーニアス英和大辞典 【straight】{'〜} m{`a}n
▽{'〜} m{`a}n((米))(喜劇役者の)引き立て役, ぼけ役(((PC)) comic's partner).
ということで、食い違いがあることを教えてくれました。
確かに、授業中は、"a comedian makes jokes about a stright man, a
straingt man is to be laughed at ..." みたいなことを言っていたよう
な記憶がある。で、私は、ボケ役だと解釈していた。
最後に、T 助手のコメントを引用しておこう。
日本式に分けようってのが無理なんでしょうか?
それともジーニアスが間違ってるのかな。
でも、いずれにしても、straight man が真面目役ってのは
確かっぽいですね。
でも、
真面目役 = ボケ
ってわけでも、
真面目役 = ツッコミ
ってわけでもなさそうですねぇ、、。
あちらのコメディアンは solo が多いから、確かに、訳することそのもの
が難しいのかも。
日本のお笑いコンビを説明するときに、良い英訳をご存知でしたら、教え
てください。
2004-06-10 Thu
2004-06-09 Wed
2004-06-08 Tue
* 続 ニロウ [o]
現実逃避。juman-4.0 は、辞書が違うからだと思うけど、解析結果は、
人名「二郎」になった。
太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0
は は は 助詞 9 副助詞 2 * 0 * 0
この この この 指示詞 7 連体詞形態指示詞 2 * 0 * 0
本 ほん 本 名詞 6 普通名詞 1 * 0 * 0
を を を 助詞 9 格助詞 1 * 0 * 0
二郎 じろう 二郎 名詞 6 人名 5 * 0 * 0
を を を 助詞 9 格助詞 1 * 0 * 0
見た みた 見る 動詞 2 * 0 母音動詞 1 タ形 8
女性 じょせい 女性 名詞 6 普通名詞 1 * 0 * 0
に に に 助詞 9 格助詞 1 * 0 * 0
渡した わたした 渡す 動詞 2 * 0 子音動詞サ行 5 タ形 8
。 。 。 特殊 1 句点 1 * 0 * 0
EOS
辞書を見てみると、Noun.koyuu.dic に次のエントリがあった。
Noun.koyuu.dic:(名詞 (人名 ((見出し語 (二郎 1.0)) (読み じろう))))
Noun.koyuu.dic:(名詞 (人名 ((見出し語 (二郎 1.0)) (読み にろう))))
固有名詞の中に、「二郎」駅に該当するエントリがない。
にしても、読みが「じろう」になっているのは、どうやって制御してるの
だろう? まだ、マニュアルを読んでないから、、、厳しい現実に戻ろう。
2004-06-07 Mon
* mecab-0.77 [o]
http://www.tahoo.org/~taku/diary/2004-06.html#2004-06-05
動作が不安定なのは、アーキテクチャのせいかも、とのこと。
現在、奥村研で使用させてもらっているマシンの /proc/cpuinfo によると、
vendor_id : AuthenticAMD
model name : AMD Athlon(TM) XP1800+
らしい。確かに、非 Intel なマシン。先週、ふじきさんと話したときは、
バッファ関係か、mmap が怪しいね、ということになりました。
忘れてたけど、printf 以外の策を、Fさんに報告しなくては。> 私
# 多分、cocab も奥村研では動かないだろうな(号泣)。
* ipadic-2.51 [o]
二郎の読みについて、とある辞書屋さんから、以下の情報をいただきました。
太郎は、「名詞-固有名詞-人名」ですが、
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー 4122
二郎は、「名詞-固有名詞-一般」で、人名じゃないそうです。
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー 15760
この「二郎」は、神戸電鉄三田線の「二郎」駅だそうです。既出らしいです。
へぇー。
そんなん知るか。と、毒を吐くのはよくないので、ipadic を調べてみる。
確かに2つのエントリがありました。
Noun.name.dic:(品詞 (名詞 固有名詞 人名 名)) ((見出し語 (二郎 2383)) (読み {ジロウ/ニロウ}) (発音 {ジロー/ニロー}) )
Noun.proper.dic:(品詞 (名詞 固有名詞 一般)) ((見出し語 (二郎 2922)) (読み ニロウ) (発音 ニロー) )
「[:駅:]を見た女性」より「[:人:]を見た女性」の方が共起しやすいか、
と言われると、微妙な差かな。前件はトライグラムまでみているとすると、
「本/を/固有名詞-一般」と「本/を/固有名詞-人名」だし、う〜ん、微妙。
日本語を理解する人は、「太郎」があるからそれとよく対比する「二郎」
の品詞は「名詞-固有名詞-人名」になる、という推論が働くと思う。こう
いう離れた呼応(?)は、現状の形態素解析で、扱えないところかも。
mecab と chasen は、同じ辞書と連接表を使っている。だけど、連接表の
解釈がすこし違う。辞書を読み込むとき、chasen は、connect.cha のルー
ルを上から読んでいって、下の方のルールで上書きしてる。connect.cha
の順番が優先順位になっている。(と理解している。) 一方、mecab は、
内部で、ルールの specific さを判断してできるだけ specific な連接ルー
ルを適用するようにしている。(libmecabdic.cpp と dictionary_maker.h
は昔から鬼門だから、理解は怪しいが。)
ほとんどの場合、同じ解析結果になるけど、今回は、適応される品詞の連
接ルールの方で差がでできそうだったから、chasen でも試してみた。
太郎 タロウ 太郎 名詞-固有名詞-人名-名
は ハ は 助詞-係助詞
この コノ この 連体詞
本 ホン 本 名詞-一般
を ヲ を 助詞-格助詞-一般
二郎 ニロウ 二郎 名詞-固有名詞-一般
を ヲ を 助詞-格助詞-一般
見 ミ 見る 動詞-自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形
女性 ジョセイ 女性 名詞-一般
に ニ に 助詞-格助詞-一般
渡し ワタシ 渡す 動詞-自立 五段・サ行 連用形
た タ た 助動詞 特殊・タ 基本形
。 。 。 記号-句点
EOS
結果は同じ。神戸電鉄の「二郎」駅は、やっぱり、強かった。
2004-06-04 Fri
* mecab-0.77 [o]
実は、奥村研の計算機環境(gcc-3.3.3 (Debian 20040401))で
mecab-.0.77 の perl/ruby binding が落ちるという問題をずっと抱えて
いました。現象は、MeCab の Tagger オブジェクトを生成するところまで
問題なしでも、parse メソッドを呼び出すところで、落ちる。ただし、
sentence が 1 形態素だけのラティスのみ(例えば sentence = "赤") は、
解析される。
最初に報告してくれたのは、南野さん。で、今日、「日頃の行ないが良い」
藤木さんが、(暫定的だけど)解決策を発見。私は力不足だし日頃の行な
いが悪いので、解決できませんでしたが、助かりました。ありがとうござ
いました。
1. mecab-0.77/src/tokenizer.h の getCost の関数の始めに、printf("\n"); を挿入する。
virtual unsigned int getCost (const Node *lNode2, const Node *lNode,
const Node *rNode)
{
printf("\n"); // <--- おまじない
return matrix [size3 * ( size2 * lNode2->token->rcAttr2 +
lNode->token->rcAttr1) + rNode->token->lcAttr]
+ rNode->token->cost;
}
2. mecab-0.77 本体を再度コンパイル
% cd ${MECAB-0.77}
% make clean; make install
3. mecab-ruby-0.77 でバインディングを再構築する。
% cd ${MECAB-0.77-RUBY}
% make clean; make
4. テスト
% ruby test.rb
# ここで、getCost 関数が呼ばれた回数だけ改行が出力される。
# 何回、連接表が参照されたかわかる。
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー 4122
は 助詞,係助詞,*,*,*,*,は,ハ,ワ 5545
この 連体詞,*,*,*,*,*,この,コノ,コノ 7235
本 名詞,一般,*,*,*,*,本,ホン,ホン 9660
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 10438
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー 15760
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 16928
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ 18645
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 18987
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ 21411
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 22262
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ 25290
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 25601
。 記号,句点,*,*,*,*,。,。,。 25892
BOS/EOS,*,*,*,*,*,*,*,* 25892
EOS
やっぱり、tokenizer.h の getCost() に問題がありそうみたいです。
私の環境だけかもしれないけど、
% ruby test.rb > result
% lv result
とすると、なぜか、出力がバイナリコードなんだけど…。むむむ。
あと、ファイルストリームの入力が全滅。何にも出力されない。
% cd ${MECAB-0.77}/src
% ./mecab file
# 出力がない。
どうしてかな…。何か、相性悪いよね。ということで、未来の私への宿題。
余談ですが、藤木さんに、「二郎」の読みと発音について、突っ込まれま
した。> ipadic な方
あと、ldd で、*.so ファイルの依存関係を調べられるということも教え
てもらいました。
kaoru@matthew:~/tools/mecab-ruby-0.77$ ldd MeCab.so
libmecab.so.0 => /home/lr/kaoru/lib/libmecab.so.0 (0x4000a000)
libpthread.so.0 => /lib/tls/libpthread.so.0 (0x4006f000)
libstdc++.so.5 => /usr/lib/libstdc++.so.5 (0x4007e000)
libdl.so.2 => /lib/tls/libdl.so.2 (0x40137000)
libcrypt.so.1 => /lib/tls/libcrypt.so.1 (0x4013a000)
libm.so.6 => /lib/tls/libm.so.6 (0x40166000)
libc.so.6 => /lib/tls/libc.so.6 (0x40189000)
/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)
libgcc_s.so.1 => /lib/libgcc_s.so.1 (0x402c3000)
2004-06-03 Thu
* 計算機係見習い [o]
講師に、あべかわさんとふじきさんの2人体制で、聴講する方も5、6人
に。3時間ぐらい詰め込み授業。私は熱暴走だったため、はてな飛ばしま
くり。(ref. [2004-06-01])
Wiki にまとめるという宿題をすこしづつする。NAT の一部だけ。
宿題も体重やストレスと同じで、私の許可なく増えていく。侮れない。
# アドミン講習会は終ったとのことなので、宿題は増えないはず。
# me も調べないと。
2004-06-02 Wed
* まだ、体がきつい [l]
寝たのに、まだ、体がつらい。熱も下がんないし、頭も割れそうに痛いし、
なにより、喘息咳もとまらん…。無理は禁物ということで、落ち着く。
通訳学校も、電話して、今日の休みを伝える。
くわはたさんが、喉に違和感を感じるときは、内科ではなく、耳鼻咽喉科
にかかると良い、と教えてくださる。ありがたい。
2004-06-01 Tue
* 体がきつい [l]
とりあえず、気合いだけで、出勤。雨だから、一人で自宅にいるとブルー
入るので精神的によくない。病気になってもいいが、病人になるのは危険。
今日は、何か輪講やアドミン講習会があったように思うし、何か口走った
気もするが、実は熱でふらふらのため、根拠-lessな言動の連続。ほとん
ど記憶なし。ただ、思いっきり、体も心もヘトヘトに疲れたから、2日ぶ
りに、熟睡。プチ勝利。
# 根拠-less という言葉は、?年前、M研で、T村さんから始めて聞きました。
# Google で、「根拠レス」の検索結果は、762 件でした。