<<< >>> 最新 / kaoru's clog

ChangeLog 2004-06

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2004-06-30 Wed

* 通訳学校 [t]

今週は、John Logan のインタビュー。最初は、大意を伝える練習。意外
と楽。次は、情報を過不足なく、嘘をつかずに、伝達する練習。むずい。

インタビューは、書き起こしてみると、脈絡ない発話で、まとまりがない。
リアルタイムで聞いているときは、フィラーに惑わされないだけでも、一
苦労。話ことばの研究って大変、と思ってしまった。

来週は、troop in Iraq だそうだ。単語リストを作っておくのが宿題。こ
れって、non-parallel corpus からの対訳表現抽出。。。まずは、イラク
関連の新聞記事をとってくることから始めないと。面倒だから、誰か時事
単語リストを web に置いていないかなぁー。

* 本日 [o]

仕事復帰。リセット。
いろんな意味で、非現実的な時間と空間を過ごした4日間だった。
4月から続いた「すこし休養してもいい」期間の最終日。
ぼちぼち、仕事( CREST らしい研究 )します。

Referrer (Inside): [2004-07-03-1]

2004-06-25 Fri

* しばらく、IP-unreachable になります。 [l]

* 書き起こし [t]

The Last Samurai の脚本家の John Logan のインタビュー。昨日ねる前
にやりはじめたが、途中で落ちたみたい。記憶がない。朝、起きたら、枕
近くと床にメモが散らかっていた。"スタートレックねめしす"にも興味な
いけど、夢がSFチックだったのは、このインタビューの仕業かも。だるい。

2004-06-24 Thu

* imput [o]

計算が長くなりそうという憂鬱な実験の場合、スクリプトの最後に、結果
のまとめを mail コマンドで自分に送ることがよくある。前の職場は、モ
デル学習が多かったから、特に。外出先でも、結果だけ眺めて、早めに落
胆して、という感じかな。

奥村研の環境のローカルマシンでは、

$ cat result.txt | mail -s "subject" [user's address]

とすると、多分、/var/mail/user に送られてしまう。アドミンの N さん
に聞いたところ、SMTP サーバに送らないといけないらしい。F さんのア
ドバイスにより、

$ cat result.txt | imput -s "subject" [kaoru's address]

とする。ちゃんと、自分のメールボックスに送られてきた。imsetup で設
定している人は、(mewを使っている人は)これで良いらしい。ありがとう
ございます。

でも、前の職場で、mail コマンドで、できていたのが、謎。やっぱり、
ネットワークに関しては、もう少し修行しないといけないかな…。

でも、アドミンさんが優秀だから、苦労せずに答えが発掘できるし、それ
に、甘えてしまう。結果として、ユーティリティ度低い、迷惑人間のまま、
成長しない。ありがちな負のパターン。

後日談 ([2004-07-01])

今日も、30分ぐらい、NFS マウントしているホームからの応答が鈍くな
りました。刺さっている…とつぶやいて、現場から逃げてしまいました。
本日は、アドミンさんらがご出勤されていたので…。ごめんなさい。ごめ
んなさい。ごめんなさい。計算機を使わせてもらうだけで、嫌な仕事を奉
仕していない、現状はよくない。と思っていても、改善策なし。
あかんやん、自分。

今日は、なぜか人口密度が高った。確かに、アドミンさんにとっては、出
勤している間は雑用が多くて仕事にならないから、家で仕事をする方が能
率があがる、という主張はよくわかる。

代わりに、コーヒー豆とフィルターを生協で購入して、補充しておきまし
た。帰ってきたら、正常になっていた。すばらしい。

2004-06-23 Wed

* 通訳学校 [t]

今回は、現役通訳者(日本人)が先生で、お題は、「再生」。
日→日と英→英。

基本は言語モデルの強化、翻訳モデルはその後、という方針らしい。機械
翻訳も、単言語での言語モデルがリッチな(つまり、単一言語内での高度
な内容理解と換言処理ができる)方が、応用がきく、ということなのかも。

「再生」は「文脈をとらえながら、内容を生成する」ことが重要。
# もちろん記憶力と集中力がつづければ、「繰返し」でもいいけど。

Speech-to-Speech Reproduction なので、フィラー、言い直し、言い淀み
は再生の対象としてはならないし、長い場合は、等価な内容への要約(も
しくは換言)がリアルタイムで求められる。

そんなんできるか、と心で思いながら、2時間ぐらいやる。ヘトヘト。

* 勉強会担当 [o]

http://www.cis.upenn.edu/~libin/paper/ijc04.pdf

いつも通り私の説明がヘタレであったが、IさんもAさんもそれなりに発話
してくれて、なんとか終った。とは言え、reranking という言葉に困惑な
3人だった。

2004-06-22 Tue

* 続 mecab-0.78 [o]

奥村研の *標準* 環境は、debian @ athlon です。

N 野さんに、他の環境で試してもらった。
redhat@intel は、異常なし。(予想通り)

debian か athlon かという切り分けをしたかったので、debian@intel で
も試してもらう。ダメだったらしい。

ということで、debian が、mecab と相性が悪いみたい。

* mecab-0.78 [o]

mecab の新しいバージョンがでたので、getCost で落ちる問題に再挑戦。
今回は、pthread は無しでビルド。怪しいとのアドバイスのため。

Perl/Ruby バインディングの挙動もおかしいんだが、そもそも、ソースの
example/example.c が、0.77 と同じで segmentation fault で落ちる。
考えるに、mecab.h と libmecab.cpp の C/C++ インタフェースの橋渡し
が、AMD Athlon と相性が悪いかも。SWIG も mecab.h で定義されている
関数を呼んでいるみたいだし。

画面に表示させないように、小技を試してみたけど (Fさんに言われたこ
と)、どれも敗北。

# 負の報告ばっかりになってる…。ダメダメな感じ。

* Named Entity tagger のモデル作成 [o]

CoNLL-2003Shared Task のデータを使う。
eng.train で学習、eng.testb でテストをする。

学習は、YamCha を使わせてもらう。
素性につっこむための前処理は、内山さんの各種ツールで対処する。
で、結果。

P R F
LOC 0.8216 0.8117 0.8166
MISC 0.7749 0.6082 0.6815
ORG 0.7078 0.7074 0.7076
PER 0.8052 0.8565 0.8300
all 0.7780 0.7685 0.7733

何にも考えずにやったからだけど、ちょっと悪いかな…。奥村研の共
用ディレクトリに置ける精度じゃない。もうちょっと考えよう。

2004-06-21 Mon

* 借金生活脱出に向けて [l]

ここ、10 日間ぐらい、人間らしい生活が営めなかった。
見積りが甘くて、実装がなかなかできなかったのが敗因。
GB までに、なんとか、バグ取り終了。ドライランで勘弁してもらう。
週末に思ったこと。私は、すでに、平和ボケ。帰国して10年たつから。

今週末から北海道で非日常な生活になるから、それまで、仕事を片付けて
おかないと。でも、落ち着いた生活を優先したい。どこまでも、弱いなぁ。

2004-06-11 Fri

* 続 comedy duo [t]

"a straight man" は、ボケ役の英訳なのか、ツッコミ役の英訳なのか?

M 研の A 助手から、"a straight man" だと激しく突っ込まれた。
O 研の T 助手からは、次のような情報をいただきました。
(以下、無許可で抜粋)

直観と違ったので、実は僕も少し調べてたのですが、
簡単に逆だとも言い切れないような感じもします。
A straight man is a role in comedy
where a performer works with a comedian
by setting up the situations that allows the partner to make a joke.
http://encyclopedia.thefreedictionary.com/Straight%20man
ジーニアス英和大辞典 【straight】{'〜} m{`a}n
▽{'〜} m{`a}n((米))(喜劇役者の)引き立て役, ぼけ役(((PC)) comic's partner).

ということで、食い違いがあることを教えてくれました。

確かに、授業中は、"a comedian makes jokes about a stright man, a
straingt man is to be laughed at ..." みたいなことを言っていたよう
な記憶がある。で、私は、ボケ役だと解釈していた。

最後に、T 助手のコメントを引用しておこう。

日本式に分けようってのが無理なんでしょうか?
それともジーニアスが間違ってるのかな。
でも、いずれにしても、straight man が真面目役ってのは
確かっぽいですね。
でも、
真面目役 = ボケ
ってわけでも、
真面目役 = ツッコミ
ってわけでもなさそうですねぇ、、。

あちらのコメディアンは solo が多いから、確かに、訳することそのもの
が難しいのかも。

日本のお笑いコンビを説明するときに、良い英訳をご存知でしたら、教え
てください。

* 頑張れ、matthew(私の常用マシン) [o]

お願いだから、暴走しないで。

2004-06-10 Thu

* ぼけキャラです。 [l]

突っ込まれました。

a comedian in a comedy duo - ボケ役
a straight man in a comedy duo - ツッコミ役

* 梅雨なので… [l]

心も体も、疲れ果てている。研究をしないと、焦ってはみるものの、実際
は、あんまり進まない。気分転換に、S さんを手伝おうとしたが、T さん
がソファでくつろいているところにマガジンの整理で邪魔して、荷物まと
めでは、F さんにダメダメ縛りを「きちんと」直してもらう。なにやって
いるんだか。

今日は、いつもより、こげぱん度が高い。そんな日もあるさ。

* げりら [o]

今度は、東京シンポ?で関東に来ている NAIST 方々もいっしょに飲み会
らしい。私は、その週末に泊り込むオランダ時代の親友の世話があるから、
飲み会は欠席。奥村研の合宿も不参加。かなり、つき合い悪いな > 私。

2004-06-09 Wed

* 通訳学校 [t]

講師の Jim さんが、授業の中で、普段、英訳を聞かれても困る英語をい
くつか紹介してくれた。

corny joke - 親父ギャク
comedy duo - お笑いコンビ
a comedian in a comedy duo - ツッコミ役
a straight man in a comedy duo - ボケ役

彼が corny joke を説明するとき "It's an OYAJI-GYAGU" と言ったのに
はびっくりしたが、授業では、English な dry sense of humour 炸裂で、
個人的には、そこを楽しみにしている。

* 勉強会 [o]

私は、ECOC を名前しか聞いたことがなく、概念は理解していませんでした。

そのことを正直に申告してしまった。勉強不足を恥じるべきかも。配慮が
足りなかったかも。知らないって言うときは、相手が説明ができる時間
(や環境)があるときにしないと、迷惑だよね。ごめんなさい。

2004-06-08 Tue

* 続 ニロウ [o]

現実逃避。juman-4.0 は、辞書が違うからだと思うけど、解析結果は、
人名「二郎」になった。

太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0
は は は 助詞 9 副助詞 2 * 0 * 0
この この この 指示詞 7 連体詞形態指示詞 2 * 0 * 0
本 ほん 本 名詞 6 普通名詞 1 * 0 * 0
を を を 助詞 9 格助詞 1 * 0 * 0
二郎 じろう 二郎 名詞 6 人名 5 * 0 * 0
を を を 助詞 9 格助詞 1 * 0 * 0
見た みた 見る 動詞 2 * 0 母音動詞 1 タ形 8
女性 じょせい 女性 名詞 6 普通名詞 1 * 0 * 0
に に に 助詞 9 格助詞 1 * 0 * 0
渡した わたした 渡す 動詞 2 * 0 子音動詞サ行 5 タ形 8
。 。 。 特殊 1 句点 1 * 0 * 0
EOS

辞書を見てみると、Noun.koyuu.dic に次のエントリがあった。

Noun.koyuu.dic:(名詞 (人名 ((見出し語 (二郎 1.0)) (読み じろう))))
Noun.koyuu.dic:(名詞 (人名 ((見出し語 (二郎 1.0)) (読み にろう))))

固有名詞の中に、「二郎」駅に該当するエントリがない。

にしても、読みが「じろう」になっているのは、どうやって制御してるの
だろう? まだ、マニュアルを読んでないから、、、厳しい現実に戻ろう。

2004-06-07 Mon

* mecab-0.77 [o]

http://www.tahoo.org/~taku/diary/2004-06.html#2004-06-05

動作が不安定なのは、アーキテクチャのせいかも、とのこと。
現在、奥村研で使用させてもらっているマシンの /proc/cpuinfo によると、

vendor_id : AuthenticAMD
model name : AMD Athlon(TM) XP1800+

らしい。確かに、非 Intel なマシン。先週、ふじきさんと話したときは、
バッファ関係か、mmap が怪しいね、ということになりました。

忘れてたけど、printf 以外の策を、Fさんに報告しなくては。> 私

# 多分、cocab も奥村研では動かないだろうな(号泣)。

* ipadic-2.51 [o]

二郎の読みについて、とある辞書屋さんから、以下の情報をいただきました。

太郎は、「名詞-固有名詞-人名」ですが、

太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー 4122

二郎は、「名詞-固有名詞-一般」で、人名じゃないそうです。

二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー 15760

この「二郎」は、神戸電鉄三田線の「二郎」駅だそうです。既出らしいです。

へぇー。

そんなん知るか。と、毒を吐くのはよくないので、ipadic を調べてみる。
確かに2つのエントリがありました。

Noun.name.dic:(品詞 (名詞 固有名詞 人名 名)) ((見出し語 (二郎 2383)) (読み {ジロウ/ニロウ}) (発音 {ジロー/ニロー}) )
Noun.proper.dic:(品詞 (名詞 固有名詞 一般)) ((見出し語 (二郎 2922)) (読み ニロウ) (発音 ニロー) )

「[:駅:]を見た女性」より「[:人:]を見た女性」の方が共起しやすいか、
と言われると、微妙な差かな。前件はトライグラムまでみているとすると、
「本/を/固有名詞-一般」と「本/を/固有名詞-人名」だし、う〜ん、微妙。

日本語を理解する人は、「太郎」があるからそれとよく対比する「二郎」
の品詞は「名詞-固有名詞-人名」になる、という推論が働くと思う。こう
いう離れた呼応(?)は、現状の形態素解析で、扱えないところかも。

mecab と chasen は、同じ辞書と連接表を使っている。だけど、連接表の
解釈がすこし違う。辞書を読み込むとき、chasen は、connect.cha のルー
ルを上から読んでいって、下の方のルールで上書きしてる。connect.cha
の順番が優先順位になっている。(と理解している。) 一方、mecab は、
内部で、ルールの specific さを判断してできるだけ specific な連接ルー
ルを適用するようにしている。(libmecabdic.cpp と dictionary_maker.h
は昔から鬼門だから、理解は怪しいが。)

ほとんどの場合、同じ解析結果になるけど、今回は、適応される品詞の連
接ルールの方で差がでできそうだったから、chasen でも試してみた。

太郎 タロウ 太郎 名詞-固有名詞-人名-名
は ハ は 助詞-係助詞
この コノ この 連体詞
本 ホン 本 名詞-一般
を ヲ を 助詞-格助詞-一般
二郎 ニロウ 二郎 名詞-固有名詞-一般
を ヲ を 助詞-格助詞-一般
見 ミ 見る 動詞-自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形
女性 ジョセイ 女性 名詞-一般
に ニ に 助詞-格助詞-一般
渡し ワタシ 渡す 動詞-自立 五段・サ行 連用形
た タ た 助動詞 特殊・タ 基本形
。 。 。 記号-句点
EOS

結果は同じ。神戸電鉄の「二郎」駅は、やっぱり、強かった。

* 要注意 [l]

週末は、原因不明の微熱と戦いながら、寝込んでしまった。もう、若くな
い、と認識した。

ちょっと元気になった隙に、耳鼻咽喉科に行きました。花粉症ではないが、
それの喉バージョンみたいなものらしい。リンパ腺は腫れているし、肩こ
りと頭痛が激しいし。お医者さんには、梅雨になるともっとひどくなる
よ、って脅かされた。嬉しくない。

2004-06-04 Fri

* mecab-0.77 [o]

実は、奥村研の計算機環境(gcc-3.3.3 (Debian 20040401))で
mecab-.0.77 の perl/ruby binding が落ちるという問題をずっと抱えて
いました。現象は、MeCab の Tagger オブジェクトを生成するところまで
問題なしでも、parse メソッドを呼び出すところで、落ちる。ただし、
sentence が 1 形態素だけのラティスのみ(例えば sentence = "赤") は、
解析される。

最初に報告してくれたのは、南野さん。で、今日、「日頃の行ないが良い」
藤木さんが、(暫定的だけど)解決策を発見。私は力不足だし日頃の行な
いが悪いので、解決できませんでしたが、助かりました。ありがとうござ
いました。

1. mecab-0.77/src/tokenizer.h の getCost の関数の始めに、printf("\n"); を挿入する。

virtual unsigned int getCost (const Node *lNode2, const Node *lNode,
const Node *rNode)
{
    printf("\n"); // <--- おまじない
    return matrix [size3 * ( size2 * lNode2->token->rcAttr2 +
                   lNode->token->rcAttr1) + rNode->token->lcAttr]
                  + rNode->token->cost;
}

2. mecab-0.77 本体を再度コンパイル

% cd ${MECAB-0.77}
% make clean; make install

3. mecab-ruby-0.77 でバインディングを再構築する。

% cd ${MECAB-0.77-RUBY}
% make clean; make

4. テスト

% ruby test.rb
# ここで、getCost 関数が呼ばれた回数だけ改行が出力される。
# 何回、連接表が参照されたかわかる。

太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー 4122
は 助詞,係助詞,*,*,*,*,は,ハ,ワ 5545
この 連体詞,*,*,*,*,*,この,コノ,コノ 7235
本 名詞,一般,*,*,*,*,本,ホン,ホン 9660
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 10438
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー 15760
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 16928
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ 18645
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 18987
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ 21411
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 22262
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ 25290
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 25601
。 記号,句点,*,*,*,*,。,。,。 25892
        BOS/EOS,*,*,*,*,*,*,*,* 25892
EOS

やっぱり、tokenizer.h の getCost() に問題がありそうみたいです。

私の環境だけかもしれないけど、

% ruby test.rb > result
% lv result

とすると、なぜか、出力がバイナリコードなんだけど…。むむむ。

あと、ファイルストリームの入力が全滅。何にも出力されない。

% cd ${MECAB-0.77}/src
% ./mecab file
# 出力がない。

どうしてかな…。何か、相性悪いよね。ということで、未来の私への宿題。

余談ですが、藤木さんに、「二郎」の読みと発音について、突っ込まれま
した。> ipadic な方

あと、ldd で、*.so ファイルの依存関係を調べられるということも教え
てもらいました。

kaoru@matthew:~/tools/mecab-ruby-0.77$ ldd MeCab.so
libmecab.so.0 => /home/lr/kaoru/lib/libmecab.so.0 (0x4000a000)
libpthread.so.0 => /lib/tls/libpthread.so.0 (0x4006f000)
libstdc++.so.5 => /usr/lib/libstdc++.so.5 (0x4007e000)
libdl.so.2 => /lib/tls/libdl.so.2 (0x40137000)
libcrypt.so.1 => /lib/tls/libcrypt.so.1 (0x4013a000)
libm.so.6 => /lib/tls/libm.so.6 (0x40166000)
libc.so.6 => /lib/tls/libc.so.6 (0x40189000)
/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)
libgcc_s.so.1 => /lib/libgcc_s.so.1 (0x402c3000)

2004-06-03 Thu

* BIDE [r]

一から、クラス構成を考え直す。実装がやっと固まる。
今日も、何度か、(バカ)正直な奴に八つ当り。
動くんだが、出力が期待通りじゃない。シューん。

* 計算機係見習い [o]

講師に、あべかわさんとふじきさんの2人体制で、聴講する方も5、6人
に。3時間ぐらい詰め込み授業。私は熱暴走だったため、はてな飛ばしま
くり。(ref. [2004-06-01])

Wiki にまとめるという宿題をすこしづつする。NAT の一部だけ。
宿題も体重やストレスと同じで、私の許可なく増えていく。侮れない。

# アドミン講習会は終ったとのことなので、宿題は増えないはず。
# me も調べないと。

* 意地でも復活してやる [l]

昨日、O研のほどんどの人が中華街にいったみたい。某ブログサイトでは、
「飲茶」とか「ごま団子」とか、burst してるという噂も。

おみやげの月餅、ありがとうございます。> よしださん
くわはたさんと半分にして、おいしくいただきました。

2004-06-02 Wed

* まだ、体がきつい [l]

寝たのに、まだ、体がつらい。熱も下がんないし、頭も割れそうに痛いし、
なにより、喘息咳もとまらん…。無理は禁物ということで、落ち着く。
通訳学校も、電話して、今日の休みを伝える。

くわはたさんが、喉に違和感を感じるときは、内科ではなく、耳鼻咽喉科
にかかると良い、と教えてくださる。ありがたい。

Referrer (Inside): [2004-07-18-1]

2004-06-01 Tue

* H尾さんがいらっしゃる [o]

* 体がきつい [l]

とりあえず、気合いだけで、出勤。雨だから、一人で自宅にいるとブルー
入るので精神的によくない。病気になってもいいが、病人になるのは危険。

今日は、何か輪講やアドミン講習会があったように思うし、何か口走った
気もするが、実は熱でふらふらのため、根拠-lessな言動の連続。ほとん
ど記憶なし。ただ、思いっきり、体も心もヘトヘトに疲れたから、2日ぶ
りに、熟睡。プチ勝利。

# 根拠-less という言葉は、?年前、M研で、T村さんから始めて聞きました。
# Google で、「根拠レス」の検索結果は、762 件でした。

Referrer (Inside): [2004-06-03-2]

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

<<< >>> 最新 / kaoru's clog