2004-11-30 Tue
* GIZA++ のいまさら [r]
どのオプションが指定できるかわからなかったので、親切な人が、web 上
で説明してくれているかも、と甘い期待をもって、ぐぐる。敗北。
しかたないので、コードをちまちま読んで、ディフォルト値を書き出して
みた。何も指定せずに、GIZA++ を実行すると、簡単なオプションの説明
が出力されるけど、実際は、はるかに複雑なことが指定できるようだ。
EM学習したあと、*.gizacfg で出力されるのが、実際に使用したオプショ
ンとその値のログ。
学習したモデルで、テスト対訳文に対して、Viterbi alignment をもとめ
たかったら、TC オプションで指定すれば良かったのね。
% ./GIZA++ \
-S crl50k+japiobk_vcb.en \
-T crl50k+japiobk_vcb.ja \
-C crl50k_snt.ej \
-TC japiobk_snt.ej \
関連論文にも、簡単に Viterbi alignment を求めたって書いてあるけど、
どうやったんだろうとか思っていたら、こういうオチやったのね。あぁ、
知らなかった。コードみると、reference translation と比較できそうな
関数もあるから、ひょっとしたら AER (Alignment Error Rate) もよろし
く算出してくれるのか?!謎、深まる。
# こんなの、 SMT をやっている人には、常識だろうな…。
辞書と共起頻度ファイルをうまく組み込む方法は、一応、README に書い
てあるが( C. Dictionary File のセクション と Part VII: New
features の -DBINARY_SEARCH_FOR_TTABLE と -CoocurrenceFile FILE の
説明) どうなっているのか、今だ不明。気が向いたら、調べてみよう。
* 補足 [r]
新しい Och さんの ページ http://www.fjoch.com/
今後の G 社の翻訳機能に期待しよう。
* 予稿集を求めて… [o]
(ref. [2004-11-18]) あべかわさんが、大岡山にあるT中T永研にいって、
情報処理学会第61回全国大会の予稿集を探してくださったが、2000
年だけなかったらしい。やっぱり、見放される運命にあったのか。
いずれにしても、ご協力いただき、ありがとうございました。
2004-11-18 Thu
* ヤミクモから抜け出す方法 [o]
を周りに聞いて回る。一人でやさぐれる(炭パンさんになっ)ていたので。
A辺川さんのご回答
- 離れて、じっくり考え直す
- データを作り直す
- 関連論文を読み直す
T村先生のご回答
- 離れて、じっくり考え直す
- 他人にヤミクモな状況を話す
T村先生に、ヤミクモな状況を、なんだかんだ言って話して、彼は私が何
を考えているかわかってすっきりらしい…。私はすっきりしてないんですが。
* 論文のコピーをお持ちでしたら、御連絡ください。 [r]
ダブル配列で有名な青江研究室のお仕事だから、
トライ構造を用いた多言語対訳辞書の効率的圧縮手法
○住友 徹、森田和宏、泓田正雄、青江順一(徳島大)
情報処理学会第61回全国大会,2T-4,pp.2-133〜2-134 (2000年10月).
http://www-b3.is.tokushima-u.ac.jp/research/koen.html
ぜひ読んで見たいが、アクセスできない。東工大の図書館、いけへんし。
メモリ増えようが、プロセッサが速くなろうか、時代に関係ない。
いつでも、美しい辞書検索アルゴリズムに憧れます。
2004-11-16 Tue
* 単文なのに、お手上げ [r]
一応、プロジェクトでは、複文・重文を扱うってことになっている。
しかも、表向きは、生成をするってことになっている。
しかし、基礎日本語文法(改定版、オレンジ色)の単文の章でつまづく…。
手ごわい、テンスとアスペクト。もう、メゲそう。
* 品詞対応サンプリング [r]
恣意的に選んでみた。<VBN, 動詞:未然形>。理由は、全体で 657 文しか
ないし、私の内省とも一致するペアということで。でも結果は、イマイチ。
http://www.lr.pi.titech.ac.jp/~kaoru/dictlook/1349_pxj.html
緑色が、文字列の品詞が VBN か、動詞:未然形になったもの、黄色が動詞っ
ぽいやつ。(動詞性接尾とかを含む。)一応、複文を集めたものらしいの
で、述部は2つ以上あるだろうから。
まだ、エラー分析していないからなんとも言えないけど、微妙な感じ。
他の品詞との絡みもみないといけないけど、3101, 3116, 3122 なんか見
ると、「サ変名詞+れる」が英語の動詞一語に対応する場合、うまくいっ
ていないな。他にも激しく間違っている文もあるし。むむむ。
直接的な品詞対応がアライメント精度を向上させるという主張もみかける
が、実際どうなんだろう。
2004-11-15 Mon
* 品詞対応を無理矢理マイニングしてみた [r]
内省に基づく解析が無理だったので、単純に、コーパスからの統計に頼る。
条件は、連続的でかつ最長3つまで。一応、連接表の前件と後件を意識し
たつもり。
品詞体系は、2つの組み合わせ <PTB, 益岡・田窪文法+α> と <PTB,
ipadic> が可能なので両方してみる。ただし、10000文だけを対象にする。
類似度は共起頻度で重みを付けたダイス係数…。左から、、英語の品詞列、
日本語の品詞列、共起頻度。ここんとこお気に入りな動詞周りの活用だけ、
上位10件、抜き出してみる。
<PTB,益岡・田窪文法+α>の場合:
VBD 動詞:タ形 3229
VB 動詞:基本形 1940
VBZ 副助詞:* 普通名詞:* 1055
PRP VBD 動詞性接尾辞:タ形 535
VBP 動詞性接尾辞:基本形 655
TO VB 形式名詞:* 526
VBN 動詞:未然形 657
VBG 格助詞:* 動詞:タ系連用テ形 415 1524 1263
PRP VBP 格助詞:* 動詞:基本形 237
PRP VBZ 形容詞:基本形 句点:*
<PTB,ipadic> の場合:
VBD 動詞-自立:連用形 3045
VB 名詞-サ変接続:* 1956
PRP VBD 名詞-代名詞-一般:* 1398
VBZ 動詞-自立:基本形 1472
TO VB 名詞-非自立-一般:* 662
VBG 動詞-自立:連用タ接続 助詞-接続助詞:* 526
VBN 動詞-自立:連用形 助動詞:基本形 448
VBP 名詞-形容動詞語幹:* 441
NN VBD 助詞-係助詞:* 名詞-一般:* 助詞-格助詞-一般:* 292
PRP VBP 助詞-格助詞-一般:* 動詞-自立:基本形 221
動詞は、自立と非自立に捕らわれずに、数えあげるべきだった?!
両言語の品詞体系マニュアルをひたすら読みつつ信用ならない私の内省に
頼るよりは、幾分ましだと思う。けどね。 うーん。これで、辞書検索の
候補が絞れるんだろうか。甚だ疑問。
2004-11-13 Sat
* 動作を表す動詞と状態を表す動詞 [r]
今日は、土曜日なので、午後から、翻訳学校へ。今日の収穫は、「動作を
表す動詞」と「状態を表す動詞」の違いをしっかり認識していなかったこ
と。実は、英語にも、両方を表す動詞が存在していた。例えば、sit。
He sat down and crossed his legs.
彼は座って、足を組んだ。
ここでの sit は、すわらない状態からすわる状態に変化していて、「動
作」を表している。
He sat with his legs crossed.
彼は、足を組んで座っていた。
ここでの sit は、既に座っていた「状態」を表している。
# 私は、この sit を「動作」を表しているものと理解して、混乱した。
# どうやって、足を組む動作をしながら座る動作ができるのか、と。
# かなり致命的な勘違いをしていた。
で、ここで浮上した疑問が、「現在形で、状態を表す動詞」と「現在進行
形で、動作を表している動詞」との違い。講師の人に突っ込んで聞いたつ
もりだが、はっきりした回答は得られなかった。
帰宅中の電車で考えるに、どうも、単文の英日方向の訳出の上では、現在
の時制ならどちらも「テイル」と訳すしかないようだが、ニュアンスとし
ては、前者は、習慣的なもので、後者は、その時制での実際の動作が継続
しているさまをいうようだ。とは言え、まだ、モヤモヤ。
とにかく、日英におけるテンスとアスペクトの対応ってかなり扱いにくい
問題である、ということがだけは、わかった。
2004-11-11 Thu
* suf [r]
suf --- suffix array による統計量の計算と利用のためのパッケージ
http://www2.nict.go.jp/jt/a132/members/mutiyama/software/suf/suf-1.2/README.ja
http://www2.nict.go.jp/jt/a132/members/mutiyama/software/suf/suf-1.2/ruby/Tutorial.ja
の 2.5. bilingual segmentation (suftrans.rb) が気になって、一式イ
ンストールしてみる。なんか、索引作成のところで失敗してしまった。多
分、共有ライブラリやらのパスを通し損ねたんだと思うが、今日は、原因
を探す根性がなかったので、明日、もう一度、チャレンジしよう。
「対訳候補の句」や「ベストパスの対訳」をどうやって求めているのか気
になる。後者は、SMT の Viterbi alignment と比較して、どうなんだろう。
…って、仕組みを知りたいんだから、コード読めって話か。
* 返信 - 業務連絡 [r]
お久しぶりです。
アドバイスをもとに、
辞書構築の部分を読ませてもらいました。たしかに、makeda を作成して
いる辺りのコードは手ごわいです。darts を作る部分は、自分でもDarts
ライブラリを使っているのでわかるんですが、品詞、活用型、活用形のID
を参照して、ごにょごにょ展開しているところは、今のところ、不透明な
部分として残っています。今は挫折中ですが、今月の下旬ぐらいには、な
んとか、読破したいと思っています。
ありがとうございました。
p.s. あのー、辞書定義をS式でという仕様は廃止できないんでしょうか。
> その方面の関係者。
* 動詞の一部だけ活用させてみた [r]
まだ、辞書検索しかしていないけど、活用を展開すると、ちょっとだけ照
合してくれる部分が増えた。両方とも英辞朗を辞書としている場合。
緑色が活用なし、黄色が活用あり。
http://www.lr.pi.titech.ac.jp/~kaoru/dictlook/0/w10000_align_hl_inflect_0.html
今は、活用形候補すべて展開して、日本語と英語の組み合わせすべてで辞
書探索している。超低速スクリプトで実装してる。とても阿呆。
せめて、両言語の品詞間対応と、片言語の品詞連接ぐらいは、見てあげて、
それなりに賢そうな処理してあげないと。実現すんには、もう少し知恵が
いりそう。
2004-11-10 Wed
* 動詞の活用 [r]
chasen(ipadic) で頑張ってみたが、挫折してしまった。
品詞体系をよく理解していないのが、敗因の理由。
やさしい援護があったのだが、実を結ばなかった。すみませぬ。
方向転換して、juman の辞書でやってみた。こちらの品詞体系の定義の方
が、私にとっては、理解しやすい。実際のわかち書き単位をみると、対訳
辞書の例文を処理するのは、juman の方が向いているかも。大雑把な印象
だけどね。個人的には、英語の活用と日本語の活用の候補をある程度限定
したいという希望があって、例えば、
愛した 愛す 子音動詞サ行 タ形
loved love VBD
とかいう、品詞レベルでの対応がとりやすいかも。chasen だと、
愛し アイシ 愛す 動詞-自立 五段・サ行 連用形
た タ た 助動詞 特殊・タ 基本形
という風に、一般的に短い単位に区切られる。当然、品詞レベル対応がと
れないものもあるから、どちらを使っても、簡単にはいきそうにない。
それぞれ、得意分野があるからだけど、しばらくは、juman 辞書を使おう。
2004-11-06 Sat
* 同時通訳 [t]
水曜日の文化の日は、一日中、CNN English をつけっぱなしにして、大統
領選挙の開票速報を見ていた。ほとんど、英語モードにしていたんだけど、
ときどき、日本語モードにして、同時通訳を聴いてみた。
同時通訳って、結構すごい能力を求められるんだが、正直、提供されても
あんまりうれしくないサービスだなぁ、という印象を持った。わざわざ、
同時通訳を聴いてまで、見たいと思う出来事って少ないんだよな。
全般的に、「訳す」という行為がサービスとして喜ばれることって、普段
の生活の中では少ないかも。こんなに需要がないことを仕事にしたい、っ
て間違った方向だなぁ…
とか自爆モードになりつつ、今週も学校にいった。レッスンだが、アメリ
カ大統領選挙の課題は、予習の成果もあって、無事にこなせた。
2004-11-04 Thu
* チカチカして重い [r]
辞書引き結果をいろいろな形でみる、その4。(1〜3はお蔵入り。)
http://www.lr.pi.titech.ac.jp/~kaoru/dictlook/10/w10000_align_hl_1.html
かなり雑な仕上がり。(色は緑が英辞朗で黄色がEDRで辞書引きした結果)
たつをさんの発表みたいに検索できるようにしていないから、嬉しさ半減。
http://nais.to/~yto/clog/2004-10-29.html#2004-10-29-5