2005-01-21 Fri
* Re: MeCab 0.90 業務連絡 [r]
情報ありがとうございました。そうです。あの実験結果です。こちらは、
コーパス(Kyoto Corpus 3)も辞書(juman dic 4.0)で、バージョンが激し
くことなります。ついでに、素性テンプレートやハイパーパラメータも微
妙に違います。なので、単純には比較できないんです。はい。
手元の実験では、Gaussian regularizer で、ハイパーパラメータを 1.1
に設定しました。私の実装だと、辞書だけで F値が 92 ぐらい。コーパス
の出現したトークン込で 95 ぐらい。ただ、評価は、活用型・活用形まで
みた品詞情報の完全一致です。(all に相当。)
ずぼらだから、有意さの検定はしていないのですが、ちょっと、単純に数
字が悪すぎるかな、と思って、コーパス中のトークンを学習時に投入して
みたわけです。
日本語の場合、形態素解析器には外部辞書が付属されていて、これは学習
したコーパスと別々に作っていることが多いです。(コーパス中のタグと
整合していないこともあります。)でも、英語の場合、辞書がなく、タグ
付きコーパスからしか学習しないから、mkdic の際に学習用のコーパスか
ら得られたトークンを解析器内部の辞書エントリとしても、問題ないよう
な気がします…。
どうなんだろう。
* リラックマコレクション [l]
よしださんからこれ↓をいただきました。ありがとうございます。
http://www.basara-web.com/ukyou/items/items-000320.shtml
実物は、奥村研の電話横においてあります。
2005-01-12 Wed
* 午後だけ参加 [r]
そろそろ、外部刺激に堪えられるようにならないとまずい。リハビリのた
め、参加者が極端に少ないであろうと予想された、2日目の午後だけ、聞
きにいく。
興味があったのは、最後のお話。いままで、論文だけしか読めなくて、発
表を聞くチャンスがなかったから。やはり聞いてみると、思想とか苦労の
軌跡が詳しくわかって良かった。通訳・翻訳学校の講師の方々には、国際
放送のニュースライターもいらっしゃって、翻訳支援システムの利用者と
開発者の両方の話がわかった。ここが、ひとりで、楽しんでいたところ。
ご本人には、後で雑談させてもらった時にいったんだけど、グループ化と
並べ替えの処理の順番を逆にしたらいいと思う。グループ化された系列に
対する対応付けという問題設定だが、そもそもグループ化せずに、それぞ
れの NE 単位で、IBMモデル3をつかって、(ただ、クラスモデルにしたけ
れば、モデル4にしてもいいけど、)グループ化は、照応や参照同定
(record linkage)の問題で使われているクラスタリングを参考にして、別
途に、考えた方がいいんじゃないかと。ご本人がおっしゃっておられたが、
グループ化が、とくに content-aligned の場合、重要だ、という意見に
賛成。NHKニュース原稿の場合は、特に、相手言語をみて、照応の解消が
できる場合もあるらしい。提示方法も、グループ化無しでは考えられない
というのも納得。ただ、現手法の文字列の部分マッチでは、もったいない。
本格的に、食いついてみたら良さそうじゃないかな、という気がした。
2005-01-02 Sun
* 頭から訳す [l]
昨日と今日で、完読。これまで翻訳教科書を多数読んできたけど、他と違っ
て、得るものが多く、骨太な本だった。自分のなかでは、はっきり認識し
ていなかったけど、なんとなくやっていた訳出方法がいくつか紹介されて
いて、いままでの自分の方法が確認できてよかった。意味不明なダメ訳か
ら、日本語らしい和訳まで、言い換えるテクニックが紹介されている。お得。
http://www.amazon.co.jp/exec/obidos/ASIN/488261961X/qid%3D1104920359/249-5146312-6221957
あわせて、これも再読してみた。前は、翻訳の練習のためにだったが、今
回は研究で必要だったから。目の前のニーズによって、読後感想がぜんぜ
ん違った。複文の訳出方法を知りたかった私には、結構、参考になった。
http://www.amazon.co.jp/exec/obidos/ASIN/4931049737/qid=1104920576/sr=1-3/ref=sr_1_10_3/249-5146312-6221957