<<< >>> 最新 / kaoru's clog

ChangeLog 2005-01

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005-01-29 Sat

* すごい勢いで寝た。 [l]

午前中は終っていた。
なんとか起きて、翻訳学校へ。前置詞の使い分けについて。

2005-01-28 Fri

* ドリンク v.3 [o]

ピーチとサツマイモ。普通に美味しいとのこと。
T さんから、繊維摂取がサツマイモを食べる理由なのに、ジュースにする
となくなるじゃないか、とツッコミがあったらしい。するどい。

2005-01-25 Tue

* 休んでしまった。 [l]

休んでいる暇なんて1秒もないんですが…。

JUMAN の動詞には、必ず対応する訳語が EDR に登録されているみたい。
今の私にとって、負の発見。
頭がぼぉーっとしてきたし、投げ出してしまおう。

2005-01-24 Mon

* 寒気 [l]

朝からしていたんだけど、頭痛がひどくなって、どうにも我慢できないの
で、帰ります。

2005-01-23 Sun

* 無事終了 [l]

緊張しました。よい経験になりました。今後とも、よろしくお願いします。

2005-01-22 Sat

* 文字列の長さゼロの見出し語に注意 [r]

活用して、語幹の長さがゼロになるエントリがあった。「る」。

,0,接尾辞,動詞性接尾辞,母音動詞,基本連用形,る
,0,接尾辞,動詞性接尾辞,母音動詞,未然形,る

いままで、くどうくんが処理してくれてた辞書を利用していたが、今回、
辞書拡張に伴い、活用を自前でやったら、こんなエントリを生成していた。

で、はまった。もう、投げ出したくなったが、助けてもらって、解決。
なんとか、週末学習させることができた。感謝。

2005-01-21 Fri

* Re: MeCab 0.90 業務連絡 [r]

情報ありがとうございました。そうです。あの実験結果です。こちらは、
コーパス(Kyoto Corpus 3)も辞書(juman dic 4.0)で、バージョンが激し
くことなります。ついでに、素性テンプレートやハイパーパラメータも微
妙に違います。なので、単純には比較できないんです。はい。

手元の実験では、Gaussian regularizer で、ハイパーパラメータを 1.1
に設定しました。私の実装だと、辞書だけで F値が 92 ぐらい。コーパス
の出現したトークン込で 95 ぐらい。ただ、評価は、活用型・活用形まで
みた品詞情報の完全一致です。(all に相当。)

ずぼらだから、有意さの検定はしていないのですが、ちょっと、単純に数
字が悪すぎるかな、と思って、コーパス中のトークンを学習時に投入して
みたわけです。

日本語の場合、形態素解析器には外部辞書が付属されていて、これは学習
したコーパスと別々に作っていることが多いです。(コーパス中のタグと
整合していないこともあります。)でも、英語の場合、辞書がなく、タグ
付きコーパスからしか学習しないから、mkdic の際に学習用のコーパスか
ら得られたトークンを解析器内部の辞書エントリとしても、問題ないよう
な気がします…。

どうなんだろう。

* 挫折中 [l]

メゲてます。体も心もへろへろ。どうしよう。

* リラックマコレクション [l]

よしださんからこれ↓をいただきました。ありがとうございます。
http://www.basara-web.com/ukyou/items/items-000320.shtml

実物は、奥村研の電話横においてあります。

2005-01-20 Thu

* 店じまい [l]

二度も乗り過ごしてしまいそうになる。無事帰宅。

かなりやばいが、できるかどうかと心配している時間がない。とりあえず、
攻めるところからはじめて、最後まで諦めないでおこう。明日に期待。

さて、今は、翻訳学校の宿題をするか。

2005-01-19 Wed

* コーパスを無視した学習だった。 [r]

くどうくんのコードをみつつ、自分でコメント付けながら実装し直して、
あのバグがやっととれたというのに、論文で報告されているような数字が
でていなかった。…

原因がやっとわかった。mkdic でコーパスを指定していなかったから、辞
書が juman の配布されたものだけになっていた。なんか、やたらと
virtual token が追加されてて、こいつら、辞書にないから未知語処理に
まわされちゃうよなぁー、とか思ってはいたが、なぜ、もう一歩先が読め
なかったんだ。しょっくぅ。

2005-01-18 Tue

* 休んでしまった。 [l]

眠って、データ作成して、眠って、データ作成して…

* 言語処理学会 [o]

なんか、発表申込み数が半端じゃないらしい。
やっぱり、発表をやめるべきだった。ま、いいや。
超低速でも、走りだしたんだ。後ろを振りかえるのはやめよう。

2005-01-17 Mon

* ジレンマ [l]

申し込んでしまった。でも、呆れるぐらい、しょうもないネタ。そして、
話のオチがついていない。どないすんねん。> 自分

未知語のカタカナ文字列の処置として、切り出されたカタカナ文字列に
transliteration をかまして、英語に変換して、その品詞から推定すれば
終る話じゃん、とか、いわれそう。その意見に反論する気はないですが、
別の方法やってもいいじゃん。

2005-01-16 Sun

* カタカナ [r]

カタカナ文字列をみて、その品詞は? とひたすら自問した一日。

普通名詞かサ変名詞かで、結構、悩む。
「イベント」- event
「コントロール」- control
「デモ」- demo
「イメージ」-image

「コメント」だと、を抜きにして、サ変名詞といえるかも。
「ノーコメント」だと、どうも、普通名詞っぽい。

ちなみに、京大コーパスでは、カタカナ文字列は、外来語としてサ変名詞
とする傾向にあることを、今日知った。「ネタ帳」の「ネタ」はサ変名詞
だった。

2005-01-15 Sat

* hectic [l]

いろんな耐久レースを同時進行で体験。もう、いい。

* ゼミ [o]

ハードな一日だった。飲み会には不参加。まだ、心の喪中なので。
っていうか、皆さん、タフすぎ。

* 5ビットでは表現できない年になってしまいました。 [o]

研究室で充実した誕生日DBを持っていると思われるよしださんに、HBと声
をかけてもらって。ふつーに、THXと答えて、「でも、あんまりうれしく
ないかも」と正直すぎた返しをしてしまう。気悪いこといってごめんね。

よりによって、本厄の年を終日ゼミでスタートするなんて、不運ぶっちぎ
りでおもしろすぎる、という気持ちだったので。

2005-01-14 Fri

* 前祝い [o]

桑畑さんにしてもらう。使わせてもらいます。ありがとうございました。

2005-01-12 Wed

* 午後だけ参加 [r]

そろそろ、外部刺激に堪えられるようにならないとまずい。リハビリのた
め、参加者が極端に少ないであろうと予想された、2日目の午後だけ、聞
きにいく。

興味があったのは、最後のお話。いままで、論文だけしか読めなくて、発
表を聞くチャンスがなかったから。やはり聞いてみると、思想とか苦労の
軌跡が詳しくわかって良かった。通訳・翻訳学校の講師の方々には、国際
放送のニュースライターもいらっしゃって、翻訳支援システムの利用者と
開発者の両方の話がわかった。ここが、ひとりで、楽しんでいたところ。

ご本人には、後で雑談させてもらった時にいったんだけど、グループ化と
並べ替えの処理の順番を逆にしたらいいと思う。グループ化された系列に
対する対応付けという問題設定だが、そもそもグループ化せずに、それぞ
れの NE 単位で、IBMモデル3をつかって、(ただ、クラスモデルにしたけ
れば、モデル4にしてもいいけど、)グループ化は、照応や参照同定
(record linkage)の問題で使われているクラスタリングを参考にして、別
途に、考えた方がいいんじゃないかと。ご本人がおっしゃっておられたが、
グループ化が、とくに content-aligned の場合、重要だ、という意見に
賛成。NHKニュース原稿の場合は、特に、相手言語をみて、照応の解消が
できる場合もあるらしい。提示方法も、グループ化無しでは考えられない
というのも納得。ただ、現手法の文字列の部分マッチでは、もったいない。
本格的に、食いついてみたら良さそうじゃないかな、という気がした。

2005-01-11 Tue

* F木さんのおみやげ [o]

honey ginger drink につづき、普通じゃないドリンクシリーズ。
ドリンクは、「黒胡麻のおしるこ」のようで、意外と、美味しかった。
保守派の人には、受けが悪いようだった。
しかし、ここで油断して、警戒を解いてはならない。

# 今日は、氏の誕生日だから、こちらが、サプライズドリンクを用意す
# べきだった。せっかくのチャンスを失って、おしい。
# みんな、若いなぁ、と世代の違いを感じる。

2005-01-10 Mon

* りらっくま日 [l]

正月休暇に作った作品を見せた。が、技術点も芸術点も、反応悪い。
むぅー。絵ごころないんだから、そこんとこ、わかってくれないと。

離散に分割しきれないんだったら、連続でまぜまぜ足し込みか。
もっともなご意見。
ふと、画像処理では、領域分割はどうやっているんだろう、と思う。

2005-01-09 Sun

* 殺虫に成功した? [l]

手ごわい奴だった。3週間も飼いつづけたので、成長していたものと思わ
れる。

active な素性の数が、ものすごく少なくて、全然学習がされていなかっ
た。期待値の計算が怪しいと思ってデバッグしていたんだが、その前段階
で、つまり素性を管理するところで、つまづいていたみたい。素性の管理
は、基本的に、ハッシュ。ここで間違えるなんて…。

冷静になって、じんわりバグを追撃したつもりだったが、詰めが甘かった。
修行せねば。

2005-01-08 Sat

* 貧血なので、 [l]

おとなしく、家事。そして、寝る。

2005-01-07 Fri

* この一文を訳してください。 [l]

は、多くの場合、context-less で要求が来る。そして、within-context
で、応答できることを求められている。

人間にも、機械にも、それを期待するのは無茶だよ、って突っ込みたくな
るのは、私だけか?

2005-01-06 Thu

* 初出勤 [o]

最近、ちょっと、健康的な食生活をしているように見える、F木氏。
とはいえ、悪いけど、honey ginger drink には、挑戦する気になりませ
んでした。「はちみつ」も「しょうが」も、別々に drink に投入されて
いるか、他のものと組み合わせた方が幸せなんだ、と発見した。氏曰く、
「りんご」と「白菜」は、良かったらしい。次は、どの組み合わせかに挑
戦してくれるだろう。楽しみ。

2005-01-05 Wed

* 仕事はじめ@横浜 [l]

朝に横浜について、一通りの家事をしたあと、ひたすら、辞書エンジニア
リング。品詞の転換がおこりうるってことは、語の派生を考えないとまず
いんだ、と気がつく。で、まだ終らないけど、落ち着こう。

* 援助物資 [l]

今回も、福岡の実家から、いろいろ、援助物資つき。
あなご飯、がめ煮、などなど、おいしかった。とても幸せ。

2005-01-04 Tue

* 長浜ラーメン [l]

家族全員で、お気に入りの長浜ラーメンを食す。うまい。
大将が戻ってくれたから、絶品のスープがよみがえった。大満足。

2005-01-03 Mon

* 絵で表現してみた [l]

描いてみて、アルゴリズムが破綻していたことを認識した。大事な後退。
パワーポイントでお絵かきしている間の我慢が少しだけ向上。

2005-01-02 Sun

* 頭から訳す [l]

昨日と今日で、完読。これまで翻訳教科書を多数読んできたけど、他と違っ
て、得るものが多く、骨太な本だった。自分のなかでは、はっきり認識し
ていなかったけど、なんとなくやっていた訳出方法がいくつか紹介されて
いて、いままでの自分の方法が確認できてよかった。意味不明なダメ訳か
ら、日本語らしい和訳まで、言い換えるテクニックが紹介されている。お得。

http://www.amazon.co.jp/exec/obidos/ASIN/488261961X/qid%3D1104920359/249-5146312-6221957

あわせて、これも再読してみた。前は、翻訳の練習のためにだったが、今
回は研究で必要だったから。目の前のニーズによって、読後感想がぜんぜ
ん違った。複文の訳出方法を知りたかった私には、結構、参考になった。

http://www.amazon.co.jp/exec/obidos/ASIN/4931049737/qid=1104920576/sr=1-3/ref=sr_1_10_3/249-5146312-6221957

2005-01-01 Sat

* あけましておめでとうございます [l]

今年もよろしくお願い申し上げます。


01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

<<< >>> 最新 / kaoru's clog