<<< >>> 最新 / kaoru's clog

ChangeLog 2005-03

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005-03-30 Wed

* イライラしてもねぇ [l]

しょうがないんだけど、ひどく巡り合わせが悪いときってあるよね。
一人になっても、他人と一緒でも、気分転換できず。

2005-03-29 Tue

* 単語アライメントと機械翻訳 [r]

対訳単語アライメントが、今の品詞タグ付けツールぐらいの完成度(汎用
性)で公開できるといろいな可能性があって、面白いとは思うのよね。い
ろいろな可能性の一つに、機械翻訳への貢献があるかもしれないけど、そ
れだけに限らないと思う。むしろ、機械翻訳以外の分野と絡めると面白い
と思う。

単語アライメントは機械翻訳と違う。

* リラックマ分布 [o]

Teao 分布を真似してリラックマ分布を求めてみるべきかも。
http://www.tahoo.org/~taku/teao/
この Teao 分布は、私が、松本研に入ったころに盛り上がったネタ。

一式そろったので、そろそろ記念撮影をしないと。
奥村研で、いろいろ協力していただきありがとうございました。

2005-03-28 Mon

* 胃腸が… [l]

今日は、GBがあって、もうDyamaさんと会えないから、と無理するつもり
だったけど、「もう壊れてるよ」とか、「言うこと聞いてくれないー」っ
ていわれ続けたので、しぶしぶ病院にいく。

「ストレスがなくなれば、胃酸も減りますよ。」と当たり前のことをいわ
れる。余計にイライラしたから、薬だけもらう。検査は断ってくる。それ
から、高村さんに断り電話をいれる。

近所の総持寺を通って帰る。 http://www.sojiji.jp/

前も見たんだけど、立ち止まって読む。

実践する者にとって、理想は現実の中にあり、
実践しないものにとって、理想は空想となる。

今は焦ってもしょうがないかと思い、大好きな寺田寅彦の随筆を再読。

ちょっと冷静になれたかも。高岡さんに、「無理してはいけません。無理
だから。」といわれたのを思い出した。

2005-03-26 Sat

* 佐藤先生たちと [l]

久しぶりに再会。まぁ、面子の共通点は理研なので、そこら辺の話をいろ
いろ聞いた。保坂さんが退職していたことを聞いて、びっくりした。
へぇー。ということで、前のチームメンバは、完全に分裂したことになる。
そういう宿命だったのか、と納得。

一番のヒットは、勤務先機関で sabbatical year を過ごす、というネタ
ですかね。おもしろすぎ。

2005-03-25 Fri

* 追い出しコンパ [o]

1次会だけ参加。お客様が、各方面から、参加されはる。
予想通り(?)T村さんは、いじられまくり。

空きっ腹にビールだったので、お酒がまわってしまった。会話や最後の挨
拶で何を口走ったが、覚えていない。きっぱり断言したという記憶はあっ
て、はじけてすぎてしまった感じもある…。ま、いいか。

一言でまとめると、楽しかったです。

来年は、ますます、奥村研は、面白い研究室になると思う。
外野から、皆様のご活躍を楽しみにしてます。

2005-03-24 Thu

* 日頃の行ないが相当悪いらしい。 [o]

juman-5.0 が matthew(私の常用マシン)で、make できない。
configure がおかしいのかなぁ…。挙動がめちゃくちゃ変。

で、あべかわさんに聞いてみる。すると、他のマシンだとサクっといくら
しい。えっ。で、とりあえず、matthew で configure、annie で make
install、matthew で実行。

実行するようになったけど…。謎。

「相性が本当に悪いんですね。」だって。号泣。

# 愛情がないから、matthew と対話ができてないのね…。とほほ。

2005-03-23 Wed

* 高村さんに議論につき合ってもらったが… [o]

あえなく、激沈。ただ、具体的なイメージがたいぶ掴めた気がする。
学部時代にやった最適化問題と流れと少しにているような気がした。

仮に、近似法を適用するなら、ありきたりだけど、単語アライメント問題
と類似した古典問題(組み合わせ問題)をうまく捜す。で、NP- なんちゃら
のクラスだから、近似手法じゃないと現実解が求まらない、とか言い切る。
その後、問題固有性に起因する類似点と相違点を整理して、その類推から、
適用方法をさぐるのが、よいかと。

すべては、ラグランジアンが解ければの話ですが…、無理っす。

* りらっくま [o]

村山さんから、がちゃがちゃバージョンまでもらいました。
マスコットファミリーも、なんと、7名に増えました。
今日は、寝袋を抱いているバージョンです。わーい。わーい。

2005-03-22 Tue

* 連休明けなので [o]

朝、人がいないが、電話は、なり続ける。ありがちなパターン。
タグ付け作業しつつ、終わることのない伝言依頼を、ひとつづつ、処理。

真剣に考えごとをしているのに、機嫌よく電話対応して、テキパキとさば
けない。まだまだ、修行がいるなぁ。

* 出張中に、リラックマが増えてた。 [o]

今度は、黄色い鳥も一緒。かわいい。ありがとうございます。
完全制覇の日が近そうです。

* タグ付け [r]

とりあえず、200 文。1/10 完成。疲れた。
タグ付けの当面の目標は、250 文ぐらいにしよう。

2005-03-21 Mon

* BioNLP [r]

ごぶさたなネタですが、UPenn がとうとう PubMed の Treebank を作った
らしい。

http://bioie.ldc.upenn.edu/publications/latest_release/

viva 力業 ! すげー。

仕様をさらっと読んだだけだけど、私が訴えつづけた
tokenization ambiguity の問題意識
は共有できているみたい。よかった。

Some of our tokens contain white space, when it is included between parentheses inside a single chemical word;
some are substrings of what would be considered a token in Penn Treebank.

annotation tool は Tom Morton が作ったみたい。以前、何度かデモを見
せてもらったことがある。ツールとしては、とても高い完成度で、職人気
質を感じました。

一方、辻井研も頑張っています。Treebank のベータ版もできている。

http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/

ちなみに、依存構造のアノテーションもあるみたい。

http://www.ifi.unizh.ch/cl/kalju/download/depgenia/

データが揃ってきたから、昔の named entity recognition rush のよう
に、今度は、構文解析バブルがおきるんだろうね。Charniak parser も
2,3 年前から、PubMed 用のモデルがあったから、そのうち、チューニン
グされたパーザーがでてくるんでしょう。

放置しておけば、2年もしないうちに、有志の皆さんがやってくれるでしょう。

* 結果を眺めながら、タグ付けしながら、妄想 [r]

いいかげんに作った対訳モデル(確率つき対訳辞書)を Darts で検索可能
な辞書にして(この辺りもう少し賢くできそうですが、今回はくどうくん
の恩恵をうけてお手軽に)、Viterbi/MWM/RMM でアライメントさせた結果
を、まじめに、眺める。

ビタビアライメントでも、二部グラフマッチでも、安直なデコードでは、
残された課題を本質的に解決することができないことに、いまさら、気づく。

どうしたものかねぇー。まぁ、攻め方はいろいろあると思うから、思いつ
くものから試してみるか。いささかあきらめモードなんだけど、制限時間
ぎりぎりまで、頑張ってみよう。

タグ付けも同時進行。今日でやっと 150 文。先は長い。
やっぱり、500 文は準備しないと。> 小人さん(ぇ

2005-03-20 Sun

* 地震 [l]

とりあえず、両親は無事。びっくりした。

2005-03-19 Sat

* リフレでびゅー [l]

出張で蓄積した疲れをとる。ちょっとタグ付け。

2005-03-18 Fri

* 高山町 in 奈良 [l]

タグ付け。仕様をかためるための作業。かなり苦痛。

にしても、花粉が…。こんなとこに住めない。

2005-03-17 Thu

* 言語処理学会 [o]

終わった。人、いっぱい。ソーシャライズ、恐い。

ずっと心配をかけてしまったお方とは、数日前から別件でメールのやりと
りがあったのですが、きちんと、対面でも、報告させていただきました。
多くを語れない心境を察していただいたようで、とても、ありがたかった
です。とにかく、感謝でいっぱい。

発表は反省するすべきことばかり。特筆すべきは、タイトルと内容が違う
のと、表示方法も話術もへたれだったことでしょう。あと、これができる
と何が嬉しいという点について、自分にはあるんだが、明確に答えられな
かったことも、敗因。

最初のころは、調子がわからずあせりまくり。ポスター発表は、初めてだっ
たけど、講演発表とは違うポイントをおさえておかないとまずい。もっと
修行が必要。それでも、辛抱強く聞いていただいた方(お情けだと思うけ
ど、数名いらっしゃいました)には、対話の中で要点を引き出してもらえ
て、ありがたかった。この直接フィードバックで、自分のいいたいことが
精錬されていくのが、ポスターの良さですね。

実は、途中、誰もいないポスター横での待機が疲れた。だから、後ろで様
子をうかがっていた。そうすると、お一人、ポスターをじろじろ見ておら
れた方が現れる。後ろ姿なので確信はないけど、「ちょっと考えればすぐ
わかる」。対応せねば、とは思ったが、恐怖心には勝てなかった。ってい
うか、絶対に、「無理」。

(ほんま、すんません。すんません。すんません。すんません。)

今回は、意図的に、自分の研究とはあまり関係ないセッションに出ました。

大会全体で、ぐさっときた発話。

「受信用の機械翻訳と送信用の機械翻訳とは別物って考えている。」
「課題を人工的に設定するきらいがある。」
「データとアルゴリズムは、同時に考えないといけない。」
「やりたいことは、○○なのね。タイトルは××だけど。」
「結果は、エッセンスとは違う。で、エッセンスは何なの?(略)
それからコメントするから。」
「単発の研究が多い。それ、本当に自分が欲しいものなのか、って突っ込
みたくなるときがある。」
「僕は、気長にお待ちしております。」
「そっちへ展開しちゃうと、あなたが生きている間に終わりません。」

2005-03-10 Thu

* 絶不調(続) [l]

今朝の追試は、やはり不合格でした。勉強していないから、当然の結果で
す。でも、人間できていないので、ヘコみました。お昼、桑畑さんと一緒
だったけど、いろいろ聞いてもらって気が楽になりました。

気持ちを入れ換えて、昼から、お仕事。進まない。現実は厳しい。とても
厳しい。もう、投げ出したい。でも、許されない。うぅぅ。

そんなときのリラックマ。なんと、仲間が4種類になりました。ありがと
うございます。癒されます。

それでも、今日は、やっぱり、めげた。

* グラフマッチング [r]

「最適」割り当て問題を考える上で、「最適」の定義が結構むずい。

「最大重みマッチング」は、エッジ重みの総和を最大にすることを考えた
アルゴリズム。で、有名なやりかたは、あの、ハンガリー。

それに対して、rank-maximal matching といって、greedy にマッチング
していく方法もあるらしい。G = (V, E) で V が A と B に分割されてい
るとする。割り当て問題だとすると、A が人の集合で、B が仕事の集合。
で、このとき、A のそれぞれの要素 a は、自分ができる仕事の優先度付
きリスト [b1, b2, ... ] をもっている。で、ある優先度 1 以上のエッ
ジを対象にしてマッチングする、次に優先度 2 以上のエッジを対象、3、
とどんどん続けて r までマッチングをする。

このやり方も http://www.mpi-sb.mpg.de/~michail/rmm.shtml によると
ハンガリーでできるらしい。(間違っているかも。なんせ、論文の内容は
ほとんどわかってない。)

ポイントは、エッジの重みで何を表現しようとしているか、につきるかと
思う。人間 a と仕事 b のすべての組み合わせの total order がわかっ
ていれば、教科書通りの maximm weighted maximum cardinality
matching で最適な解が求まるはず。(たぶん。自信なし。)ただし、片
方の優先順位しかわかっていない(仕事 b の優先順位がわかっていない
とき)は、エッジの重みでは表現しずらい。そんなときに役立つらしい。

で、単語アライメントの場合は、どうなんだ? partial order しかわか
らないけど、でも、一応、日英の両方の組み合わせがわかっているから、
エッジの重みはきちんと定義できそう。だから rank-maximal ranking に
しなくてもいいのかな。

ただ、現実は、両方向で conditional prob (P(e|f) と P(f|e))を求めて、
苦しい紛れの補完係数つけて joint prob として扱って total order に
するぐらいなら、partial order でランク付けした方が吉かなぁ。

わからん。 わからん。 わからん。 わからん。

うーん。どうしよう。うぅぅ。

2005-03-09 Wed

* 絶不調 [l]

午前中は、なんとか乗り切ったが、貧血でふらふら。
花粉も飛んで、のどもいたい。

ということで、今日は、早退します。

明日、追試なのに…。

* プレゼント II [o]

今度は、S山さんからいただきました。わーい。
こりらっくまです。かわいい。わーい。
ありがとうございます。

2005-03-08 Tue

* プレゼント [o]

M山さんから、リラックママスコットをいただく。ありがとうございます。

詳細は、ここ(↓)。でも、シークレットのやつをもらったみたい。ラッキー。
http://www.itoen.co.jp/news/2005/030401.html

昼から、「にぶぐらふ」で連敗中。またまた挫折か、と思いきや、いっき
に、やさぐれモード解除。多謝。

もう少し、キリが良いところまで、やってしまおう。

2005-03-07 Mon

* 田中先生の最終講義 [o]

聴講させてもらいました。田中先生の魅力満載で、素敵でした。
印象に残った形容詞は「おもしろい・つまらない」。
頻出した固有名詞(人名)は「淵さん」。

わくわくする研究をするよう、たゆまない挑戦をしてこられたのだろう。
それが、お言葉からよく伝わりました。

最後のメッセージは、きなくさい世の中への警告でした。最後の最後のメッ
セージは、途中で去った学生さんが元気かどうか気がかりだということだ
そうです。やさしいお人柄です。そして、最後の最後の最後のスライドは
「ありがとう」かその類似表現だったらしいですが、見せるのを忘れてし
まった!ってオチャメな感じで暴露されて、終わりました。

もう一度、LR 法を勉強しておこうかな。

* Data-Driven Machine Translation [r]

機械翻訳の研究は、「統計」と絡めないと認められない時代に入ったでしょ
うか。2001, 2003 年に開催されたワークショップは、今年も開催される
みたいです。ただし、今回は、data-driven ではなく、statistical であ
ることが重要なようです。

http://www.statmt.org/wpt05/

ちなみに親サイト http://www.statmt.org/ は Philipp Koehn が運営し
ているみたい。

今回のワークショップは、「統計」しない機械翻訳は、排除している感じ
です。あと、アイヌ語とか希少言語を対象にしようということみたいです。
日本語を片言語にすると、もう片方の言語の選択は resource-poor でな
いとまずい。英語はもちろんのこと、フランス語、ドイツ語、中国語、韓
国語は resource-rich なのでだめ。東南アジア系の言語ならOKかも。 こ
れも、時代の流れなのでしょうか。

ちなみに、今回も shared task があるみたいです。評価型ワークショッ
プにして、ソーシャルネットワーキングして、研究者仲間を集めて、数字
で勝負して、brain storming を行ない、最後はお互いを励ましあう。こ
れも時代の流れなのでしょうか。

前回の shared task の発表は、わざと面白い視点を捨てるように、規格
化を推進しているようで、なんとなくしっくりこなかった。救われたのは、
Ted Pedersen がとってもいい人で、率先して、多様性を認めるように話
をもっていっていた。今回はどうなるでしょう。

私は、「統計」と絡まないし、resouce-rich な言語対だし、そもそも間
に合わないから、提出しない方針。これからの機械翻訳関連の研究は、い
ままで以上に統計を語らないと、肩身が狭いようですね。多様な視点がま
だ許される時代に、この分野と関われて幸せだった、と思う。

* The Hungarian Method [r]

昨日は勢いで思ったが、assignment も one-to-many や many-to-one は
対象外にしている気がする。もう少し、調べてみよう。

2005-03-06 Sun

* The Hungarian Method [r]

最適割り当て問題の解説は、↓にもありました(pp.66-70)。
http://www.amazon.co.jp/exec/obidos/ASIN/4535601402/ref=pd_sims_dp__5/249-0022586-9255571

この講義ノートが、私にとって、一番、わかりやすかったです。
http://www.cs.ucsb.edu/~suri/cs230/Matching.pdf

恥ずかしい話だが、bipartite weight *matching* と bipartite weight
*assignment* は同じものだと思っていた。

A matching in a graph G=(V,E) is a subset M of the edges E such that
no two edges in M share a common end node.
An assignment in a bipartite graph is a matching M such that each edge
of the graph has an incident edge in M.

とんだ勘違いだった。one-to-many や many-to-one 型のアライメントを
扱いたかったら、assignment を考えるべきなのね。あ、まだ傷口が小さ
い段階で、気がついて、良かった、良かった。
# 後記: matching も assignment も one-to-one の対応でした。
# 勘違いの勘違い…。

* 久しぶりのマッサージ [r]

疲れが溜っていたから。30分。極楽。家路への帰り、スターバックスへ
いく。チャイラテを飲む。

思わぬ展開になって、なぜか「紅茶のおいしい入れ方」のについて講釈を
聞く。学んだことは(誤解も含めて)、

- 形容詞にも連用形は存在する。
  しかし、助動詞で呼応させるのが通常の用法。
  e.g. 「おいしかった」「おいしくない」

- 形容詞の連用形の後に、動詞を続ける用法は、不可らしい。
  e.g. 「紅茶をおいしく入れる」は * マークらしい。
  正しくは、「おいしい紅茶を入れる」だろう、ということ。

- こういうヘンテコな現象をコリージョン(その人の発音から、
  back-transliteration できなかった)というらしい。
  # 後記 コアジョン?かなぁ。でもスペルわからない。

勉強になりました。もちろん、美味しいチャイでした。

家にかえって、気になったから、Cabocha で解析させてみた。

* 0 1D 0/1 0.21236038
紅茶 コウチャ 紅茶 名詞-一般 O
の ノ の 助詞-連体化 O
* 1 2D 0/0 2.00199354
おいしい オイシイ おいしい 形容詞-自立 形容詞・イ段 基本形 O
* 2 3D 1/2 0.00000000
入れ イレ 入れる 動詞-自立 一段 連用形 O
方 カタ 方 名詞-接尾-特殊 O
を ヲ を 助詞-格助詞-一般 O
* 3 -1O 0/0 0.00000000
習う ナラウ 習う 動詞-自立 五段・ワ行促音便 基本形 O
。 。 。 記号-句点 O
EOS

どうも、「紅茶」が「おいしい」に係ることが不自然、ということを説明
したかったようだ。。

2005-03-05 Sat

* 業務連絡 (続 The Hungarian Method) [r]

内山さんから、任意の無効グラフの最大重みマッチングを求めるプログラ
ムのラッパー(mwm)を提供してもらいました。早速、使ってみました。

例えば、この対訳文だと

夜 が 明けよう と する 頃 やっと 仕事 が 終わった 。
I finally finished the job just as the dawn was about to break .
ベースライン(いわゆる P(e|f) と P(f|e) のリンク集合積をとる方法で
precision はとても良い、recall はあきらめた方法)はこんな感じでした。

6 やっと 1 finally
9 終わった 2 finished
7 仕事 4 job
5 頃 10 about
10 。 13 .

今回の、最大重みマッチングによる方法。最初のコスト行列は、P() を
log() とって、 -1 かけて、逆数にする、ふつーのやりかた。あ、一応、
e->j と j->e 方向それぞれにコストだして、「苦しまぎれのα」で線形
補完。

0 夜 5 just
1 が 0 I
2 明けよう 3 the
3 と 6 as
4 する 11 to
5 頃 10 about
6 やっと 1 finally
7 仕事 4 job
8 が 9 was
9 終わった 2 finished
10 。 13 .

まだ、評価する段階じゃないけど、recall は 0.302470119521912 から
0.353147410358566 に上がりましたが、precision は下がっていそう。
# I-world データは、部分的にしかマークされていないから、
# recall しか計算できないのが、難点。
# これの完全正解データを作るべきなんだろうなぁ。(泣)

先週は、The Hungarian Method で止まっていて、敗北だったが、試せる
ようになったから、少し進歩。

ありがとうございます。> 内山さん
まだ感触がつかんだばかりで、工夫の余地はありそうなので、いろいろ試
してみたいと思います。まとまったら、ご報告します。

2005-03-04 Fri

* 雪のため自宅でこもる [o]

天候に弱い横浜線。どうしても出勤という用事がなかったので、有給消化。

2005-03-03 Thu

* The Hungarian Method [r]

かなり回り道をしていたが、要は、この問題を解けば、対称コストでやる
方法を再現できるらしい。しっかし、肝心のアルゴリズムがわからんのだ。

http://www.cs.elte.hu/egres/design/generated/pub_techrep55.html

やっと、それっぽいライブラリが見つかったけど、今は商用ライセンスが
必要らしい。↓。日本ではただの評価版が見つかる。↑。ダウンロードし
たら、今度は、tar で展開できない。↓。ゆえに、本日も、敗北。

* 報告会は延期らしい。 [o]

「よっしゃー」っていって、その場にいた皆さんに報告してしまいました。
おくむら先生には、迷惑かかって「最悪のパターン」だけど、私は、スト
レスの原因だったものが排除されたから、安堵した。本当によかった。

報告できるネタがなくて、もう完全パニックで壊れていたが、これで、す
こし落ち着いて課題に取り組めそう。とはいっても、人生の節目まで、あ
と1ヶ月。時間がないことには変わらない。いい結果に結びつくように、
最善を尽くそう。後悔が残らぬよう。

2005-03-02 Wed

* 書きかえたい言葉一覧 [l]

通知表などの所見欄に,書きたいけど書けない言葉を書カき換カえる一覧イチランです。参考にして下さい。

http://www.kyo-sin.net/reframe.htm

とあります。おもしろい。
これって、PN (形容詞)のデータにならない? > T村さん、Iたさん

ちなみに 「こだわりのある」は「自分の意見を持った」や「意志が強い」
と言い換えられていた。「こだわる」のは悪いこと。私の両親は前期高齢
者に認定されている年代ですが、彼らにとって「こだわる」のは悪いこと。
昨今、ラーメン店主がインタビューで、「スープにこだわっている」など
答えているのを聞くことがあるけど、とても違和感を感じるといっていた。

大辞林 第二版では

(1)こだわること。拘泥。
「今では彼に何の --- もない」
(2)なんくせをつけること。文句をつけること。
「本家から --- のくる嫁をとり/柳多留拾遺」

とある。これからは、「こだわり」を捨てて、しなやかな人生を送りたい。

一方で、誤用とはいえ、無視できないんだ、ということも認識。だって、
そういう用法が Web に氾濫しちゃうと、それが、de facto standard に
なるから、そこからマイニングする場合は、PN も本来の意味とは違うこ
とになるのね。

2005-03-01 Tue

* 技術力も翻訳力も、つけたい! [l]

Ajax や、web service 系の API に関する話題が続出。
とくに、http://la.ma.la/blog/ で紹介されているハックがすごい。
今後が楽しみ。

そして、いつもAjax の文書の訳 みたいに良
質な文書があると、飛躍的に広まるっていう現象を見る。

今の私は、中途半端でパッとしない似非職業研究者だから、こんな技はで
きないけど…、地道に修練して科学や技術を体験して伝達できる人になり
たい。


01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

<<< >>> 最新 / kaoru's clog