2005-03-29 Tue
* リラックマ分布 [o]
Teao 分布を真似してリラックマ分布を求めてみるべきかも。
http://www.tahoo.org/~taku/teao/
この Teao 分布は、私が、松本研に入ったころに盛り上がったネタ。
一式そろったので、そろそろ記念撮影をしないと。
奥村研で、いろいろ協力していただきありがとうございました。
2005-03-17 Thu
* 言語処理学会 [o]
終わった。人、いっぱい。ソーシャライズ、恐い。
ずっと心配をかけてしまったお方とは、数日前から別件でメールのやりと
りがあったのですが、きちんと、対面でも、報告させていただきました。
多くを語れない心境を察していただいたようで、とても、ありがたかった
です。とにかく、感謝でいっぱい。
発表は反省するすべきことばかり。特筆すべきは、タイトルと内容が違う
のと、表示方法も話術もへたれだったことでしょう。あと、これができる
と何が嬉しいという点について、自分にはあるんだが、明確に答えられな
かったことも、敗因。
最初のころは、調子がわからずあせりまくり。ポスター発表は、初めてだっ
たけど、講演発表とは違うポイントをおさえておかないとまずい。もっと
修行が必要。それでも、辛抱強く聞いていただいた方(お情けだと思うけ
ど、数名いらっしゃいました)には、対話の中で要点を引き出してもらえ
て、ありがたかった。この直接フィードバックで、自分のいいたいことが
精錬されていくのが、ポスターの良さですね。
実は、途中、誰もいないポスター横での待機が疲れた。だから、後ろで様
子をうかがっていた。そうすると、お一人、ポスターをじろじろ見ておら
れた方が現れる。後ろ姿なので確信はないけど、「ちょっと考えればすぐ
わかる」。対応せねば、とは思ったが、恐怖心には勝てなかった。ってい
うか、絶対に、「無理」。
(ほんま、すんません。すんません。すんません。すんません。)
今回は、意図的に、自分の研究とはあまり関係ないセッションに出ました。
大会全体で、ぐさっときた発話。
「受信用の機械翻訳と送信用の機械翻訳とは別物って考えている。」
「課題を人工的に設定するきらいがある。」
「データとアルゴリズムは、同時に考えないといけない。」
「やりたいことは、○○なのね。タイトルは××だけど。」
「結果は、エッセンスとは違う。で、エッセンスは何なの?(略)
それからコメントするから。」
「単発の研究が多い。それ、本当に自分が欲しいものなのか、って突っ込
みたくなるときがある。」
「僕は、気長にお待ちしております。」
「そっちへ展開しちゃうと、あなたが生きている間に終わりません。」
2005-03-08 Tue
* プレゼント [o]
M山さんから、リラックママスコットをいただく。ありがとうございます。
詳細は、ここ(↓)。でも、シークレットのやつをもらったみたい。ラッキー。
http://www.itoen.co.jp/news/2005/030401.html
昼から、「にぶぐらふ」で連敗中。またまた挫折か、と思いきや、いっき
に、やさぐれモード解除。多謝。
もう少し、キリが良いところまで、やってしまおう。
2005-03-07 Mon
* 田中先生の最終講義 [o]
聴講させてもらいました。田中先生の魅力満載で、素敵でした。
印象に残った形容詞は「おもしろい・つまらない」。
頻出した固有名詞(人名)は「淵さん」。
わくわくする研究をするよう、たゆまない挑戦をしてこられたのだろう。
それが、お言葉からよく伝わりました。
最後のメッセージは、きなくさい世の中への警告でした。最後の最後のメッ
セージは、途中で去った学生さんが元気かどうか気がかりだということだ
そうです。やさしいお人柄です。そして、最後の最後の最後のスライドは
「ありがとう」かその類似表現だったらしいですが、見せるのを忘れてし
まった!ってオチャメな感じで暴露されて、終わりました。
もう一度、LR 法を勉強しておこうかな。
2005-02-01 Tue
* 2月のゼミ [o]
25日になったようだ。がーん。
久しぶりに K さんによるカーネル周りの最近の進展がまとめて聞けると
楽しみにしておりましたが…。くどうくんとも、ここんとこ、御無沙汰だっ
たし…。自分への外部刺激として、おふたりの「目から鱗」を感じさせて
くれる話を、とても楽しみにしていたんだけど…。
あー、それにしても、残念。
せめて午後だけでも参加したいけど、ゼミだから仕方ない。ガマンガマン。
この間の、情報処理の編集とかもされておられたし、K さんもご活躍され
ておられるみたい。すごい。最近、アルゴリズム周りで調べものして、久
しぶりに S さんの講義ノートを読ませてもらったり。こちらもすごい。
あと少しで、こういう生活ともお別れするけど、同僚だけにとどまらず、
研究を通して、外部のすごい方々と出会えたことも財産だな、と感じる、
今日この頃。
2004-12-22 Wed
* 高村さんは偉い! [o]
今日は、勉強会で、Markov Random Field と EM と Mean Field Theory
辺りと絡んでくる論文を「解説」してくださった。学生時代から、いつも、
偉いと思っていて、なかなか見習えないところは、式を「解説」してくれ
るところ。どうやって読みといたらいいか、過程を順序だって解説すると
ころ。論理に落し穴があんまりないから、おいてけぼりに、あんまり逢わ
ない。今回も、わかった「気分」にちょっとだけさせてもらいました。幸
せ因子がすこし増えて、脳細胞がほろ酔いして、いい感じ。
ただ、私以外のスタッフさんは、皆さん、お疲れモードみたい。人徳があ
るから、疲れる、ってのも可哀想。職場の仲間として、さらに雑用を増や
さないように自分で処理できることをすこしずつ増やしていこう。
2004-12-20 Mon
* Dyama さんとMつださん [o]
Dyama さんは GB で、Mつださんは AA で、奥村研究室にいらっしゃる。
いつぞや年末に松本研に卒業生が大集合した感じみたい。728に5人と
いうのは、高密度。
皆さん、お元気そう。「最近どう?お忙しいですか?」と大人語で雑談が
始まり、大物松本研出身者が近々東急沿線にくるよ、だから、ごたごたが
一段落したら、関東地区で集まりましょうねー、という話もでてきた。こ
れからも、関東進出の勢いは止まらないらしい。私は、アマノジャクなの
で、逆行する予定ですが、まぁ、その前に、ソーシャライズ恐怖症が治っ
ていると、ありがたいかも。というわけで、今回の打ち上げも不参加。
2004-12-05 Sun
* T 中研 OB 合同研 [o]
面白かったです。
何が、って… 発表後の OB 方々のツッコミが。発表も、ですが。数多く
あった爆弾発言の中で、「それは、人手エラーなのか手抜きなのか。」は
深いと思いました。
我上司の O先生、他には、T永先生、S井先生、I師匠とは、いままでお話
することもあったのですが、他の OB の方々は、名前を知っている程度だっ
たので、いろいろ人物観察ができて楽しかったです。K 野さんを久しぶり
に見て、昔のパワーがあったから、妙に安心したり。
あんな OB を育てた T中先生ご自身の幅広さと奥行きに、改めて、感動。
私が学生時代のときは、S山氏や A辺川氏 の発表を聞く機会があったんだ
けど、最近はあんまりなかった。やはり、T中T永研は、人口知能分野の由
緒ある研究室なんだよね。AIの全体の展開をみながら、自然言語処理に貢
献しているんだよね。言語と音声と画像のインターフェースを大事にして
いるからこそ出る発想ってのがあって、OB の方々もそれをいい形で継承
してるなぁーって感じ。皆さん、発想が柔軟で好奇心旺盛なんだけど、結
構、マニアックに食いついて噛み砕くだけの根性をお持ちなのよね。(教
養も根性もない私には無理だけど。)
指導者として、生成や理解という深いところまで進もうとしている努力や、
(時には怪しまれることもありそうな)境界・融合領域にかかんに立ち向
かう勇気やいたずらに抽象論を好むアカデミズム偏重ではなくきちんと現
実を見据えていこうという姿勢が随所に感じられました。うまく言えない
けど、学術的進歩と実用的進歩の間で、絶妙なバランス感覚というか美意
識がみなさんにあって、それは見習いたいな、と思いました。
今回、私が深く反省すべきことは、質問しなかった点ですね。時間がおし
ているんだよ…という司会の先生の目線と、今さら感で、引いてしまった
のが、敗北かも。でも、I 師匠が愛のあるツッコミとフォローをしていた
ので、まあ、いいか。私も、他の先生方のように、あのような場でも、き
ちんと質問やコメントができるように修行しないといけないなぁ。
全般的に、とてもいい経験させてもらいました。感謝です。
2004-11-30 Tue
* 予稿集を求めて… [o]
(ref. [2004-11-18]) あべかわさんが、大岡山にあるT中T永研にいって、
情報処理学会第61回全国大会の予稿集を探してくださったが、2000
年だけなかったらしい。やっぱり、見放される運命にあったのか。
いずれにしても、ご協力いただき、ありがとうございました。
2004-08-18 Wed
* 勉強会 [o]
担当。Co-clustering ネタ。
http://www.cs.utexas.edu/users/inderjit/public_papers/kdd_bregman_coclustering.pdf
肝心なところが分からないままで終ったような気がする。まずい。
収穫なのかどうか不明だけど、今の私の課題(wamf)に、そのままでは使え
そうにない、ということを改めて認識しただけ。(泣
2004-08-17 Tue
* 翔ちゃん [o]
久しぶり。T村さんにほぼ文脈レスで招集されて(なんか、メールのやり
とりがあったらしい…)、ミーティングに参加することになる。インター
ンでの課題について説明される。何を期待しているのか、謎のまま。イン
ターンを受け入れる方もインターンする方も苦労しているね、って印象を
持った。
個人的には、特許文書を相手にするとしても、翔ちゃんが言っていた「フ
レーズレベルのアラインメント」より、特許のカタカナ語か、もっと広範
囲の未知語を対象とした対訳ペアの抽出とした方が、現実的じゃないかと
思う。もし、特許文書の未知語の大半が英語とその翻字(カタカナ語)と
いう主張ができるのであれば(この主張は怪しい)、transliteration の
問題として取り組む方が良いと思うんけど。
受け入れ先は、音声言語のグループって伺っているし、transliteration
は phonetics と morphology をつなげるものだ、と強引に「音声」言語
なところを強調もできる。。
いずれにしても、transliteration のモデルを作る上で、
transliteration の対訳データ(英語とカタカナ語の対)は必要だから、
インターン中は、第一歩として、それらを半自動的に集めました、
というのでまとまるような気がするけど…。
2004-08-16 Mon
2004-07-21 Wed
* 勉強会 [o]
担当。半分も理解できない論文を選んで、だめだめな説明をした。
体内の熱も、部屋の温度も上がってきて、泥沼にどっぷり。耐久レース。
ごめんなさい。> 出席された方々
教訓 - 熱があるときに、ミーティング類は禁物。他人に迷惑がかかる。
ちなみに、紹介した論文は↓。"Factored *" の章は、全滅。
http://robotics.stanford.edu/~btaskar/pubs/mmcfg.ps
2004-07-14 Wed
* 勉強会 [o]
高村さんが要約タスクで使われた tree-position kernel というものを紹
介してくれる。http://www.isi.edu/~hdaume/publications.html
要約の背景がよくわからんから、適用したのが偉いのかもしれない。
http://www.isi.edu/~hdaume/SVMsequel/
ただ、カーネルは、基本的に、木のパス(系列)の集まりとみて、ストリ
ングカーネルの考え方をそのまま適用する、みたい。技術的に新しいとこ
ろはない、と、高村さんがコメントしてくれる。確かに、カーネルのエッ
センスは、これと同じ。
http://www-2.cs.cmu.edu/Groups/NIPS/NIPS2002/NIPS2002preproceedings/papers/submitted/AA11-draft.pdf
2004-07-12 Mon
* ゼミ1日目 [o]
あべかわさんのおまけネタを聞いて、これで、英語とカタカナのペア
(transliteration) が、表記の揺らぎも含めて、大量の抽出できるように
なるかも、と思う。そうすると、ごちゃまぜ文の形態素解析の辞書に使え
るかも。という訳で、しばらく、妄想プロセスが走った。
帰宅して、少し冷静に現況をみつめる。
まずは、Google API の使い方とか知らないから、調べないと。という口
実をみつけて、またまた、ウェブ散策。世の中の web 関連の技術ってす
ごい。勢いが。追うだけで、体力いるなぁー。
1000 件のリミットがあるし、英語とカタカナ表記の一覧がありそうな
web ページを検索してくれそうなクエリを考えないとまずそう。なにより、
奥村研の web 組の研究の邪魔をしてはまずい、といろいろ注意が必要。
2004-06-24 Thu
* imput [o]
計算が長くなりそうという憂鬱な実験の場合、スクリプトの最後に、結果
のまとめを mail コマンドで自分に送ることがよくある。前の職場は、モ
デル学習が多かったから、特に。外出先でも、結果だけ眺めて、早めに落
胆して、という感じかな。
奥村研の環境のローカルマシンでは、
$ cat result.txt | mail -s "subject" [user's address]
とすると、多分、/var/mail/user に送られてしまう。アドミンの N さん
に聞いたところ、SMTP サーバに送らないといけないらしい。F さんのア
ドバイスにより、
$ cat result.txt | imput -s "subject" [kaoru's address]
とする。ちゃんと、自分のメールボックスに送られてきた。imsetup で設
定している人は、(mewを使っている人は)これで良いらしい。ありがとう
ございます。
でも、前の職場で、mail コマンドで、できていたのが、謎。やっぱり、
ネットワークに関しては、もう少し修行しないといけないかな…。
でも、アドミンさんが優秀だから、苦労せずに答えが発掘できるし、それ
に、甘えてしまう。結果として、ユーティリティ度低い、迷惑人間のまま、
成長しない。ありがちな負のパターン。
後日談 ([2004-07-01])
今日も、30分ぐらい、NFS マウントしているホームからの応答が鈍くな
りました。刺さっている…とつぶやいて、現場から逃げてしまいました。
本日は、アドミンさんらがご出勤されていたので…。ごめんなさい。ごめ
んなさい。ごめんなさい。計算機を使わせてもらうだけで、嫌な仕事を奉
仕していない、現状はよくない。と思っていても、改善策なし。
あかんやん、自分。
今日は、なぜか人口密度が高った。確かに、アドミンさんにとっては、出
勤している間は雑用が多くて仕事にならないから、家で仕事をする方が能
率があがる、という主張はよくわかる。
代わりに、コーヒー豆とフィルターを生協で購入して、補充しておきまし
た。帰ってきたら、正常になっていた。すばらしい。
2004-06-23 Wed
* 勉強会担当 [o]
http://www.cis.upenn.edu/~libin/paper/ijc04.pdf
いつも通り私の説明がヘタレであったが、IさんもAさんもそれなりに発話
してくれて、なんとか終った。とは言え、reranking という言葉に困惑な
3人だった。
2004-06-22 Tue
* mecab-0.78 [o]
mecab の新しいバージョンがでたので、getCost で落ちる問題に再挑戦。
今回は、pthread は無しでビルド。怪しいとのアドバイスのため。
Perl/Ruby バインディングの挙動もおかしいんだが、そもそも、ソースの
example/example.c が、0.77 と同じで segmentation fault で落ちる。
考えるに、mecab.h と libmecab.cpp の C/C++ インタフェースの橋渡し
が、AMD Athlon と相性が悪いかも。SWIG も mecab.h で定義されている
関数を呼んでいるみたいだし。
画面に表示させないように、小技を試してみたけど (Fさんに言われたこ
と)、どれも敗北。
# 負の報告ばっかりになってる…。ダメダメな感じ。
2004-06-22 Tue
* Named Entity tagger のモデル作成 [o]
CoNLL-2003 の Shared Task のデータを使う。
eng.train で学習、eng.testb でテストをする。
学習は、YamCha を使わせてもらう。
素性につっこむための前処理は、内山さんの各種ツールで対処する。
で、結果。
P R F
LOC 0.8216 0.8117 0.8166
MISC 0.7749 0.6082 0.6815
ORG 0.7078 0.7074 0.7076
PER 0.8052 0.8565 0.8300
all 0.7780 0.7685 0.7733
何にも考えずにやったからだけど、ちょっと悪いかな…。奥村研の共
用ディレクトリに置ける精度じゃない。もうちょっと考えよう。
2004-06-08 Tue
* 続 ニロウ [o]
現実逃避。juman-4.0 は、辞書が違うからだと思うけど、解析結果は、
人名「二郎」になった。
太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0
は は は 助詞 9 副助詞 2 * 0 * 0
この この この 指示詞 7 連体詞形態指示詞 2 * 0 * 0
本 ほん 本 名詞 6 普通名詞 1 * 0 * 0
を を を 助詞 9 格助詞 1 * 0 * 0
二郎 じろう 二郎 名詞 6 人名 5 * 0 * 0
を を を 助詞 9 格助詞 1 * 0 * 0
見た みた 見る 動詞 2 * 0 母音動詞 1 タ形 8
女性 じょせい 女性 名詞 6 普通名詞 1 * 0 * 0
に に に 助詞 9 格助詞 1 * 0 * 0
渡した わたした 渡す 動詞 2 * 0 子音動詞サ行 5 タ形 8
。 。 。 特殊 1 句点 1 * 0 * 0
EOS
辞書を見てみると、Noun.koyuu.dic に次のエントリがあった。
Noun.koyuu.dic:(名詞 (人名 ((見出し語 (二郎 1.0)) (読み じろう))))
Noun.koyuu.dic:(名詞 (人名 ((見出し語 (二郎 1.0)) (読み にろう))))
固有名詞の中に、「二郎」駅に該当するエントリがない。
にしても、読みが「じろう」になっているのは、どうやって制御してるの
だろう? まだ、マニュアルを読んでないから、、、厳しい現実に戻ろう。
2004-06-07 Mon
* mecab-0.77 [o]
http://www.tahoo.org/~taku/diary/2004-06.html#2004-06-05
動作が不安定なのは、アーキテクチャのせいかも、とのこと。
現在、奥村研で使用させてもらっているマシンの /proc/cpuinfo によると、
vendor_id : AuthenticAMD
model name : AMD Athlon(TM) XP1800+
らしい。確かに、非 Intel なマシン。先週、ふじきさんと話したときは、
バッファ関係か、mmap が怪しいね、ということになりました。
忘れてたけど、printf 以外の策を、Fさんに報告しなくては。> 私
# 多分、cocab も奥村研では動かないだろうな(号泣)。
2004-06-07 Mon
* ipadic-2.51 [o]
二郎の読みについて、とある辞書屋さんから、以下の情報をいただきました。
太郎は、「名詞-固有名詞-人名」ですが、
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー 4122
二郎は、「名詞-固有名詞-一般」で、人名じゃないそうです。
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー 15760
この「二郎」は、神戸電鉄三田線の「二郎」駅だそうです。既出らしいです。
へぇー。
そんなん知るか。と、毒を吐くのはよくないので、ipadic を調べてみる。
確かに2つのエントリがありました。
Noun.name.dic:(品詞 (名詞 固有名詞 人名 名)) ((見出し語 (二郎 2383)) (読み {ジロウ/ニロウ}) (発音 {ジロー/ニロー}) )
Noun.proper.dic:(品詞 (名詞 固有名詞 一般)) ((見出し語 (二郎 2922)) (読み ニロウ) (発音 ニロー) )
「[:駅:]を見た女性」より「[:人:]を見た女性」の方が共起しやすいか、
と言われると、微妙な差かな。前件はトライグラムまでみているとすると、
「本/を/固有名詞-一般」と「本/を/固有名詞-人名」だし、う〜ん、微妙。
日本語を理解する人は、「太郎」があるからそれとよく対比する「二郎」
の品詞は「名詞-固有名詞-人名」になる、という推論が働くと思う。こう
いう離れた呼応(?)は、現状の形態素解析で、扱えないところかも。
mecab と chasen は、同じ辞書と連接表を使っている。だけど、連接表の
解釈がすこし違う。辞書を読み込むとき、chasen は、connect.cha のルー
ルを上から読んでいって、下の方のルールで上書きしてる。connect.cha
の順番が優先順位になっている。(と理解している。) 一方、mecab は、
内部で、ルールの specific さを判断してできるだけ specific な連接ルー
ルを適用するようにしている。(libmecabdic.cpp と dictionary_maker.h
は昔から鬼門だから、理解は怪しいが。)
ほとんどの場合、同じ解析結果になるけど、今回は、適応される品詞の連
接ルールの方で差がでできそうだったから、chasen でも試してみた。
太郎 タロウ 太郎 名詞-固有名詞-人名-名
は ハ は 助詞-係助詞
この コノ この 連体詞
本 ホン 本 名詞-一般
を ヲ を 助詞-格助詞-一般
二郎 ニロウ 二郎 名詞-固有名詞-一般
を ヲ を 助詞-格助詞-一般
見 ミ 見る 動詞-自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形
女性 ジョセイ 女性 名詞-一般
に ニ に 助詞-格助詞-一般
渡し ワタシ 渡す 動詞-自立 五段・サ行 連用形
た タ た 助動詞 特殊・タ 基本形
。 。 。 記号-句点
EOS
結果は同じ。神戸電鉄の「二郎」駅は、やっぱり、強かった。
2004-06-04 Fri
* mecab-0.77 [o]
実は、奥村研の計算機環境(gcc-3.3.3 (Debian 20040401))で
mecab-.0.77 の perl/ruby binding が落ちるという問題をずっと抱えて
いました。現象は、MeCab の Tagger オブジェクトを生成するところまで
問題なしでも、parse メソッドを呼び出すところで、落ちる。ただし、
sentence が 1 形態素だけのラティスのみ(例えば sentence = "赤") は、
解析される。
最初に報告してくれたのは、南野さん。で、今日、「日頃の行ないが良い」
藤木さんが、(暫定的だけど)解決策を発見。私は力不足だし日頃の行な
いが悪いので、解決できませんでしたが、助かりました。ありがとうござ
いました。
1. mecab-0.77/src/tokenizer.h の getCost の関数の始めに、printf("\n"); を挿入する。
virtual unsigned int getCost (const Node *lNode2, const Node *lNode,
const Node *rNode)
{
printf("\n"); // <--- おまじない
return matrix [size3 * ( size2 * lNode2->token->rcAttr2 +
lNode->token->rcAttr1) + rNode->token->lcAttr]
+ rNode->token->cost;
}
2. mecab-0.77 本体を再度コンパイル
% cd ${MECAB-0.77}
% make clean; make install
3. mecab-ruby-0.77 でバインディングを再構築する。
% cd ${MECAB-0.77-RUBY}
% make clean; make
4. テスト
% ruby test.rb
# ここで、getCost 関数が呼ばれた回数だけ改行が出力される。
# 何回、連接表が参照されたかわかる。
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー 4122
は 助詞,係助詞,*,*,*,*,は,ハ,ワ 5545
この 連体詞,*,*,*,*,*,この,コノ,コノ 7235
本 名詞,一般,*,*,*,*,本,ホン,ホン 9660
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 10438
二郎 名詞,固有名詞,一般,*,*,*,二郎,ニロウ,ニロー 15760
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 16928
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ 18645
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 18987
女性 名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ 21411
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 22262
渡し 動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ 25290
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 25601
。 記号,句点,*,*,*,*,。,。,。 25892
BOS/EOS,*,*,*,*,*,*,*,* 25892
EOS
やっぱり、tokenizer.h の getCost() に問題がありそうみたいです。
私の環境だけかもしれないけど、
% ruby test.rb > result
% lv result
とすると、なぜか、出力がバイナリコードなんだけど…。むむむ。
あと、ファイルストリームの入力が全滅。何にも出力されない。
% cd ${MECAB-0.77}/src
% ./mecab file
# 出力がない。
どうしてかな…。何か、相性悪いよね。ということで、未来の私への宿題。
余談ですが、藤木さんに、「二郎」の読みと発音について、突っ込まれま
した。> ipadic な方
あと、ldd で、*.so ファイルの依存関係を調べられるということも教え
てもらいました。
kaoru@matthew:~/tools/mecab-ruby-0.77$ ldd MeCab.so
libmecab.so.0 => /home/lr/kaoru/lib/libmecab.so.0 (0x4000a000)
libpthread.so.0 => /lib/tls/libpthread.so.0 (0x4006f000)
libstdc++.so.5 => /usr/lib/libstdc++.so.5 (0x4007e000)
libdl.so.2 => /lib/tls/libdl.so.2 (0x40137000)
libcrypt.so.1 => /lib/tls/libcrypt.so.1 (0x4013a000)
libm.so.6 => /lib/tls/libm.so.6 (0x40166000)
libc.so.6 => /lib/tls/libc.so.6 (0x40189000)
/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x80000000)
libgcc_s.so.1 => /lib/libgcc_s.so.1 (0x402c3000)
2004-06-03 Thu
* 計算機係見習い [o]
講師に、あべかわさんとふじきさんの2人体制で、聴講する方も5、6人
に。3時間ぐらい詰め込み授業。私は熱暴走だったため、はてな飛ばしま
くり。(ref. [2004-06-01])
Wiki にまとめるという宿題をすこしづつする。NAT の一部だけ。
宿題も体重やストレスと同じで、私の許可なく増えていく。侮れない。
# アドミン講習会は終ったとのことなので、宿題は増えないはず。
# me も調べないと。
2004-05-28 Fri
* 計算機係見習い [o]
講師は、あべかわさん。(ref. [2004-05-18]) サーバ復旧後、今回の対処
方法をご講義いただく。
内容は、DHCP と NIS。お忙しい中、丁寧に、説明いただく。素朴な疑問
(愚問も含む)にも即答いただけたので、ありがたかった。多謝。
理解が怪しいところは、次回までに、Google に聞いておかないと。
今度から、「もう少し追い込んでいいですか」と聞かれたときは、迷わず
「いいえ」と答えるようにしよう。
2004-05-25 Tue
* 勉強会の下読み [o]
明日、担当なので、下読みしておく。
@inproceedings{och-EtAl:2004:HLTNAACL,
author = {Och, Franz Josef and Gildea, Daniel and Khudanpur, Sanjeev
and Sarkar, Anoop and Yamada, Kenji and Fraser, Alex and Kumar, Shankar
and Shen, Libin and Smith, David and Eng, Katherine and Jain, Viren
and Jin, Zhen and Radev, Dragomir},
title = {A Smorgasbord of Features for Statistical Machine Translation},
booktitle = {HLT-NAACL 2004: Main Proceedings },
editor = {Susan Dumais, Daniel Marcu and Salim Roukos},
year = 2004,
month = {May 2 - May 7},
address = {Boston, Massachusetts, USA},
publisher = {Association for Computational Linguistics},
pages = {161--168}
}
http://www.clsp.jhu.edu/ws2003/groups/translate/ の研究成果を
まとめました、っていう論文。仕方ないとは思うけど、
Franz Och の研究内容ばかり引用してい
るから、彼の論文を3本ほど、イモヅル式に読むはめになる。
ベースラインモデルはあれでいいのか、とか、BLEUスコア最小化でパ
ラメータをチューニングしていいんか、とか、いろいろ突っ込みがあ
るんだが、今は、保留する。
確かに、log-linear model にすると、柔軟に素性を組み込むことが
できるけど、なんか、組み込み方が乱暴のように思えてならない。
もし「木」が役立つとするなら、「木」の何が、どのような効果をも
たらしそうか、じっくり見極めてからの方がいいと思う。この論文が
示すように、浅はかな組み込みでは、前進しない。
2004-05-10 Mon
* ゼミ [o]
http://papalagi.org/diary/ より pdf がらみのネタを。
http://sasapanda.com/toshi/archives/000764.html
2004-04-23 Fri
* 設定いろいろ [o]
実は、昨日の騒動で、怒り心頭に発する、といった感じでしたが、一日たっ
て、冷静になると、恩恵を受けた側面もあることがわかる。中でも、どの
ファイルが X の起動ファイルがわかるようになったこと。昔のように、
dot-xsession に戻っただけです。そうすると、gnome-ssh-askpass を設
定することができるようになって、ssh するときに、いちいちターミナル
毎に ssh-agent と ssh-add しなくてもよくなりました。便利。
.xsession に
eval `ssh-agent -s`
env SSH_ASKPASS=/usr/lib/ssh/gnome-ssh-askpass ssh-add < /dev/null
をウィンドウマネージャを(gnome-session)起動する前に設定すると、パ
スフレーズの入力が、ログインの時の一度だけですむ。M研時代に、T林さ
んに教えてもらって以来、重宝している機能の一つ。
という訳で、良い変化のきっかけを作っていただき、ありがとうございま
した。> S助教授とO研のadmin各位
# 昨日のメールで、管理者さんたちの「やっかいゆーざりすと」に載っ
# たのは間違いなしですけど。まぁ、しゃーない。
2004-04-21 Wed
* 制約つき解析に対する需要は高い。 [o]
HTML 文書などタグつきテキストを形態素解析したいという、無茶な使い
方を考えてみる。
思いつくのは、制約つき解析 や 括弧制約を考慮した解析器 を発展させて
みることなんですが。もう少し考えてみよう。
2004-04-21 Wed
* ChaSen では、全角空白は文字として認識します。 [o]
グループミーティングで嘘をついてしまいました。
ごめんなさい> S山さん
% chasen
これは 全角スペースのテストです。
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
記号-空白
全角 ゼンカク 全角 名詞-一般
スペース スペース スペース 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
ipadic に、エントリがありました。
(品詞 (記号 空白)) ((見出し語 ( 0)) (読み ) (発音 ) )
半角スペースは、自動的に区切り文字とみなして、すっ飛ばされます。
% chasen
これは 半角スペースのテストです。
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
半角 ハンカク 半角 名詞-一般
スペース スペース スペース 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
オリジナル文字位置情報が失われるのですが、これについては、いろいろ
議論されているので、割愛する。
chasen/lib/tokenizer.h に
#define is_space(c) (((c) == ' ') || ((c) == '\t'))
とあるので、タブと半角スペースはすっ飛ばされると思う。
2004-04-01 Thu
* お仕事はじめ(ドキュメント) [o]
9:00 -
出勤しても誰もいない。廊下に座って、待つ。(寒)
9:30 -
奥村先生、ご出勤。部屋にいれてもらう。(暖)
9:45 -
こうちゃん、ご出勤。まったり、世間話。
10:00 -
高村さん登場。配置変えする!ということだが、あべかわさん待ち。
私の Emacs と メール設定を参考に、こうちゃんの環境を設定。
11:00 -
あべかわさん登場。
物理的な移動。掃除。
13:00 -
お昼。話題は、ポスドクとは何ぞや。所属のなぞ。研究室の雑用。
揺るがない結論:名刺は、作らない。
14:00 -
設定などなど。
15:30 -
高村さんが、巧妙に自分担当の雑用を減らすべく、無駄な努力をしていた。
外野からみて、楽しい。
19:00 -
帰宅