<<< >>> 最新 / kaoru's clog

ChangeLog 2004-05

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2004-05-31 Mon

* 喉がいたい [l]

前から自覚症状があったのですが、昨晩ほど食べていないときでも食道を
意識せざるをえないことは、31年の人生で、経験したことはなかった。

唾をのむだけで、ヒリヒリ痛くて、眠れなかった。のど飴をなめても痛い。
眠れないことにイライラするのは、非生産的だから、頼まれ仕事をかたづ
けておく。気がついたら、朝6時だったから、そのまま出勤。

朝、病院に行こうと思ったが、今日は月末で書類地獄日であること、何科
にいってよいか分からない、という問題があり、明日にすることにした。

出勤すると、体が震えて、くしゃみが止まらないし、頭がガンガンするし、
体調がだんだん悪くなるのがよく分かる…。

# 計算機が置いてある部屋が、暖かくて一番心地よく感じるあたり、
# かなり重症、とみた。

2004-05-30 Sun

* GIZA++ [r]

先週の水曜日の勉強会のときに、話題に上がったので、GIZA++ を試してみました。

% make -f Makefile depend
% make -f Makefile all INSTALLDIR=/home/lr/kaoru/bin

2003-09-30 のバージョンは、gcc-3.3.3 (Debian) でもコンパイルできま
した。

% GIZA++ -S S.vcb -T T.vcb -C ST.snt

で動くんですが、vcb (Vocaburary file) と snt (Bitext Files) サンプ
ルがなかったので、The Happy Prince の 374 文から、適当にファイル整
形をして、GIZA++ を動かせてみました。出力

中身はよく分からずに、動作させているから、いろいろ工夫するともう少
し賢そうな結果になると思う。(あれだけ論文が出ているんだから、統計
的機械翻訳の実力はこんなものではあるまい。)

* たつを来訪 [l]

実は、先日の飲み会で意識が飛んでいたため、高林さんからプレゼントの
マグカップを忘れてしまう、という大失敗をした。(ref. [2004-05-15])
本日、たつをさんがわざわざ自転車で鶴見まで、持ってきてくださる。無
事、受け取る。

忘れ物は、ばれていないか、と思いきや、どうやら、たつを亭では、帰宅
直後からネタにされていたらしい…。気がついた直後に連絡せずに、落ち
着いたと思われる週明けに連絡したのは、良かったのか、悪かったのか。

プレゼントは、ありがたく、使わせてもらいます。> 高林さん

* 熱暴走 [o]

復旧、お疲れさまです。> admin 各位。

2004-05-29 Sat

* 実家に電話 [l]

何があったかわからんが、小樽の問題は、決着ついたみたい。私としては、
あずかり知らなぬところで、厄介な問題に巻き込まれていなければ、それ
でいいのだ。よかった。

* 朝から微熱 [l]

外は天気がいいが、体調悪いので、週末の家事をして、寝る。

2004-05-28 Fri

* 計算機係見習い [o]

講師は、あべかわさん。(ref. [2004-05-18]) サーバ復旧後、今回の対処
方法をご講義いただく。

内容は、DHCP と NIS。お忙しい中、丁寧に、説明いただく。素朴な疑問
(愚問も含む)にも即答いただけたので、ありがたかった。多謝。

理解が怪しいところは、次回までに、Google に聞いておかないと。
今度から、「もう少し追い込んでいいですか」と聞かれたときは、迷わず
「いいえ」と答えるようにしよう。

2004-05-27 Thu

* BIDE [r]

実装で、泥沼にはまる。(いつものこと)

* 通訳学校 [t]

あるトピックが与えられたとき、連想する語とフレーズをひたすら言い続
ける練習をする。avian flu (鳥インフルエンザ)にちなんだことを列挙し
てください、と言われる。最初、どうしたら良いのか見当がつかなかった
けど、やり方にについて、ちょっとした知見が得られたのが、良かった。

通訳の現場では、just-in-timeに、分野の単語・フレーズリストを作れる
ことが重要らしい。その時に、スピーカーが何を言いそうか、と予測する
(educated guess もしくは informed guess)ことは、とても重要らしい。

2004-05-26 Wed

* 通訳学校 [t]

宿題が終わらない…。保持なんて、無理。覚えられない。

* 続・勉強会の下読み [o]

昨日わからんところがあったから、朝の通勤電車でもう一度読んでみる。
でも、oracle translation とその周辺の記述がよくわからん。目的は、
n-best candidates から、完璧な並べ替え
(reranking)ができたとして、どの程度の精度向上が見込めるかと見積も
ることらしいが。計算方法が謎のまま。誰か教えて。

2004-05-25 Tue

* 勉強会の下読み [o]

明日、担当なので、下読みしておく。

@inproceedings{och-EtAl:2004:HLTNAACL,
author = {Och, Franz Josef and Gildea, Daniel and Khudanpur, Sanjeev
and Sarkar, Anoop and Yamada, Kenji and Fraser, Alex and Kumar, Shankar
and Shen, Libin and Smith, David and Eng, Katherine and Jain, Viren
and Jin, Zhen and Radev, Dragomir},
title = {A Smorgasbord of Features for Statistical Machine Translation},
booktitle = {HLT-NAACL 2004: Main Proceedings },
editor = {Susan Dumais, Daniel Marcu and Salim Roukos},
year = 2004,
month = {May 2 - May 7},
address = {Boston, Massachusetts, USA},
publisher = {Association for Computational Linguistics},
pages = {161--168}
}

http://www.clsp.jhu.edu/ws2003/groups/translate/ の研究成果を
まとめました、っていう論文。仕方ないとは思うけど、
Franz Och の研究内容ばかり引用してい
るから、彼の論文を3本ほど、イモヅル式に読むはめになる。

ベースラインモデルはあれでいいのか、とか、BLEUスコア最小化でパ
ラメータをチューニングしていいんか、とか、いろいろ突っ込みがあ
るんだが、今は、保留する。

確かに、log-linear model にすると、柔軟に素性を組み込むことが
できるけど、なんか、組み込み方が乱暴のように思えてならない。
もし「木」が役立つとするなら、「木」の何が、どのような効果をも
たらしそうか、じっくり見極めてからの方がいいと思う。この論文が
示すように、浅はかな組み込みでは、前進しない。

* BIBE [r]

論文の書き方がややこしくてわからんかったが、英語の between the end
of A and B と after A and before B は同義っぽい。定義をかなり勘違
いをしていたことが発覚。示している部分文字列に A と B は含まれない。

A|<--- 部分文字列 --->|B

なんとか、Ruby での実装が終りそうなところで、論理バグで、沈没。
last_instance が見つからないという例外処理がうまく機能していない。

# あぁー、プログラミングセンスないよなぁ > 私。

論文のどこにも書いていないけど、実装は、last_in_last と
last_in_first は cache しておいた方が良さそう。
富豪的プログラミング、万歳。

2004-05-24 Mon

* 学辞郎 [r]

Sせんせとの仕事での英単語コア辞書が欲しい、と切望していた。コアな
ら学習用辞書よね。ってことで、学辞郎をインストール。

収録されているのは、アルクが開発した「標準語彙水準12000」
(SVL=Standard Vocabulary List)。一覧

・レベルが12?段階ぐらいに分かれている
→ NTT の単語親密度?みたいに、利用できるかも。

・品詞、単複、活用形の情報がある。
→ 専門家がチェックした正確な情報は、言語処理屋にとって有用。

・学習用なので、ゴミが少ない。

というご利益があるのだが…。学辞郎には、辞書本体がテキストデータに
なっていなかった(泣)。しゃーないので、リバースエンジニアリング(正
規表現を根性で書く)。無駄な頑張りであった。

# 変換スクリプトは、恥ずかしくて公開できない。v.65 しか動かないし。

2004-05-20 Thu

* BIDE [r]

高速化は後回しにして、アルゴリズム理解のために、Ruby で実装。

2004-05-19 Wed

* 発熱のため休む [l]

体から悲鳴が聞こえたときは、無理しない。今から無理してると、追い込
み時期が乗り切れない。

2004-05-18 Tue

* 不在届 [l]

帰宅後、連絡するの忘れたことに、気がつく。あー。

* BIDE [r]

このアルゴリズムは、backward extension に関する観察が優れている、
と思う。実装は、インデックスが 0 始まりにするようにしないと。

* 計算機係見習い [o]

計算機を暴走させるのは得意だけど、復旧させるのは苦手。スキルがない
から、トラブルシューティングと解決を Wiki に記録するのが、当面の仕
事になりそう。

Referrer (Inside): [2004-05-28-1]

2004-05-17 Mon

* BIDE [r]

NL 研で、つぼい君が、CloSpan は、scalable ではないから使えない!と
いう最もな指摘をしてくれた。それと、新しい論文出てますよ、ってこと
で、BIBEを読む。CloSpan との違いを簡単にまとめると

1. マイニング途中経過を保持する必要がない。CloSpan は、あるパター
ンが吸収できるかどうかを判定するために、過去に発見したすべての
closed パターン(候補)をラティスで格納していた。

2. 系列は、すべて、1つのアイテムから構成されるアイテムセットと割
り切った。つまり、I-step extension を切り捨てる。

強調すべきは、1. の "without candidate maintainance" で実現したこ
と。S-step extension のみと限定した場合における拡張を forward
extension と backward extension にさらに分類して、吸収されるか否か
の判定ができる性質を見出したこと。

# I-step extension が扱えるような拡張は容易とあるが、本当?

* 構造化データを対象としたマイニング [r]

http://hms.liacs.nl/index.html は、まとまっていると思う。
くどうくんの FREQTの実装もリンクしてあるよ。

* 環境整備、諸々 [r]

週末のおよばれの時、たつをさんが学辞朗をくれた。これが、Sせんせ
@JAIST との仕事で必要なコア辞書に使えそうと思いたつ。学習用辞書だ
から、ゴミがない(はず)。英辞朗と同じように、テキスト形式の辞書デー
タを探す。が、見つからず(泣)。やっぱり、売りモノだからバイナリら
しい。

そういえば、Reuters Corpus を web 越しで注文したんだが、返事がこな
い。どなたか、具体的な入手方法をご存知ですか? 早いこと、固有名詞
タガーを yamcha で学習してしまいたいんだが。

そろそろ、奥村研で、英語を処理する環境を整えないと。

2004-05-16 Sun

* 通訳学校の宿題で一日が終る。 [t]

日本語の運用能力と常識がなさすぎ。へこむ。

めげていても、時間はどんどん過ぎていくので、とりあえず、Google に、
Herpes Zoster を教えてもらう。資料を読んでいるうちに、GENIA corpus
に、ヘルペスに関連する論文アブストラクトがあったような気がする。
"Epstein-Barr virus" という文字列は、あったぞ。当時は、EBV をタン
パク質として誤答することだけしか関心なかったから。今でも愛ないけど。

2004-05-15 Sat

* たつを亭 [l]

昨日も飲み会だったため、二日酔い。
社会人の飲み会だけあって、リッチな会合。

ほぼ最初から、まったりする。疲れがたまっていたせいか、途中で、意識
が飛ぶ。satoru-t から、お礼ということで、ムーミンシリーズのマグカッ
プをいただく。Google の募集や、いつ春がくるのか、など。いろいろ。
沖縄と奄美な雰囲気を楽しんだ。

Referrer (Inside): [2004-05-30-2]

2004-05-14 Fri

* 飲み会 [l]

horosi-m, taku-ku, masayu-a, yuuta-t, kaoru-ya で。

奄美地方の美味しいお店@池尻大橋。「最近なにしてるの?」という質問
には、「リハビリ」と答える。あと、NIPS では、スキーありきで予定が
組まれていると聞く。いくら、リゾート属性で決まることが多いとはいえ、
露骨すぎ。

ヒロスエリョーコの等身大は、まだ、6階の計算機室に放置されているら
しい。もう、新人は等身大で歓迎されることはないみたい。taku-ku と
masayu-a からタナカレナとの違いについて講釈をうける。

* NL研 [r]

熱い議論もあったし、関西方面から有名人がきていたので、それなりに盛
り上がった、と思う。
個人的には、磯崎さんの仕事(優先度学習)がヒット。
Penn Treebank II と III は、同じディレクトリ構成らしい。
お昼は、5人で食べにいくが、席の関係で、ボスと2人席にすわる。
「最近、どうですか?」を発言したきり、ひたすら、聞き役にまわる。
ボスは、あいかわらず、ご多忙の毎日のようだ。

2004-05-13 Thu

* 喜連川研 [l]

いまどきの web mining の現場を見させてもらう。リンク情報というか、
メタ情報の利用は、意識すべき視点なんだろうなぁ。

あとは、storage の話。TRL の「オートノミック(自律的)・コンピュー
ティング」と同じようなことを目指しているとのこと。へぇー。

* NL研 [l]

神保町から会場まで、徒歩一時間。

2004-05-12 Wed

* 通訳学校 [t]

敗北。受験英語を履修していないから、翻訳モジュールが、未熟。

文脈を記憶(理解)するのと、話者のスピードやポーズは、脳内の同時書
きおこし精度と関係があることを体験する。基礎練習の吹き込みは、ゆっ
くりすぎる。普通、文脈を汲みとりながら話を聞くが、ゆっくりすぎて、
機能が麻痺する。直前文脈の時間が長過ぎて忘れてしまう。メリハリがな
いから談話の切断箇所が同定しにくい。(本人は、articulate
pronounciation を実践していると誤解していることが、とても厄介。)

アメリカ発音に慣れていないのも敗因かも。"can't" は、カーントと発音
すると思っていた。いまだに、アメリカ風の発音で、"can't" と "can"
が区別できない。

* CloSpan [r]

一応、紹介する。くどうさんの prefixspan の実装は、itemset
extension を考慮していないから、注意してね、っていうと、翔ちゃんか
ら、itemset extension が必要な場面が思いつかない、とか質問される。
itemset で形態素の属性をすべて格納できるから、便利だと思うけど。

2004-05-11 Tue

* PrefixSpan と CloSpan [r]

明日紹介する予定の CloSpan を読みながら、以前、書き方が曖昧でよ
く理解していなかった PrefixSpan の itemset と item の違いが、やっ
とわかった。元論文より、はるかにわかりやすい。

パターンを拡張するのは、2 つある。一つは、パターンの末尾に、1 item
から構成される itemset を連結する場合で、もう一つは、パターンの末
尾の itemset に item を入れる場合。前者を sequence extension
(S-step extension) 呼んで、後者を itemset extension (I-step
extension) と呼ぶらしい。Bayardo の Set Lexicographic Order の考え
を拡張して、Sequence Lexicographic Order というのを定義してやると、
それに対応する prefix search tree ができる。実際のマイニングは、こ
の探索木を depth-first に構築していることになる。

私は、いままで、S-step extension しか念頭においていなかったような
気がする。S-step extension と I-step extension という考え方は、
Aryre
bit 操作でマイニングを高速にする論文から踏襲したらしい。ということ
で、実装方法について、あれこれ、考えてみる。ゼミがあったりで、まだ、
未完。

話を CloSpan にすすめると、Zaki の TreeMinerV でも、この CloSpan
もそうだけど、candidate generation をするときに、equivalence class
をどのように定義するがミソ。CloSpan の論文では、共通の接頭辞や半順
序の性質などいろいろ試行錯誤した結果、projected database の item
のべ数によって、equivalence を保証したみたい。この性質を利用して、
探索空間の枝刈りができる条件を導出してる。実際には、prefix search
tree で non-closed な枝を merge して lattice にしておく。重複して
いる部分木を移植したイメージ。この操作を「吸収」(absorb)というらし
い。

ここまでは、わかったんだが、実装の記述で煙に巻かれた。projected
database の item のべ数を key としたハッシュをデータ構造にしている
んだが、なんかね、ちょっと無駄な候補も生成してしまうらしい。だから、
ハッシュの key について、代替案を述べているだが、わけがわからなく
なる。あと、non-closed sequence じゃないものを prefix search
lattice から削除するステップがわからん。Zaki の diffset がどうのこ
うのとあるが、あれは、basket mining の話じゃないのか?! 謎深まる。

# 明日、大丈夫かな?

* length bias に関する質問 [r]

うぅぅぅ。どうしよう。

* debian と g++ (3.3.3) [r]

flex に続いて [2004-04-13]、mecab (ruby|perl) binding でも、すんな
りいかない。gcc (3.3.3) gcc-3.2 gcc-3.0 gcc-2.95 でも、C API がセ
グメンテーションフォルトになる。号泣。

2004-05-09 Sun

* 今日の出来事 [l]

紹介する予定の論文を読み直す。途中、偏微分の式変換で、挫折。あきら
めて、別のデータマイニングの論文を読む。まだ分からないところがある
んだが、骨格はつかめたので、こっちを紹介することにする。

Sせんせにメールを書く。とりあえず、目の前の課題をかたそう、と提案。

たつをなべ、参加するぞ。久しぶりに、satoru-t や yuuta-t に会えるかも。

yuuta-t で、思い出して、ICML 2004
の accepted papers を眺める。abstract だけしか出ていないけど、CRF
に関連した論文(Dynamic CRF/McCallum, Gaussian Process/Altum,
Kernel CRF/Lafferty)や、その他、テキスト分類と素性選択関係で面白そ
うなタイトルが散見してる。まあ、カーネルですね。今年も。

それにしても、鹿島さん、3年連続で ICML に accept されていますねー。
さすがです。今回のネタは、研究日誌にすこし書いてあるけど。
ともあれ、快挙。良かったですね。おめでとうございます。

# もう、仕事関係で会うこともメールすることもないし、
# これも読んでいると思えないけど、まぁ、いっか。

2004-05-08 Sat

* SLコマンド [o]

N野さんから奥村研全員へ喜連川研究室見学会の案内。IPAXへは行けない
けど、研究室はのぞいてみたいという自己ツッコミがあったが、好奇心が
押えられなくて、喜連川研ページを眺める。
あのSLコマンド作成者 がいらっしゃった。友の会に入るとしたら、どっちだろう。
テンパっているときに、コマンドで笑わせてもらったから…。

2004-05-07 Fri

* The Happy Prince [r]

日本語文に出現する半角スペース問題 [2004-04-27] が、解決。ふー。
MeCabの codeconv.h, tokenizer.h, を参考にさせてもらう。とくに、
skipCharClass 関数は、かゆいところへ手が届いてくれて、感激。

子文字変換し忘れ問題 [2004-04-29] は、当方のコーディング能力欠如の
ため、汚く解決。メモリーリークは、未決。

修正した結果おまけ。前回よりもゴミを多くひろっているかも…。

* Sせんせ@JAIST [r]

メールがありました。かなりマトモな時間帯に受信したみたい。そのこと
に驚く。

こっちはまだ敗北中だけど [2004-04-14] ここらで、cocab (crfバージョ
ン) のデバッグを完了して、区切りつけよう。taku-ku さんの発表に間に
合うと、いくらか恩返しになるんだが。いくらなんでも無理そう…。

次は、せっかく、Web データの扱いに詳しい奥村研にいるから、S先生の
もともとの興味に近いテーマにしたい。PubMedやその他ウェブに転がって
いるテキストデータを力業でつかいこなして面白いことできたぞ、という
方向性になれば、お互い、幸せ。多分。
(大岡山にいるシニアな方が邪魔しなければ、という条件が…。)


01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

<<< >>> 最新 / kaoru's clog