>>> 最新 / kaoru's clog

ChangeLog 2004-04

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2004-04-29 Thu

* The Happy Prince [r]

お馬鹿な文字列検索だけで、どういう対訳がとれそうか、試してみる。い
ろんな意味で詰めが甘い近似結果でしかないけど、抽出されている種類が
異なる。

頻度を手がかりにする[2004-04-22]
辞書を手がかりにする。

あっ、辞書って、子文字でしか登録されていないから、case insensitive
な検索にしないとまずいよな…。今、気がつくなんて…。

* 年だから… [l]

仮眠のつもりが、マジ寝になった。2 AM まで頑張って起きていたんだが、
疲れがピークに達していて、意識が飛んだまま帰ってこなかった。Kさん
に、結果的に迷惑をかけてしまった。すみませぬ。

Referrer (Inside): [2004-05-07-2]

2004-04-28 Wed

* 通訳学校 [t]

基礎訓練が始まる。shadowing と reproduction 。どうも、通訳者を目指
す人は、短期記憶の保持力を高めないとまずいようだ。素人考えでは、検
索力を向上するための訓練の方が、重要だと思うのだが…。

つぎに、発音練習。講師の人に、あなたの英語は British だから鼻につ
くのよねー、と言われる。悪かったな。British で。これだから、日本で、
英語を話すのは嫌なのだ。発音なんてどうでもいいのだ。内容をできるか
ぎり正確に伝達するという使命が達成できればいいのだ。

滑舌がよいのは、重要かもしれないが、なんか、表層的なスキルにすぎな
いような気がする。話の大意をとらえることが疎かになっていないか?

* 勉強会 [o]

担当でした。2時間もやったので、疲れました。

2004-04-27 Tue

* shadowing [t]

明日は通訳学校の日なので、宿題だったやつを、テープレコーダーに録音
してみる。やっぱり、役者さんの朗読が速くて、聞き取りがあやふやな箇
所は、脳内でリアルタイム書きおこしができないようだ。そもそも、声の
合成すらできず、結果的に、shadowing のタスク、再現、ができない。と
いう当たり前なことを体験した。

* The Happy Prince [r]

とりあえず、見かけ上の単語区切りという概念を取り払って、単純に(お
バカに)辞書を文字列検索( da.commonPrefixSearch() ) して、単語レベ
ルの対訳関係を見つけることができそうか、やってみようとする。

でも、日本語文に出現する半角スペースで、激沈。うぅー。

* 堪えるしかないです。 [o]

あべかわさんのお言葉です。
外は、風が強く、雨が斜めに降っています。
仕事部屋は、水漏りの音とすきま風の音が聞こえて、こわいです。

Referrer (Inside): [2004-05-07-2]

2004-04-26 Mon

* The Happy Prince [r]

EDRから辞書を構築。Darts辞書にするところまで。

* 体が資本です。 [o]

Yさんが倒れたらしい。一週間、睡眠は一時間しかとらなかったとの噂。
そんなことしてたら、誰でも倒れるわ。ゆっくり休養してくださいね。

2004-04-25 Sun

* ちょっと休憩 [l]

# 家の本棚のスペースが枯渇しているけど、せっかく横浜まで来たから…

新語はこうして作られるを買う。さくっと、読む。複合語、派生語、省略語ができる過程が丁寧に分析されていた。
日本語学をやったことないけど、それなりに楽しめた。個人的には、心的辞書も、共通接頭辞で検索するとアクセスが早くなるらしい、というのがお気に入り。次の休みに、ケジメのない日本語を読む予定。

# 本の衝動買いは、控えなければ…。

* いまどきテープレコーダー [t]

を購入するために、横浜にでる。というのも、通訳学校への宿題提出が、
アナログ音楽テープだからだ。やれやれ。

2004-04-23 Fri

* 設定いろいろ [o]

実は、昨日の騒動で、怒り心頭に発する、といった感じでしたが、一日たっ
て、冷静になると、恩恵を受けた側面もあることがわかる。中でも、どの
ファイルが X の起動ファイルがわかるようになったこと。昔のように、
dot-xsession に戻っただけです。そうすると、gnome-ssh-askpass を設
定することができるようになって、ssh するときに、いちいちターミナル
毎に ssh-agent と ssh-add しなくてもよくなりました。便利。

.xsession に

eval `ssh-agent -s`
env SSH_ASKPASS=/usr/lib/ssh/gnome-ssh-askpass ssh-add < /dev/null

をウィンドウマネージャを(gnome-session)起動する前に設定すると、パ
スフレーズの入力が、ログインの時の一度だけですむ。M研時代に、T林さ
んに教えてもらって以来、重宝している機能の一つ。

という訳で、良い変化のきっかけを作っていただき、ありがとうございま
した。> S助教授とO研のadmin各位

# 昨日のメールで、管理者さんたちの「やっかいゆーざりすと」に載っ
# たのは間違いなしですけど。まぁ、しゃーない。

2004-04-22 Thu

* shadowing の練習 [t]

実は、今週は、The Happy Prince の shadowing が宿題なので、対訳コー
パスを活用する。役者さんが朗読してるから、結構、大変。

* The Happy Prince [r]

内山さん@NICT が公開している幸福の王子 に対訳表現抽出をやっ
てみました。全部で 378 文ありました。少量のコーパスなので、自立語
だけで対訳系列を作って、マイニングは連続 n-gram だけを対象にしまし
た。具体的なパラメータは、最低 2 回以上出現して、系列パターンの長
さを 3 までに区切る。(サポート 2、長さ[1,3] ) 要するに、北村モデル。

上位はこんな感じ。「王子」と「言い」が既に抽出されているから「王子
言い」ってのは冗長に抽出されているというツッコミが…。

163.457 Prince|NNP 王子|名詞-一般
126.646 said|VBD 言い|動詞-自立
88.3962 Swallow|NNP ツバメ|名詞-一般
81.9171 Happy|JJ Prince|NNP 幸福|名詞-形容動詞語幹 王子|名詞-一般
81.9171 Happy|JJ 幸福|名詞-形容動詞語幹 王子|名詞-一般
68.2913 said|VBD Prince|NNP 王子|名詞-一般 言い|動詞-自立
66.482 Egypt|NNP エジプト|名詞-固有名詞-地域-国
55.6727 statue|NN 像|名詞-一般

いわゆる、頻出しまくりな単語を含む系列(Swallow|ツバメ)や頻度による
類似度が同点の場合(Town Councillors|市会議員)、問題。要検討か。

50.1805 Swallow|NNP Swallow|NNP little|JJ ツバメ|名詞-一般 ツバメ|名詞-一般 ツバメ|名詞-一般
50.1805 Swallow|NNP Swallow|NNP little|JJ ツバメ|名詞-一般 ツバメ|名詞-一般
50.1805 Swallow|NNP Swallow|NNP ツバメ|名詞-一般 ツバメ|名詞-一般 ツバメ|名詞-一般
50.1805 Swallow|NNP Swallow|NNP ツバメ|名詞-一般 ツバメ|名詞-一般
46.7377 city|NN 町|名詞-一般
44.358 answered|VBD 答え|動詞-自立
40.2162 river|NN 川|名詞-一般
38.2899 Councillors|NNPS 議員|名詞-一般
38.2899 Councillors|NNPS 市会|名詞-一般 議員|名詞-一般
38.2899 Councillors|NNPS 市会|名詞-一般
38.2899 Town|NNP Councillors|NNPS 議員|名詞-一般
38.2899 Town|NNP Councillors|NNPS 市会|名詞-一般 議員|名詞-一般
38.2899 Town|NNP Councillors|NNPS 市会|名詞-一般

全部で 242 個抽出されてました。実行時間は、対訳系列を前処理で用意
した時間を除くと、0m0.376s です。正解率はどのくらいなんだろう。と
いうのと、ほとんど、英辞郎に掲載されているのでは、という懸念が叫ばれています。

* 次世代なのか? [r]

対訳君は、ユーザの観点からみると、使えるものなのかもしれない。

Referrer (Inside): [2004-04-29-2]

2004-04-21 Wed

* 制約つき解析に対する需要は高い。 [o]

HTML 文書などタグつきテキストを形態素解析したいという、無茶な使い
方を考えてみる。

思いつくのは、制約つき解析括弧制約を考慮した解析器 を発展させて
みることなんですが。もう少し考えてみよう。

* ChaSen では、全角空白は文字として認識します。 [o]

グループミーティングで嘘をついてしまいました。
ごめんなさい> S山さん

% chasen
これは 全角スペースのテストです。
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
      記号-空白
全角 ゼンカク 全角 名詞-一般
スペース スペース スペース 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS

ipadic に、エントリがありました。

(品詞 (記号 空白)) ((見出し語 (  0)) (読み  ) (発音  ) )

半角スペースは、自動的に区切り文字とみなして、すっ飛ばされます。

% chasen
これは 半角スペースのテストです。
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
半角 ハンカク 半角 名詞-一般
スペース スペース スペース 名詞-一般
の ノ の 助詞-連体化
テスト テスト テスト 名詞-サ変接続
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS

オリジナル文字位置情報が失われるのですが、これについては、いろいろ
議論されているので、割愛する。

chasen/lib/tokenizer.h に

#define is_space(c) (((c) == ' ') || ((c) == '\t'))

とあるので、タブと半角スペースはすっ飛ばされると思う。

* T村さんが三十路に [o]

おめでとうございます。で、禁煙を始めるらしい。

2004-04-20 Tue

* アラインメントの類似度 [r]

というか、アラインメントの表現と評価で悩む。
表現は、なんとなく決着。評価は、未決。

* 日記はどこですか? [o]

M1の人から、上の質問を受ける。「見つけるのは簡単だよ。」と答えてお
く。F氏によると、どこからもリンクが張られていない場合、タスクは難
しいらしい。

2004-04-19 Mon

* 対訳アライメントのデータ作成 [r]

* chasen インストール [o]

Yさんのホームに chasen をインストールしてみる。この方、ハナシコト
バ系なお仕事に興味があるらしい。

* F氏の論文 [o]

朝一番に机の上においてあったので、もう一度、読む。
とりあえず、午前中に終ったので、吉。ふー。

* 訪問の証拠が残っていた [o]

ミミタコさんとコゲパン?さんが white board の裏に登場。
コゲパンさんが、ハシカかなんかで病んでいる…。
このページに画像イメージが掲載できないのが残念ですが、相変わらずな
感じです。

2004-04-17 Sat

* day-off [l]

たつをさんお勧め情報につられて、プラネタリウムにいってきた。
メガスターIIで、天の川をみる。感動。生田緑地で、ぽかぽか太陽の下、
ほどよい散歩。帰りは、品川でインドカレー。美味。

* chalow 化 [l]

しました。テーマは定番で。

2004-04-16 Fri

* メカに弱い人なので [o]

FAX の紙交換をしてもらう。IMEの仮名漢字変換で戸惑う。
電話の転送の仕方が分からない。

* 事務処理 [o]

鳥取から、いろいろ。書類不備疑惑。

* F氏の論文 [o]

とりあえず、今週分は終り。多分、来週が山場。

2004-04-15 Thu

* 偏微分リベンジ [r]

高村さんに、押えるべきツボを教えてもらいました。感謝。

* F氏の論文 [o]

午前と午後と3時間づつ読む。なんとか、式のココロも理解する。
まったく知らないことだから、勉強になる。
いつも思うのは、こういう依頼の場合、どこまでのチェックを求められて
いるのかわからないことだ。まあ、いいや。嫌だったら、次から敬遠され
るから。それで、相手が学習するだろう。

2004-04-14 Wed

* 偏微分でも敗北 [r]

コーデイングが飽きたから、ME の Lagrangian で、primal から dual に
するところを頑張ろうと思ったが、ビセキの基本をおさえておらず、敗北。

* 勉強会 [o]

なんとなくしか、理解できなかった。discriminative model vs
generative model の話なんだが、、conditional はどこに位置づけられ
るのか、今だに謎。

* emozc でも敗北 [r]

今週は、月末のドタバタで封印していた、コーディングをしている。
maxent の部分の使い方はなんとなく習得。
でも、その他の部分でセグメントフォルト中…。

* flex で敗北 [r]

昨日の敗北のつづき。どうも、g++ がまずいみたい。gcc だと問題ない。
ということで、c の関数にして、cpp 側で extern "C" で呼び出して、
wrapper 関数を書くのが良いのがいいのかな。

Referrer (Inside): [2004-05-07-1]

2004-04-13 Tue

* Kleinberg の burst って待ち行列のことらしい [o]

Fさんに、NL研の発表内容を、1.5時間もかけて、ご解説いただく。待ち行
列といえば、QoS (IP routing でパケット配送をうまく考えて一定速度を
保証するってやつ) を連想してしまう。確かに、電子メールの到着もそう
かも。
random にモノがくるのは、一様分布なんだよね。
なんとなくエッセンスはつかめたかも。
あとは、金曜日までに、英語の修正をしないと。

* yto さんと satoru-t さんがブログ関係で奥村研に来るらしい [o]

思えば、松本研の web 日記文化は、たつをさんが震源だったような。

* 敗北 [r]

なんだか、redhad 上で flex から生成されたコードが debian 上で走らん。
おんなじ、gcc 3 系の compiler だと思うけど…。
今日は、疲れたから、追跡は中止。

* 研究紹介 [o]

こうちゃんの発表は、好評でした。皆さん、やさしく、パクついてました。
私の発表は、まあ、適当にやって、質問もコメントも少なく、ほとんど雑
談状態になって、フェードアウトしていった感じ。

Referrer (Inside): [2004-05-11-1]

2004-04-12 Mon

* メールサーバを止めた原因は私が借りたvaioだったらしい [o]

しくしく。すみません。

* 研究紹介のパワポ作成 [o]

2年前の古い話をしても、ちっとも面白くないと思うんだが。
明日、乗り切れるかな?

* 残務整理 [l]

週末は、個人用マシンの整理に明けくれる。
さらに、情報グループのから、月報の依頼がくる。
退職してまで、なんだかんだと BioNLP 関連の依頼が追っかけてくる。
侮れない。バタバタしているから、といって、断る。

2004-04-09 Fri

* 日本語入力 [o]

O研は、デスクトップが Debian な環境なため、いろいろ戸惑う。
すごく困っていたのが、日本語入力。かなり不自由していた。
で、本日、めでたくF木さんのアドバイスで解決。
なんと、ここの研究室は、 ATOK を使うらしい。しかも、設定ファイルが
.gnomerc らしい。そんな技があったのか…。人様の設定をコピーして、
快適な日本語入力生活になった。

2004-04-08 Thu

* CREST データ解禁 [r]

見てしまった。力業だ。
S先生@NAIST もそうだけど、N社にいるとアメリカンな発想になるのか。
それより、方向性だけでも考えておかなと、やばい。

* 時間を作る努力をしよう [l]

現実逃避する時間はすぐ作れるんだが。

2004-04-07 Wed

* 地震 [l]

* 再実装 [r]

* 定期が買えない [l]

いついっても、東急長津田駅の定期購入場所には長い列がある。
関東人は、忍んで列ぶのが、無駄に好きだと思う。
# JR鶴見駅では、すんなり定期が買えたのに…。

2004-04-06 Tue

* 新歓 [o]

起きているのが、しんどかった。
高村さんは、なんで、あんなに苛められるんだ?
「無敵時代」や「キャプテン時代」の面影なし。
あと、身近なアイドルは、R.H.から R.T. になったらしい。
等身大がないだけ、ましかも。

# 後日談:行方不明未遂があったらしい。
# 私は、*先頭の* Fさわさんに、「お先に」と挨拶したのに。

* 時間切れ [r]

前処理しかできてない。しかも、報道系だけ。間に合うのか?

* ゼミ [o]

沈黙が辛い。

* インストール [r]

Uさん@NICT (CRL) さんが公開されているツールをホームにインストール
する。「標準的な」英語の処理環境は、簡単にできてしまった。多謝。

# cocab は使うけど、一般英語の場合、わかち書きの曖昧性は稀だから
# あんまり必要なかったりする。

2004-04-05 Mon

* ゼミ [o]

世の中は狭いらしいことが判明。元上司の名前は聞きたくなかった。
Web 技術に疎いから、面白そうなのに、話についていけない。悲しい。
コメント力が求められる一日であった。

* 敗北 [r]

データ整形 - 例外につまずく。
ソースコード - 動かない。

2004-04-03 Sat

* 無料で入手できそうな対訳コーパス [r]

オープンソース系
http://logos.uio.no/opus/
新聞系
http://www.mag2.com/m/0000089609.htm

2004-04-02 Fri

* tools のインストール [r]

つかれた。未完。

* cpp [p]

operator>> と operator<< の override で挫折。

istream_iterator や ostream_iterator と copy を組み合わせると楽できる。
標準入力から vector 型の v へ整数を格納。

std::vector< int >::iterator iter = v.begin();
copy( std::istream_iterator< int >( std::cin ), std::istream_iterator< int >(), iter );

vector 型の v を標準出力で表示。

copy( v.begin(), v.end(), std::ostream_iterator< int >( std::cout, " " ) );

fstream も (i|o)stream_iterator と連結できるからお得。

2004-04-01 Thu

* いまさら CVS [p]

trial-and-error の域を越えず。

* お仕事はじめ(ドキュメント) [o]

9:00 -
出勤しても誰もいない。廊下に座って、待つ。(寒)
9:30 -
奥村先生、ご出勤。部屋にいれてもらう。(暖)
9:45 -
こうちゃん、ご出勤。まったり、世間話。
10:00 -
高村さん登場。配置変えする!ということだが、あべかわさん待ち。
私の Emacs と メール設定を参考に、こうちゃんの環境を設定。
11:00 -
あべかわさん登場。
物理的な移動。掃除。
13:00 -
お昼。話題は、ポスドクとは何ぞや。所属のなぞ。研究室の雑用。
揺るがない結論:名刺は、作らない。
14:00 -
設定などなど。
15:30 -
高村さんが、巧妙に自分担当の雑用を減らすべく、無駄な努力をしていた。
外野からみて、楽しい。
19:00 -
帰宅


01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

>>> 最新 / kaoru's clog