<<< >>> 最新 / kaoru's clog

ChangeLog 2004-09

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2004-09-28 Tue

* ご報告 [r]

進路について、決意を伝えた。快諾いただいた。
この研究室に仲間入りさせてもらって、とても、感謝している。

2004-09-10 Fri

* 人身事故 [l]

たいがいにしてほしい。> 京浜東北線

水曜日は、川崎。今日は、石川町。一昨日の教訓を活かすべく、6時30
分に家を出たのに…。2時間もかけて、朝ラッシュに堪えつつ、迂回ルー
トを考えながらの出勤は、うんざり。逆流なのに、座れへんし。

何もなくても、ここんとこ、気持ちが後ろ向きで、登校拒否したいぐらい
なのに…。

* スランプ [r]

9 月に入って、頑張らないとまずいのに、ひどい、スランプ。

元気がないから、データ整理。さすがに 12 万文は多過ぎるので、因果関
係に着目した「複文と重文」の例(555 文)を眺める。

あの人は、家が丘の上にあるので、よい景色が眺められる。
The man, whose house is on the hill, can enjoy a nice view.

複数の主題を1文で(無理矢理)表現しようと試みると、構文レベルで言い
換えができる。それらから、構文構造的には優劣がつけにくい。

連体修飾節(埋め込み句)にしたければ、

丘の上に家を持つあの人は、よい景色が眺められる。
The man, whose house is on the hill, can enjoy a nice view.

重文にしたければ、

あの人は、家が丘の上にあって、よい景色が眺められる。
The man lives in a house on the hill and he can enjoy a nice view.

主節と従属節を持つ複文にしてみると

あの人は、家が丘の上にあるので、よい景色が眺められる。
The man can enjoy a nice view as his house is on the hill.

この場合、英文の節の順番の入れ換えが可能。

As the house of the man is on the hill, he can enjoy a nice view.

頑張って 1-1 対応で訳したけど、もし、m-n 対応を許すなら

あの人の家は、丘の家にある。よい景色が眺められる。
The man has a house on the hill. He can enjoy a nice view.

大抵、省略されている文の関係は、読み手にとって都合が良いように、補
完してくれる。だから、ディスコースマーカは、ほとんど、省略可能。
これを発展させると、必然性を伴う表層的な訳し分けルールなんて、
存在しない。

だから、これらの例文から、周辺文脈付きで、「ので」と "as" が対応す
るなんて統計値を出しても、意味がない。これが、3年前の私の失敗。
「A の B」では、A と B の意味的依存関係から「の」に訳し分けがある
のは納得できるけど、品詞は同じ助詞だからって、訳し分け議論は、複数
主題文には通用しない。

…と思う。単文分割の方が重要な課題に思えてしかたない。

CREST プロジェクト的には、まずい方向に議論進んでしまっている。
ケンカを売らないオチを早く見つけないと。

2004-09-09 Thu

*  matthew が、固まる。 [o]

計算機のファンも夏バテしたらしい。
自主的に固まって、落としても時間をおかないと再起動しない。2度ほど。
あべかわさんに、ファンを交換してもらう。多謝。

# 日頃の行い説は、否定しておく。

2004-09-08 Wed

*  台風 [l]

福岡市直撃。前回よりすごかったよ、とのこと。確かに、長崎ルートの方
が、熊本ルートよりダメージ大きい。西鉄電車・バスは、はやくから運休
したみたいで、外でるな家でじっとしてろ、らしい。 実家付近は、停電
はしなかったみたいで、助かったようだ。

2004-09-07 Tue

*  夏バテ [l]

朝から、微熱下がらず。頭がふらふら。天気が悪いからか?
体がだるい。自宅でだらだら休む。
食欲がないので、何も食べずに、ベットで、読書。

http://www.amazon.co.jp/exec/obidos/ASIN/4816917675/qid%3D1094774746/250-1350482-9680217
http://www.amazon.co.jp/exec/obidos/ASIN/4902091186/qid=1094775184/sr=1-2/ref=sr_1_10_2/250-1350482-9680217

上の本は、構文的な分析から訳すコツを見出そうとしている記述を、ひた
すら、ひろい読み。下の本は、NLPの英語チャンカー出力とどこが違いそ
うかを観察するために、眺めただけ。7+/-2の法則?を守っているだけで、
あんまり、構文構造を意識していない、線形で理解する、印象をもつ。

実は、構文的な手がかりをもう少し考えるのであればこれ↓のほうが良かっ
たのかも。

http://www.amazon.co.jp/exec/obidos/ASIN/4480081976/qid=1094775219/sr=1-1/ref=sr_1_10_1/250-1350482-9680217

CREST で給料もらっている以上、キーワードとして、「重文と複文」は外
せないので。で、どうしたらいいんだ > 研究

*  svm_struct [r]

複数ラベル対応とCFGバージョンが公開されているよ、とのこと。

http://www.cs.cornell.edu/People/tj/svm_light/svm_multiclass.html
http://www.cs.cornell.edu/People/tj/svm_light/svm_cfg.html

Kしまさんに教えてもらった。ありがとうございます。

2004-09-06 Mon

* 続 Ruby モジュール [o]

サンプルが公開されてる。しかも Cたすたす。世の中に、cpp と ruby モ
ジュールという組み合わせのドキュメントが少ないから、貴重。やっと流
れは掴めたかも。自分の道具にするには、もう少し、練習しなきゃ。

ありがとうございました。> ふじきさん

2004-09-03 Fri

* Ruby モジュール指南 [o]

ふじきにっきに登場。っていうか、ご当人、blog 関連で、めっちゃ忙し
いそうなのに。軽率にも、講習してほしい、なんて頼んだのが悪いよね。
すみませぬ。

この手のスキルは、自分でやらない身につかない。ただ、質問できる人が
研究室にいるのは、めっちゃラッキー。とっとと練習して、習得しよう。

* crf [r]

crf.sourceforge.net の CRF の実装を試してみた。

昔のバージョン(1.0)は、入力データや config ファイルをどうしたらい
いか予想できなかったが、新しいバージョン(1.1) samples というディレ
クトリができていたらしい。知らずにいた。ダメダメ。

java と ant は前にインストールしておいたから、README の通りにコマ
ンドを打つと、普通の crf は動いた。
でも、semi-markov にするところは、激しく、敗北。

2004-09-02 Thu

* 現実逃避 [l]

心の整理がつかない案件があって、お昼時間、桑畑さんにそっと相談。

それでも、なんか集中できない。しかたないから、web ページなんかを作っ
てみた。

9月になってから、スランプ。GB もあるのに…。やばい。明日こそ、頑
張ろう。

* gmail [o]

A さんがアカウント作成に invite してくださる。
メールの容量が 1G らしい。いとうれし。

とりあえず、奥村研のメールを forward する。問題なし。

ただ、gmail から日本語で返信すると、研究室で私が使っている emacs
の環境が古いから、日本語が文字化けする。A さんによると、新しい
emacs にすると問題ないらしい。今のところ、この設定を自分で変更する
スキルがないので、保留。read-only のメーラーとして活用することとする。

2004-09-01 Wed

* 通訳学校 [t]

前期、最終日。英語学習のアドバイスをもらう。私流にまとめると、

- learn the same topic from multi sources
- WSD with Google
- read a lot, listen a lot

最初の2つのアドバイスは、言語学習だけに限定されない気もするけど。
この半年、訳することの美学にすこし触れることができて、良かったと思う。

* Google News [l]

Googleニュース日本語版がスタートした。

http://www.atmarkit.co.jp/news/200409/02/google.html によると、
やっぱり、直接リンクは著作権上問題らしい。

気になった記述(↓)

日本生まれの米グーグル インターナショナル ビジネス プロダクト
マネージャー リチャード・チャン氏。文系出身のエンジニアで、
現在興味があるのは「日本語の形態素解析」だと語る。

* boost [p]

boost/numeric/ublas で sparse_matrix を扱う方法。
http://www-user.tu-chemnitz.de/~wgu/ublas/matrix_sparse_usage.html


01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

<<< >>> 最新 / kaoru's clog