昨年8月の公開より,ご愛用,厳しいご批判ありがとうございます.
かなり時間を取ってしまいましたが,第2版を来月にも公開したいと思っております.
第2版は,以下のような点を改良,あるいは機能拡張してみました.
1.検索エンジンをGETAからLuceneに変更
検索エンジンをこれまで使用していたGETAからLuceneに変更しました.
LuceneはApacheのトップレベルのプロジェクトとして開発されているオープンソースの高速な検索エンジンです.
これにより,かねてより要望の多かったフレーズ検索等の複雑な条件による検索が可能になります.
また,これまで週に一回程度であったインデックスの更新も,一日数回の更新が可能となります.
2.APIの公開
第二版では,積極的にAPIを公開する予定です.
通常の検索や評判情報検索に関しては,A9 OpenSearchに対応したAPI公開を予定しています.
また,バースト計算,関連エントリ検索などに関してもAPI公開行う予定です.
3.ホットキーワード(metablog)をカテゴリごとに分類して提示
blogWatcherが収集したページの中で最近話題になっている出来事を自動的に発見し,blogとしてまとめている「blogWatcher::meta-blog」のentryを「スポーツ」「政治」などのカテゴリに自動的に分類して表示するように変更します.
これによって,自分の興味のある分野の出来事だけを読むことができるようになります.
4.評判検索を一新!
より多くの評価表現が,より正確に判別できるように!
機械学習を用いた評価表現分類手法により,大規模な辞書を自動構築しました.参考文献[pdf]
また,分類の際にこの機械学習による分類手法も用いています.より多くの件数がヒットするように!
テーマになっている単語は,初めに一度書かれるだけで,それ以降は省略されることが多いため,どの対象についての評価なのかがわかりにくく,省略を補う必要があります.
そこで,「センタリング理論」に基づいた手法を用いることにより,評価表現の対象語が文書で省略されていても,以前に出現した単語から高精度で補うことが可能になりました.
5.blogエントリ中で参照されているニュース記事を自動検出,記事へ対応づけ
blogエントリと,関連するニュース記事との自動対応づけが可能になります.
これによって,blogで書かれている事件についての詳細が知りたい,と言うような場合に,元記事へのリンクがなくても,関連するニュース記事を簡単に参照することが可能となります.
逆に,あるニュースについて書かれたblogを簡単に探すことができるようになります.
6.何でもRSS
blogWatcherで使用しているblog判定プログラムと同じように,Webページ中に含まれる日付表現とタイトル表現を検出し,HTML文書を構造解析することで,時系列情報を記述するWebページ(日記,BBS,ニュースサイト,イベント告知ページなど)からRSS Feedを自動生成します.
RSS Feedを配信していないサイトでも,簡単にRSS Feedを配信することが出来ますし,これまでRSSリーダーで読めなかったWebページもRSSリーダーで読めるようになります.
7.インターフェースの改善
通常の検索と,バースト検索,評判情報検索を同時に行うことで,様々な観点から検索結果を閲覧できるようにインターフェースを改善します.
システムの維持,管理に時間を取られる余り,研究し,新しい機能を追加する本来の時間をかなり失ってしまったこの半年余りの経験から,今後どの程度システムを公開し続けていくことが可能か段々わからなくなりつつありますが,可能な限りより良いものを皆様に提供していければと考えております.
今後とも御指導,ご批判をお願いできればと思いますと同時に,システムの開発等で御協力下さる方を引続きお待ちしております.