2008-09-01から1ヶ月間の記事一覧

日本語形態素解析器Senを導入する その4 再現率が高いNグラム

今回と次回の記事で形態素解析とNグラムの違いをみていきたいと思います。 結論から言うとNグラムの方が再現率が高く、検索語が含まれる文章を確実に拾い上げることができます。 逆に形態素解析の方は、解析ミスによって取りこぼすことがあります。 形態素解…

日本語形態素解析器Senを導入する その2 lucene-jaのインストール

lucene-ja とは lucene-ja は Sen のラッパーとして Solr に日本語形態素解析機能を提供します。 大雑把に言うと検索エンジン Solr と 日本語形態素解析器 Sen をつなぎ合わせる役割です。Solrから形態素解析器によってトークナイズされた単語で、検索できる…

日本語形態素解析器Senを導入する その3 インデキシングする

形態素解析用フィールドをスキーマに追加してインデキシングしてみます。 今回はNグラムと形態素解析の違いを確認するために、全く同じ文章をNグラムと形態素解析で2重にインデキシングしてみます。 インデキシング対象のデータはNグラムのときとと同様のブ…

日本語形態素解析器Senを導入する その1 Senのインストール

Senとは Sen はJAVAで書かれた日本語形態素解析器です。 辞書を使って日本語の文章をトークナイズします。下は「Sen はJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。 Solrに組み込むことで、日本語文章を意味のある単語単位にトー…

ver1.3ついにデビュー

本日Solr ver1.3がついにリリースされました。 ver1.2から1年3ヶ月ぶりのバージョンアップです。 いゃー長かったですね。お試しは以下からどうぞ。 http://ftp.kddilabs.jp/infosystems/apache/lucene/solr/ ではでh

MeCabのインストール

分け合ってMeCabのインストールです。 MeCabのインストール % wget http://downloads.sourceforge.net/mecab/mecab-0.97.tar.gz % tar xvfz mecab-0.97.tar.gz % cd mecab-0.97/ % ./configure % make % su $ make install 辞書 ipadic2.7.0 のインストール …

ログローテート用スクリプト

Pen

Penのログをローテートするためのスクリプトです。man penに書いてある以下を参考に作りました。 Sending pen a HUP signal will make it close and reopen the logfile, if logging is enabled, and reload the configuration file. Rotate the log like th…

ログ出力フォーマットを変更する

Pen

Penは便利なポート中継器なんですが、ログのフォーマットが(たぶんいろんな理由があってそうなっているとは思うのですが)ボクにはちょっと使いにくいところがありました。 タイムスタンプが、いわゆるグリニッジ標準時で1970年1月1日0時0分0秒からの経過時間…

起動スクリプト

Pen

ボクが使っている起動スクリプトです。参考になれば幸いです。 make install で penをインストールすればマニュアルも一緒にインストールされるはずなので詳細は man pen で補足してください。 #!/bin/sh export PEN_HOME=/home/hoge/pen export DAEMON=/usr…

インストール方法

Pen

penはロードバランシングをしてくれるオープンソースなソフトです。 単純なラウンドロビンだけなのですが結構便利に使えます。リバースプロクシとしても使えます。 インストール方法 1) ftp://siag.nu/pub/pen/から最新ダウンロード&解凍 2) 後は以下でおk…

BootCampでのキーバインドの変更など

最近、複数人でWordの文章を書いているのですが、ボク以外の人はWindowsのWordで書いているので、フォントの違いによるズレとかあれやこれやの無駄な作業が発生しないように、BootCampで起動してWindowsのWordを使ってます。で、ありがちなんですがキーバイ…