Senとは
Sen はJAVAで書かれた日本語形態素解析器です。
辞書を使って日本語の文章をトークナイズします。
下は「Sen はJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。
- Solrに組み込むことで、日本語文章を意味のある単語単位にトークナイズして検索・インデキシングができるようになります。
- これにによってNグラム方式よりも精度の高い( ノイズの少ない )検索結果を得ることができます。ただし、再現率はNグラム方式より劣ります。この辺の話はちょっとややこしいので改めて。
- Sen を Solr に組み込むためには別途 lucene-ja も必要になります。lucene-jaはSen のラッパーとして動いて、Sen と Solr の間の橋渡しをするものです。 lucene-ja のインストールは次の記事で書く予定です。
では、れっつインストール。
ダウンロード
下からsen-1.2.2.1.zipをダウンロードして解凍する。
https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0
unzip sen-1.2.2.1.zip
インストール
utf-8 で使うための設定
% cd sen-1.2.2.1/conf %vi sen.xml <!-- charset>euc-jp</charset --> <charset>utf-8</charset> % vi sen-processor.xml <!-- charset>euc-jp</charset --> <charset>utf-8</charset> % cd sen-1.2.2.1/dic % vi dictionary.properties //sen.charset=EUC-JP sen.charset=utf-8 注) dic.charset=EUC-JPは変更しないこと
辞書のインストール
% cd sen-1.2.2.1/dic % ant
ここでインストールされる辞書は ipadic-2.6.0 なのですが、ipadic-2.7.0が既に出ているので新し物好きな人は build.xml を修正すると幸せになれると思います。
最近はNAIST-jdicの人気も高いのでこちらをつかうのもオサレです。
インストール
% mv sen-1.2.2.1/ $HOME/local
動作確認
環境変数の設定
% vi ~/.cshrc setenv SEN_HOME $HOME/local/sen-1.2.2.1 setenv CLASSPATH $SEN_HOME/lib/sen.jar:$CLASSPATH
bashの人は適当に読み替えてください。
動作確認
% sh $HOME/local/sen-1.2.2.1/bin/sen.sh 適当な日本語を入れてトークナイズされればおk。 「すもももももももものうち」 がお約束です。
ではでは
[Solr][Sen] 日本語形態素解析器Senを導入する その1 Senのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その2 lucene-jaのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その3 インデキシングする
[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム
[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析
[Solr][Sen] 日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう