日本語形態素解析器Senを導入する その1 Senのインストール

Senとは

Sen はJAVAで書かれた日本語形態素解析器です。
辞書を使って日本語の文章をトークナイズします。

下は「Sen はJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。

  • Solrに組み込むことで、日本語文章を意味のある単語単位にトークナイズして検索・インデキシングができるようになります。
  • これにによってNグラム方式よりも精度の高い( ノイズの少ない )検索結果を得ることができます。ただし、再現率はNグラム方式より劣ります。この辺の話はちょっとややこしいので改めて。
  • Sen を Solr に組み込むためには別途 lucene-ja も必要になります。lucene-jaはSen のラッパーとして動いて、Sen と Solr の間の橋渡しをするものです。 lucene-ja のインストールは次の記事で書く予定です。
  • ここでは文字コードutf-8で統一しているため、デフォルトでeuc-jpになっている Sen や ipadic( 辞書 )をutf-8で使う方法も合わせて記述します。

では、れっつインストール。

ダウンロード

下からsen-1.2.2.1.zipをダウンロードして解凍する。

https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0

unzip sen-1.2.2.1.zip

インストール

utf-8 で使うための設定
% cd sen-1.2.2.1/conf
%vi sen.xml
 <!-- charset>euc-jp</charset -->
 <charset>utf-8</charset>
   
% vi sen-processor.xml
 <!-- charset>euc-jp</charset -->
 <charset>utf-8</charset>

% cd sen-1.2.2.1/dic
% vi dictionary.properties
 //sen.charset=EUC-JP
 sen.charset=utf-8
注) dic.charset=EUC-JPは変更しないこと

辞書のインストール

% cd sen-1.2.2.1/dic
% ant

ここでインストールされる辞書は ipadic-2.6.0 なのですが、ipadic-2.7.0が既に出ているので新し物好きな人は build.xml を修正すると幸せになれると思います。
最近はNAIST-jdicの人気も高いのでこちらをつかうのもオサレです。

インストール

% mv sen-1.2.2.1/ $HOME/local