日本語形態素解析器Senを導入するその2 lucene-jaのインストール - Solr, Python, MacBook Air in Shinagawa Seaside

lucene-ja は Sen のラッパーとして Solr に日本語形態素解析機能を提供します。
大雑把に言うと検索エンジン Solr と日本語形態素解析器 Sen をつなぎ合わせる役割です。

Solrから形態素解析器によってトークナイズされた単語で、検索できるようにするための縁の下の力持ちですね。

では、れっつインストール

% unzip lucene-ja-2.0test2.zip

lucene-ja.jarとsen.jarをSolrのライブラリディレクトリにコピーする。

% cd lucene-ja/lib
% cp lucene-ja.jar $SOLR_HOME/WEB-INF/lib
% cp sen.jar $SOLR_HOME/WEB-INF/lib

ここから実際にSolrからSenを呼び出すための設定です。
Solr に Sen を使ってトークナイズするフィールドを追加する。

% vi $SOLR_HOME/conf/schema.xml

Tomcat起動時に sen.home を指定する。

% vi $TOMCAT_HOME/bin/startup.sh

export CATALINA_OPTS="-Dsen.home=$HOME/local/sen-1.2.2.1"

Tomcatを起動する。

% $TOMCAT_HOME/bin/startup.sh

こんな感じでトークナイズされるとおｋ。

ではでは