日本語形態素解析器Senを導入する その2 lucene-jaのインストール

lucene-ja とは

lucene-ja は Sen のラッパーとして Solr に日本語形態素解析機能を提供します。
大雑把に言うと検索エンジン Solr と 日本語形態素解析器 Sen をつなぎ合わせる役割です。

Solrから形態素解析器によってトークナイズされた単語で、検索できるようにするための縁の下の力持ちですね。

では、れっつインストール

ダウンロード

下からlucene-ja-2.0test2.zipをダウンロードして解凍する
https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0

% unzip lucene-ja-2.0test2.zip

インストール

lucene-ja.jarとsen.jarをSolrのライブラリディレクトリにコピーする。

% cd lucene-ja/lib
% cp lucene-ja.jar $SOLR_HOME/WEB-INF/lib
% cp sen.jar $SOLR_HOME/WEB-INF/lib

スキーマ定義

ここから実際にSolrからSenを呼び出すための設定です。
Solr に Sen を使ってトークナイズするフィールドを追加する。

% vi $SOLR_HOME/conf/schema.xml


Tomcatの設定

Tomcat起動時に sen.home を指定する。

% vi $TOMCAT_HOME/bin/startup.sh

export CATALINA_OPTS="-Dsen.home=$HOME/local/sen-1.2.2.1"

動作テスト

Tomcatを起動する。

% $TOMCAT_HOME/bin/startup.sh
  • ブラウザから Solr Admin ページにアクセスする
  • Field -> type text_sen
  • Field value (index) に適当な日本語を入れてAnalyzeクリック「すもももももももものうち」がお約束。

こんな感じでトークナイズされるとおk。


ではでは


[Solr][Sen] 日本語形態素解析器Senを導入する その1 Senのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その2 lucene-jaのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その3 インデキシングする
[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム
[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析
[Solr][Sen] 日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう