lucene-ja とは
lucene-ja は Sen のラッパーとして Solr に日本語形態素解析機能を提供します。
大雑把に言うと検索エンジン Solr と 日本語形態素解析器 Sen をつなぎ合わせる役割です。
Solrから形態素解析器によってトークナイズされた単語で、検索できるようにするための縁の下の力持ちですね。
では、れっつインストール
ダウンロード
下からlucene-ja-2.0test2.zipをダウンロードして解凍する
https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0
% unzip lucene-ja-2.0test2.zip
インストール
lucene-ja.jarとsen.jarをSolrのライブラリディレクトリにコピーする。
% cd lucene-ja/lib % cp lucene-ja.jar $SOLR_HOME/WEB-INF/lib % cp sen.jar $SOLR_HOME/WEB-INF/lib
スキーマ定義
ここから実際にSolrからSenを呼び出すための設定です。
Solr に Sen を使ってトークナイズするフィールドを追加する。
% vi $SOLR_HOME/conf/schema.xml
Tomcatの設定
Tomcat起動時に sen.home を指定する。
% vi $TOMCAT_HOME/bin/startup.sh export CATALINA_OPTS="-Dsen.home=$HOME/local/sen-1.2.2.1"
動作テスト
Tomcatを起動する。
% $TOMCAT_HOME/bin/startup.sh
- ブラウザから Solr Admin ページにアクセスする
- Field -> type text_sen
- Field value (index) に適当な日本語を入れてAnalyzeクリック「すもももももももものうち」がお約束。
こんな感じでトークナイズされるとおk。
ではでは
[Solr][Sen] 日本語形態素解析器Senを導入する その1 Senのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その2 lucene-jaのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その3 インデキシングする
[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム
[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析
[Solr][Sen] 日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう