Sen

日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう

詳細は下を参考にしていただきたいのですが Nグラムは再現率が高いものの精度は低くなりがちです。 逆に形態素解析は再現率は低いものの精度は高くなります。 [Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム [Solr][Sen] 日本語形…

日本語形態素解析器Senを導入する その5 精度なら形態素解析

Nグラムと形態素解析の比較の2回目です。 再現率が高いのがわかっているならNグラムを選択すればいいように思えるのですが、 Nグラムには再現率が高い故に精度が落ちるという問題があります。 まずは、この手の話をするときによく出てくる「京都•東京都」問…

日本語形態素解析器Senを導入する その4 再現率が高いNグラム

今回と次回の記事で形態素解析とNグラムの違いをみていきたいと思います。 結論から言うとNグラムの方が再現率が高く、検索語が含まれる文章を確実に拾い上げることができます。 逆に形態素解析の方は、解析ミスによって取りこぼすことがあります。 形態素解…

日本語形態素解析器Senを導入する その2 lucene-jaのインストール

lucene-ja とは lucene-ja は Sen のラッパーとして Solr に日本語形態素解析機能を提供します。 大雑把に言うと検索エンジン Solr と 日本語形態素解析器 Sen をつなぎ合わせる役割です。Solrから形態素解析器によってトークナイズされた単語で、検索できる…

日本語形態素解析器Senを導入する その3 インデキシングする

形態素解析用フィールドをスキーマに追加してインデキシングしてみます。 今回はNグラムと形態素解析の違いを確認するために、全く同じ文章をNグラムと形態素解析で2重にインデキシングしてみます。 インデキシング対象のデータはNグラムのときとと同様のブ…

日本語形態素解析器Senを導入する その1 Senのインストール

Senとは Sen はJAVAで書かれた日本語形態素解析器です。 辞書を使って日本語の文章をトークナイズします。下は「Sen はJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。 Solrに組み込むことで、日本語文章を意味のある単語単位にトー…