日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう

詳細は下を参考にしていただきたいのですが
Nグラムは再現率が高いものの精度は低くなりがちです。
逆に形態素解析は再現率は低いものの精度は高くなります。
[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム
[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析


再現率と精度は相反する物なので
検索エンジン導入時には
そのバランスをどの辺でとるのかっていうのが設計のポイントになります。


これは検索エンジンを利用するサービスの質にによって決定される物です。
電話帳検索のような再現率重視のサービスでは
確実に見つけることができるNグラムを使う方がよいでしょうし
膨大なドキュメントから人間が検索するような場合には
ヒット件数が多すぎても読み切れないので
形態素解析を使ってで精度の高いドキュメントに絞った方がいいでしょう。


どちらかに絞りきれない場合には、両方を併用することもできます。
両方のフィールドを同時に検索して、精度の高い形態素解析でヒットした方を
検索結果の上位に持ってくるのです。


下の例の場合、形態素解析の方でヒットした方が10倍スコアが高くなります。
このため、形態素解析でヒットした京都の方が
Nグラムでヒットした東'京都'の中の京都より上位にランキングされます。


0
1
10
0
on
title_morph:京都^10 OR title:京都
2.2


http://kyoto.hoge.com/
京都の案内人
2008-09-23T09:19:07.04Z
芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光
芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光

http://tokyo.hoge.com/
東京都事情
2008-09-23T09:19:07.039Z
今東京都から車が減ってきている
今東京都から車が減ってきているらしい




ではでは


[Solr][Sen] 日本語形態素解析器Senを導入する その1 Senのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その2 lucene-jaのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その3 インデキシングする
[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム
[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析
[Solr][Sen] 日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう