日本語形態素解析器Senを導入する その5 精度なら形態素解析

Nグラムと形態素解析の比較の2回目です。
再現率が高いのがわかっているならNグラムを選択すればいいように思えるのですが、
Nグラムには再現率が高い故に精度が落ちるという問題があります。
まずは、この手の話をするときによく出てくる「京都•東京都」問題です。


以下データは「日本語形態素解析器Senを導入する その3 インデキシングする」で作った物を使います。

Nグラムで京都を検索してみる

ブログタイトルのNグラムフィールドから京都を検索してみます。

2件ヒットすると思います。


0
2
10
0
on
title:京都
2.2


http://tokyo.hoge.com/
東京都事情
2008-09-23T09:19:07.039Z
今東京都から車が減ってきている
今東京都から車が減ってきている

http://kyoto.hoge.com/
京都の案内人
2008-09-23T09:19:07.04Z
芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光
芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光




1件は京都についてのブログですが、もう1件は東京都についてのものです。
Nグラムでは単語の区切りは意識されないので「今東'京都'から車が減ってきている」の京都にヒットしてしまっています。
2件ヒットしたうちの1件は要求した物ではない( =ノイズ )なので、この例だと精度50%ということになります。

Nグラムだとラーメンやあびる優とかでも同じような問題がでる

同じような例ですが、ラーメンとあびる優を検索した例です。

ラーメンで「おなじみのレギュ'ラーメン'バーが繰り広げるコント」がヒットしてしまっています。


0
0
10
0
on
title:ラーメン
2.2


http://ramenlove.livedoor.biz/
大崎裕史
2008-09-23T09:19:07.028Z
自称「日本一ラーメンを食べた男」の日記
自称「日本一ラーメンを食べた男」の日記

http://conte.hoge.com/
コント集団牛の出産
2008-09-23T09:19:07.034Z
おなじみのレギュラーメンバーが繰り広げるコント
おなじみのレギュラーメンバーが繰り広げるコント





あびる優でも「今注目を'あびる優'れた経営者たち」がヒットしてしまっています。


0
3
10
0
on
title:あびる優
2.2


http://abiru.hoge.com/
あびる優
2008-09-23T09:19:07.043Z
あびる優のブログ
あびる優のブログ

http://management.hoge.com/
企業家応援団
2008-09-23T09:19:07.043Z
今注目をあびる優れた経営者たち
今注目をあびる優れた経営者たち



形態素解析では精度100%

今度は京都、ラーメン、あびる優形態素解析トークナイズしたフィールドで検索してみます。
今回は、ORでつないで一度に検索してみます。


0
32
10
0
on
title_morph:(京都 OR ラーメン OR あびる優)
2.2


http://abiru.hoge.com/
あびる優
2008-09-23T09:19:07.043Z
あびる優のブログ
あびる優のブログ

http://ramenlove.livedoor.biz/
大崎裕史
2008-09-23T09:19:07.028Z
自称「日本一ラーメンを食べた男」の日記
自称「日本一ラーメンを食べた男」の日記

http://kyoto.hoge.com/
京都の案内人
2008-09-23T09:19:07.04Z
芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光
芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光




もう東京都やレギュラーメンバーや注目をあびる優れた経営者はいません。
ノイズが0で精度100%です。
このように形態素解析はNグラムに比べて精度の高い検索結果を得ることができます。


ではでは


[Solr][Sen] 日本語形態素解析器Senを導入する その1 Senのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その2 lucene-jaのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その3 インデキシングする
[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム
[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析
[Solr][Sen] 日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう