Nグラムと形態素解析の比較の2回目です。
再現率が高いのがわかっているならNグラムを選択すればいいように思えるのですが、
Nグラムには再現率が高い故に精度が落ちるという問題があります。
まずは、この手の話をするときによく出てくる「京都•東京都」問題です。
以下データは「日本語形態素解析器Senを導入する その3 インデキシングする」で作った物を使います。
Nグラムで京都を検索してみる
ブログタイトルのNグラムフィールドから京都を検索してみます。
2件ヒットすると思います。
− − 0 2 −10 0 on title:京都 2.2 − − http://tokyo.hoge.com/ 東京都事情 2008-09-23T09:19:07.039Z 今東京都から車が減ってきている 今東京都から車が減ってきている http://kyoto.hoge.com/ 京都の案内人 2008-09-23T09:19:07.04Z 芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光 芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光
1件は京都についてのブログですが、もう1件は東京都についてのものです。
Nグラムでは単語の区切りは意識されないので「今東'京都'から車が減ってきている」の京都にヒットしてしまっています。
2件ヒットしたうちの1件は要求した物ではない( =ノイズ )なので、この例だと精度50%ということになります。
Nグラムだとラーメンやあびる優とかでも同じような問題がでる
同じような例ですが、ラーメンとあびる優を検索した例です。
ラーメンで「おなじみのレギュ'ラーメン'バーが繰り広げるコント」がヒットしてしまっています。
− − 0 0 −10 0 on title:ラーメン 2.2 − − http://ramenlove.livedoor.biz/ 大崎裕史 2008-09-23T09:19:07.028Z 自称「日本一ラーメンを食べた男」の日記 自称「日本一ラーメンを食べた男」の日記 http://conte.hoge.com/ コント集団牛の出産 2008-09-23T09:19:07.034Z おなじみのレギュラーメンバーが繰り広げるコント おなじみのレギュラーメンバーが繰り広げるコント
あびる優でも「今注目を'あびる優'れた経営者たち」がヒットしてしまっています。
− − 0 3 −10 0 on title:あびる優 2.2 − − http://abiru.hoge.com/ あびる優 2008-09-23T09:19:07.043Z あびる優のブログ あびる優のブログ http://management.hoge.com/ 企業家応援団 2008-09-23T09:19:07.043Z 今注目をあびる優れた経営者たち 今注目をあびる優れた経営者たち
形態素解析では精度100%
今度は京都、ラーメン、あびる優を形態素解析でトークナイズしたフィールドで検索してみます。
今回は、ORでつないで一度に検索してみます。
− − 0 32 −10 0 on title_morph:(京都 OR ラーメン OR あびる優) 2.2 − − http://abiru.hoge.com/ あびる優 2008-09-23T09:19:07.043Z あびる優のブログ あびる優のブログ − http://ramenlove.livedoor.biz/ 大崎裕史 2008-09-23T09:19:07.028Z 自称「日本一ラーメンを食べた男」の日記 自称「日本一ラーメンを食べた男」の日記 http://kyoto.hoge.com/ 京都の案内人 2008-09-23T09:19:07.04Z 芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光 芸妓さん、舞妓さんに会いにいこう『お茶屋入門』京都観光
もう東京都やレギュラーメンバーや注目をあびる優れた経営者はいません。
ノイズが0で精度100%です。
このように形態素解析はNグラムに比べて精度の高い検索結果を得ることができます。
ではでは
[Solr][Sen] 日本語形態素解析器Senを導入する その1 Senのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その2 lucene-jaのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その3 インデキシングする
[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム
[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析
[Solr][Sen] 日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう