再現率を上げる - 取りこぼしを減らす技術について

大手SIから「検索ヒット率」が低くて困っていると言われたので
再現率を上げればよいのかと資料作って行ってみたら
実は上げたいのは精度の方だったという笑えない話で
作った資料がボツになったのでここに上げときます。

検索エンジンで取りこぼしを減らす(再現率を上げる)技術

  • ノーマライズ
    • 全角半角、大文字小文字、ー有り無し等の表記揺れ対応
    • コンピューター:コンピュータ 、jal:JAL
  • ステミング
    • 活用形対策
    • 買う、買った、買え -> 買う、cars -> car 基本形( 語幹 )への変換
  • サブストリング
    • 文字列の部分一致
    • 「データ」 で 「株式会社NTTデータ」 をヒットさせる

副作用

  • 取りこぼしを減らす施策を実施した場合には再現率が上がる一方で、誤抽出が増えるため精度は下がる。

まとめ

  • 再現率と精度は相反するので検索エンジン導入時にはバランスの取り方がスキーマ設計のポイントなる。
  • いずれの対策も日本語の場合は検索エンジンを導入しただけでは解決できないことが多い。検索エンジンがその機能をもっているとしてもそれだけで痒いところに手が届くとは限らない。
  • ソフトウェアの開発やデータの整備が別途必要となるので予算化が必要。