Wikipedia のテキストデータを使ってベンチマークをする! その1 思い立ったこと - Solr, Python, MacBook Air in Shinagawa Seaside

テキスト検索のベンチマークをしたいと思い立ちました。

テストデータにはWikipediaのデータを使おうと思います。
現在日本語Wikipediaのページ数は約130万ページです。
Solrに入れるときには1ページ1ドキュメントになるので
130万ドキュメントのインデックスが作られることになります。

Webクローラをガシガシ動かすようなシステムなら
こんなドキュメント数は何の参考にもならないですが
一般的な?社内システムみたいなものだとそれなりに参考になる数値だと思います。

テキスト検索の性能を上げるためにRDBのデータをSolrに移すなんてこともよくありますが
この場合はRDBの1レコードが1ドキュメントになるイメージになります。
検索エンジンを使いたくなるほどの文章量が入ったテーブルのレコード数が
100万レコードを超えるのってそう多くはないでしょ?

ちなみに、Wikipedia のデータは一旦 MySQL に入れてからデータインポートハンドラを使って入れる予定です。

MySQL の Like検索もの性能も測ってみたいと思っています。
できれば Senna もやりたいな...

日本語特有の表記揺れ対策や形態素解析器の品詞を使ったPOSフィルタが付録としてダウンロードできるようになっています。検索エンジンを使い始めると大体必要になるものなのでこちらのを利用すると便利だと思います。