Wikipedia のテキストデータを使ってベンチマークをする! その1 思い立ったこと


テキスト検索のベンチマークをしたいと思い立ちました。


テストデータにはWikipediaのデータを使おうと思います。
現在 日本語Wikipediaのページ数は約130万ページです。
Solrに入れるときには1ページ1ドキュメントになるので
130万ドキュメントのインデックスが作られることになります。


Webクローラをガシガシ動かすようなシステムなら
こんなドキュメント数は何の参考にもならないですが
一般的な?社内システムみたいなものだとそれなりに参考になる数値だと思います。


テキスト検索の性能を上げるためにRDBのデータをSolrに移すなんてこともよくありますが
この場合はRDBの1レコードが1ドキュメントになるイメージになります。
検索エンジンを使いたくなるほどの文章量が入ったテーブルのレコード数が
100万レコードを超えるのってそう多くはないでしょ?


ちなみに、Wikipedia のデータは一旦 MySQL に入れてからデータインポートハンドラを使って入れる予定です。


MySQL の Like検索もの性能も測ってみたいと思っています。
できれば Senna もやりたいな...



[Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その7 ロードバランサー( haproxy ) を使って Solr 2台構成にしてみた


[Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その6 Solr は MySQL より 200倍速い!


[Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その5 Solr と MySQL でざっくり速度対決


[Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その4 データインポートハンドラ ( DIH Data Import Handler ) を使って Solr にデータを入れる


[Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その3 Solr のスキーマ設計


[Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その2 Wikipedia のテキストデータを MySQL に入れるる


[Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その1 思い立ったこと



日本語特有の表記揺れ対策や形態素解析器の品詞を使ったPOSフィルタが付録としてダウンロードできるようになっています。検索エンジンを使い始めると大体必要になるものなのでこちらのを利用すると便利だと思います。