2010-03-04から1日間の記事一覧

Wikipedia のテキストデータを使ってベンチマークをする! その2 Wikipedia のテキストデータを MySQL に入れる。

Wikipedia のデータを取得してMySQLに入れます。 Wikipedia のデータ構成 MySQL に入れる Wikipedia のデータ構造は以下の用になります。 フィールドの詳細については以下を参照してください。 http://www.mediawiki.org/wiki/Page_table/ja#page_title http…

Wikipedia のテキストデータを使ってベンチマークをする! その1 思い立ったこと

テキスト検索のベンチマークをしたいと思い立ちました。 テストデータにはWikipediaのデータを使おうと思います。 現在 日本語Wikipediaのページ数は約130万ページです。 Solrに入れるときには1ページ1ドキュメントになるので 130万ドキュメントのインデック…