2008-08-01から1ヶ月間の記事一覧

全文検索エンジンはデータベースと何が違うのか

SolrやFASTやオートノミーといった全文検索エンジンとMySQLやPostgreSQLやOracle等のいわゆるRDBMSと比較してなにが違うのか、導入するとどんなメリットがあるのかといったことをよく聞かれます。最初に説明するのは次の3つです。 検索速度があがります 名前…

Solrとは

Solrって? Solrはオープンソースの検索エンジンです。 JAVAで記述されていてサーブレットとして実装されています。TomcatやJettyなどのサーブレットコンテナの上で動きます。 Apacheプロジェクトで開発が進められています。 http://lucene.apache.org/solr/…

Solr CJKAnalyzerで日本語文章の検索をする その4 CSVファイルで楽々インデキシング

ついにCJKAnalyzerを使って Solrに日本語ドキュメントをインデキシングするときが来ました。 ココまでくるとデータをPOSTするだけなのですが ただPOSTするだけだとつまらないのでCSVファイルをPOSTする方法を紹介します。 Solrにインデキシングするには XML…

Solr CJKAnalyzerで日本語文章の検索をする その3 シンプルなschema.xml

CJKAnalyzerにパッチを当てたら 早速日本語ドキュメントのインデキシングをしたいところなのですが その前にスキーマ定義です。 テストデータとして芸能人ブログのリストを使います。 URL,bloger,title http://ameblo.jp/kamijiyusuke/,上地雄輔,オフィシャ…

Solr CJKAnalyzerで日本語文章の検索をする その2 CJKAnalyzerのバグを修正する

SolrのCJKAnalyzerは内部でLuceneのCJKAnalyzerを利用しているのですが 実はこまったことにこのLuceneのCJKAnalyzerには重大なバグがあります。 まともに検索できません... http://issues.apache.org/jira/browse/LUCENE-973 ここに日本人のToru Matsuzawaさ…

Solr CJKAnalyzerで日本語文章の検索をする その1 まずはNグラムでいきまっしょぃ

日本語は英語などのように単語が空白で分離されていないので、 インデキシングしたり検索したりするためには、 日本語の文章をなんとかして単語に分割する必要があります。 これを一般にトークナイズ( Tokenize )といいます。 このやりかたには辞書を使う形…