2008-08-13から1日間の記事一覧

Solr CJKAnalyzerで日本語文章の検索をする その4 CSVファイルで楽々インデキシング

ついにCJKAnalyzerを使って Solrに日本語ドキュメントをインデキシングするときが来ました。 ココまでくるとデータをPOSTするだけなのですが ただPOSTするだけだとつまらないのでCSVファイルをPOSTする方法を紹介します。 Solrにインデキシングするには XML…

Solr CJKAnalyzerで日本語文章の検索をする その3 シンプルなschema.xml

CJKAnalyzerにパッチを当てたら 早速日本語ドキュメントのインデキシングをしたいところなのですが その前にスキーマ定義です。 テストデータとして芸能人ブログのリストを使います。 URL,bloger,title http://ameblo.jp/kamijiyusuke/,上地雄輔,オフィシャ…

Solr CJKAnalyzerで日本語文章の検索をする その2 CJKAnalyzerのバグを修正する

SolrのCJKAnalyzerは内部でLuceneのCJKAnalyzerを利用しているのですが 実はこまったことにこのLuceneのCJKAnalyzerには重大なバグがあります。 まともに検索できません... http://issues.apache.org/jira/browse/LUCENE-973 ここに日本人のToru Matsuzawaさ…

Solr CJKAnalyzerで日本語文章の検索をする その1 まずはNグラムでいきまっしょぃ

日本語は英語などのように単語が空白で分離されていないので、 インデキシングしたり検索したりするためには、 日本語の文章をなんとかして単語に分割する必要があります。 これを一般にトークナイズ( Tokenize )といいます。 このやりかたには辞書を使う形…