CJKTokenizerFactory と NGramTokenizerFactory の動作の違い - Solr, Python, MacBook Air in Shinagawa Seaside

祝 Lucene2.9.0 リリース!!
2009/9/25 に Lucene2.9 がようやく正式リリースされました。
便乗して久しぶりの Solr ネタです。

この記事は Lucene2.9.0 がバンドルされている 2009/09/28版の Solr をもとに書いています。
http://people.apache.org/builds/lucene/solr/nightly/solr-2009-09-28.tgz

日本語の文章をインデキシングするときによく使われるトークナイザとして CJKTokenizerFactory があります。
CJKTokenizerFactory は基本的には 2-gram (別名 bi-gram, bigram ) なので
NGramTokenizerFactory で maxGramSize="2"としたときと
基本的には同じように動作するのですが、いくつか違うところがあります。