Solr

Solr CJKAnalyzerで日本語文章の検索をする その3 シンプルなschema.xml

CJKAnalyzerにパッチを当てたら 早速日本語ドキュメントのインデキシングをしたいところなのですが その前にスキーマ定義です。 テストデータとして芸能人ブログのリストを使います。 URL,bloger,title http://ameblo.jp/kamijiyusuke/,上地雄輔,オフィシャ…

Solr CJKAnalyzerで日本語文章の検索をする その2 CJKAnalyzerのバグを修正する

SolrのCJKAnalyzerは内部でLuceneのCJKAnalyzerを利用しているのですが 実はこまったことにこのLuceneのCJKAnalyzerには重大なバグがあります。 まともに検索できません... http://issues.apache.org/jira/browse/LUCENE-973 ここに日本人のToru Matsuzawaさ…

Solr CJKAnalyzerで日本語文章の検索をする その1 まずはNグラムでいきまっしょぃ

日本語は英語などのように単語が空白で分離されていないので、 インデキシングしたり検索したりするためには、 日本語の文章をなんとかして単語に分割する必要があります。 これを一般にトークナイズ( Tokenize )といいます。 このやりかたには辞書を使う形…

Solr の日本語環境設定をする

Solrで日本語ドキュメントのインデキシングと検索をするための環境設定をします。 SolrというよりTomcatの日本語環境設定といった方が近いかもしれませんが。 文字コードにUTF-8を使用しています。 server.xmlの設定 $TOMCAT_HOME/conf/server.xmlに以下を…

さくらインターネットに Solr をインストールする ( 4 ) Solr の動作確認をする

Solrの配布パッケージに入っているテストデータを使って インデキシングや検索がちゃんとできるか確認します。 まずはインデキシング % cd apache-solr-nightly/example/exampledocs POST用スクリプトの修正 ポート番号を適宜修正します。Tomcatのデフォルト…

さくらインターネットに Solr をインストールする ( 3 ) いよいよ Solr をインストール

Solrの正式版は2007/06からリリースされていないのですが 開発中のはかなり進化しているのでそのnightly版を使います。 ここではSolrはTomcatの上で動かします。 ( SolrにはJettyがバンドルされているのでTomcatなしで動かすこともできます。) Solr最新版の…

さくらインターネットにSolrをインストールする ( 2 ) 次にTomcat をインストール

Tomcatをインストールします。 5.5.Xを入れます。 % wget http://ftp.kddilabs.jp/infosystems/apache/tomcat/tomcat-5/v5.5.26/bin/apache-tomcat-5.5.26.tar.gz % tar xvfz apache-tomcat-5.5.26.tar.gz % mv apache-tomcat-5.5.26 $HOME/local 起動、停止…

さくらインターネットにSolrをインストールする ( 1 ) まずはJAVA ( JDK ) をインストール

さくらインターネットはOSにFreeBSDを使っているので SUNのサイトからダウンロードできるJDKやJREは使えません。 FreeBSD用に親切な人がポーティングしてくれたのを使います。感謝! ダウンロード ここからダウンロードします。 http:/www.freebsdfoundation…

Solr 今月ちょっとクエリが増えてきたのでメモっとく

2008/03/03 497210 2008/03/01 626495 2008/03/02 508038 2008/03/04 510431 2008/03/05 551803ざっくり 多い日で63万クエリ少ない日で50万クエリ ってとこですね。システム負荷をみると 今のインフラでもこの倍ぐらいは 無理なく処理できちゃいそうな感じで…

Solrのレプリケーション系のスクリプトを動かすために、sshのパスワードなしログインの設定をしようと思ったのだけど、前にやった設定手順を結構忘れていたので今度はちゃんとメモっとく

手順をざっくり書くと 1) クライアント側でキーを作成する。 2) 公開鍵の方をサーバの~/.ssh/authorized_keys2に追記する。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー ここからは詳細手順。 まずはクライアント側でキーを作成 注意点は…

jmeterでSolrのベンチマーク(の準備)をしたのでメモっとく

64ビット化したSolrマシンにはQuad CoreのXeon 2.66Gzが2個入ってます。 # 蛇足ですがtopでみるとCpu0〜Cpu7とCPUが8個あるように見えます。 で、検索専用にこいつを3台使っているのですが ブレードタイプなのでデータセンターに設置しています。 オフィス環…

Solrを動かすのになんで64ビットにしないといけなかったのか

SolrはTomcat上で動くサーブレットです。 なので使えるメモリ(ヒープメモリ)の限界は TomcatがのっかっているJVMのメモリの制約で決まっちゃいます。 ボクが使っていたSunの32bitJDK1.5.0.10は上限約2.6GBでした。 じゃあSolrを動かすのにそれじゃダメなのか…

CeontOS64ビット版にSolr環境作成中のメモ

◆ アカウントの作成 # useradd solr # passwd solr NFS使ったときに他のNFSクライアントマシンと ユーザID/グループIDが同じじゃないと塩梅がわるいので合わせとく # vi /etc/passwd # vi /etc/group # chown -R solr:solr /home/solr ディレクトリのオーナ…