どのくらいの性能がでるの?
これもハードウェアの構成やクエリの特性によってケースバイケースだとおもうのですが、とりあえずボクのところの実績を書いときます。
- 約 800万検索 / 日
- 約 92.6 QPS
- これを CPU:クアッドコア2.6×2 Mem:16GB のブレードサーバ6台でさばいています。
- ディスクはNetAppというディスクアプライアンス製品を使っています。
- かなりトラフィックの多いサービスでも使うことができると思います。
どのくらいの文章をインデキシングできるの?
インデキシングする文章の特性やスキーマの構成によってケースバイケースなのですが、とりあえずボクのところの実績を書いときます。
- 日本語のWebページを毎日40〜50万ページほどインデキシングし続けています。
- 現在は2億ページ近くインデキシングしています。
- 現在のディスク使用量は約1TBです。
- 毎日2GBぐらい増えていっています。
- Luceneの設計値である21億ドキュメントが実用レベルにあるのかまでは確認できていないですが、1〜2億ぐらいなら問題なさそうです。
- かなりドキュメント数の多いサービスでも問題なく使うことができると思います。