2011-02-01から1ヶ月間の記事一覧

長すぎる文字列を正規化するとセグメンテーションエラー ( segmentation fault ) になることがあるようです

全角半角の表記揺れの正規化に便利な unicodedata モジュールですが 入力する文字列が長すぎると セグメンテーションエラー ( segmentation fault ) になることがあるようです # 下記の場合 Inhoge が長い Outhoge = unicodedata.normalize('NFKC', Inhoge)…

ドキュメント数 7.7億 超えました

インデックスのデータサイズは約 3.5TB です。 Solr でもこのくらいのサイズのデータ量は保管できるという参考になれば。 OS : CentOS5.5 CPU : Xeon 6コア×4 メモリ : 62GB簡単な検索なら1秒以内で返ってきます

Juman の Python バインディング cJuman をインストールしたときのメモ

cp ../cJuman.i . swig -python cJuman.i gcc -c cJuman_wrap.c -fPIC -I/usr/local/include/python2.7 gcc -shared *.o -o _cJuman.so su install -m 644 _cJuman.so cJuman.py /usr/local/lib/python2.7/site-packages 参考ページ http://app-dist.khlog.n…