キャッシュを表示したときの文字化けを直してくれた人がいた!


Nutchの検索結果ページから (cached) をクリックすると
ローカルディスクにキャッシュされたHTMLを表示させることができるのですが
こいつがちょくちょく文字化けします。


UTF-8で記述されたページだけが正しく表示され
このはてなダイアリーを含めeuc-jp等文字コードで記述されたページは文字化け全開です。


困ったなと思っていたのですが JAVAの開発フレームワークに詳しい ymotoba さんが解決してくれました。
ありがとー。感謝です。


詳しくはこちらのページを参照ください。
Nutchのキャッシュ文字化け問題


ちゃんとキレイにするには jar を入れ替えて再度クロールする必要があるのですが
cashed の表示を直すだけならjspの入れ替えだけでよいみたいです。
この辺はお好みで。


ではでは


バグ報告とパッチを Nutch プロジェクトにポストしてくれると
マルチバイトを使っている世界中の人たちが幸せになれると思うのだけれど... > ymotoba さん