Nutch
Nutchの検索結果ページから (cached) をクリックすると ローカルディスクにキャッシュされたHTMLを表示させることができるのですが こいつがちょくちょく文字化けします。 UTF-8で記述されたページだけが正しく表示され このはてなダイアリーを含めeuc-jp等…
通常 Nutch のクロール結果を検索する場合には Tomcat 等のサーブレットコンテナを使うのですが、デフォルトの設定では Tomcat を Nutch のインストールディレクトリで起動しなくてはなりません。 これは Nutch のクロール結果が Tomcatを起動したディレクト…
Nutch では Jakarta POI を用いたパーザが標準で用意されているため、簡単な設定だけでクロール中に発見された Excel、Word、PowerPoint、PDFのファイル中から文章を抽出してインデキシングできるようになります。 日本語の文章も抽出できるので、Solrに取り…
前回 Nutch の Lucene 形式のインデックスを Solr から覗いてみました。 中身を覗いてみることはできたものの以下の課題もでました。 host や site、contentといったデータが表示されない。 日本語で検索できない。 この辺の対応には Nutch のデータを使って…
Nutch はクロールしたデータの管理に Lucene 形式 のインデックスを使っています。 このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。 ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webク…
Nutchをインストールするとボクの環境では $CATALINA_HOME/bin/shutdown.sh を実行しても Tomcat が停止されないという問題が出ています。 $CATALINA_HOME/catalina.out に停止メッセージがちゃんと表示されているにもかかわらずです。(正確に言うと「停止し…
Nutchを日本語対応するためにやるべきことを整理してみました。 対応はこのあと順次やっていこうと思います。 Tomcat の日本語化 クロールした結果を日本語で検索したり表示したりする場合に必要になります。これはTomcatの日本語対応として一般に知られてい…
Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 Google や Yahoo! 等の検索ポータルが内部で使用していることで知られてい…
すいませんが↓をみてください。 Apache プロジェクトのクローラ Nutch を軽く試してみたGoogleにこのページの方をインデキシングされてしまったのです。