Nutch

キャッシュを表示したときの文字化けを直してくれた人がいた!

Nutchの検索結果ページから (cached) をクリックすると ローカルディスクにキャッシュされたHTMLを表示させることができるのですが こいつがちょくちょく文字化けします。 UTF-8で記述されたページだけが正しく表示され このはてなダイアリーを含めeuc-jp等…

任意のディレクトリから Tomcat を起動できるようになる方法

通常 Nutch のクロール結果を検索する場合には Tomcat 等のサーブレットコンテナを使うのですが、デフォルトの設定では Tomcat を Nutch のインストールディレクトリで起動しなくてはなりません。 これは Nutch のクロール結果が Tomcatを起動したディレクト…

クロール中に Excel, Word, PowerPoint, PDF から文章を自動的に抽出する方法

Nutch では Jakarta POI を用いたパーザが標準で用意されているため、簡単な設定だけでクロール中に発見された Excel、Word、PowerPoint、PDFのファイル中から文章を抽出してインデキシングできるようになります。 日本語の文章も抽出できるので、Solrに取り…

Nutch と Solr の連携 その2 〜 Nutch のインデックスを Solr で再インデックスする 〜

前回 Nutch の Lucene 形式のインデックスを Solr から覗いてみました。 中身を覗いてみることはできたものの以下の課題もでました。 host や site、contentといったデータが表示されない。 日本語で検索できない。 この辺の対応には Nutch のデータを使って…

Nutch と Solr の連携 その1 〜 Nutch のインデックスを Solr からのぞいてみる 〜

Nutch はクロールしたデータの管理に Lucene 形式 のインデックスを使っています。 このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。 ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webク…

Nutch がインストールされていると Tomcat がシャットダウンできない件について

Nutchをインストールするとボクの環境では $CATALINA_HOME/bin/shutdown.sh を実行しても Tomcat が停止されないという問題が出ています。 $CATALINA_HOME/catalina.out に停止メッセージがちゃんと表示されているにもかかわらずです。(正確に言うと「停止し…

日本語を扱うために考えるべき5つのこと

Nutchを日本語対応するためにやるべきことを整理してみました。 対応はこのあと順次やっていこうと思います。 Tomcat の日本語化 クロールした結果を日本語で検索したり表示したりする場合に必要になります。これはTomcatの日本語対応として一般に知られてい…

Apache プロジェクトのクローラ Nutch を軽く試してみた

Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 Google や Yahoo! 等の検索ポータルが内部で使用していることで知られてい…

Apache プロジェクトのクローラ Nutch を軽く試してみた

すいませんが↓をみてください。 Apache プロジェクトのクローラ Nutch を軽く試してみたGoogleにこのページの方をインデキシングされてしまったのです。