2009-06-02から1日間の記事一覧

Apache プロジェクトのクローラ Nutch を軽く試してみた

Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 Google や Yahoo! 等の検索ポータルが内部で使用していることで知られてい…