2009-06-22から1日間の記事一覧

クロール中に Excel, Word, PowerPoint, PDF から文章を自動的に抽出する方法

Nutch では Jakarta POI を用いたパーザが標準で用意されているため、簡単な設定だけでクロール中に発見された Excel、Word、PowerPoint、PDFのファイル中から文章を抽出してインデキシングできるようになります。 日本語の文章も抽出できるので、Solrに取り…