ManifoldCF

Webクロールをリンクをたどって再帰的に行う場合にはホップフィルタを設定する

デフォルトではホップ数が指定されていないので再帰的なクロールがされない シードで指定したURLのみがクロールされる再帰的にクロールするためには最大ホップ数を指定するJobの編集ページから ホップフィルタ タブを選びタイプの最大ホップ数 'link': に最…

AWS EC2 にインストール メモ

Java のアップデート http://www.oracle.com/technetwork/java/javase/downloads/index.html # rpm -ivh jdk-8u31-linux-i586.rpm$ wget http://mirrors.koehn.com/apache/manifoldcf/apache-manifoldcf-1.8.1/apache-manifoldcf-1.8.1-bin.tar.gz $ tar xvf…

ドキュメントのエクスポートでエラーが発生してもクローリングを続けるおまじない ignoreTikaException [メモ]

ManifoldCF と Solr の組合せで ファイルサーバのドキュメントをクローリングしている場合 ドキュメントからテキストデータを抽出する処理で エラーが発生するとクローリングが止まってしまう。 エラーが発生したドキュメントはスキップして クローリング自…

1.8.0 stop.bat で log4j の ワーニング ( WARN ) でたときにやったこと メモ

ManifoldCF を start.bat で起動するときには、logging.ini が参照されるが stop.bat では 参照されていないらしい。 このため実行時に下記ワーニングメッセージが出力されてしまう。 > stop.bat log4j:WARN No appenders could be found for logger (org.ap…

ファイルサーバからファイルを削除したのに検索にヒットしちゃう ときにやったこと メモ

ManifoldCFで監視しているファイルサーバ上からファイルを削除すると Solrのインデックスからも自動的に削除されるのが普通の状態 でもそうならなかった... Solr のログを見ると delete も コミットも実行されているのに Solr のログをもうちょっと慎重にみ…

動的スキャンでフィードされてるはずなのに Solr では検索できなかったときにやったこと

状況 ManifoldCFからSolrにフィードされているもののコミットされてなかった。 対応 出力コネクションのSolrの設定で下記を設定する。 コンテンツを指定した時間内(ミリ秒)毎にコミット: 10000 # デフォルトは空白になっていて、自動的にコミットされない…

強制的再クロール メモ

出力コネクション一覧 ターゲット出力コネクションの「表示」 すべてのコンテンツの再読込み 状態とジョブ管理 ターゲットジョブの「開始」

クロール済み情報が管理されているのは ingeststatus

$ psql -U postgres dbname dbname=# \d ingeststatus; forcedparams | text | authorityname | character varying(32) | urihash | character varying(40) | lastoutputversion | text | lastingest | bigint | not null changecount | bigint | not null c…