ManifoldCF
デフォルトではホップ数が指定されていないので再帰的なクロールがされない シードで指定したURLのみがクロールされる再帰的にクロールするためには最大ホップ数を指定するJobの編集ページから ホップフィルタ タブを選びタイプの最大ホップ数 'link': に最…
Java のアップデート http://www.oracle.com/technetwork/java/javase/downloads/index.html # rpm -ivh jdk-8u31-linux-i586.rpm$ wget http://mirrors.koehn.com/apache/manifoldcf/apache-manifoldcf-1.8.1/apache-manifoldcf-1.8.1-bin.tar.gz $ tar xvf…
ManifoldCF と Solr の組合せで ファイルサーバのドキュメントをクローリングしている場合 ドキュメントからテキストデータを抽出する処理で エラーが発生するとクローリングが止まってしまう。 エラーが発生したドキュメントはスキップして クローリング自…
ManifoldCF を start.bat で起動するときには、logging.ini が参照されるが stop.bat では 参照されていないらしい。 このため実行時に下記ワーニングメッセージが出力されてしまう。 > stop.bat log4j:WARN No appenders could be found for logger (org.ap…
ManifoldCFで監視しているファイルサーバ上からファイルを削除すると Solrのインデックスからも自動的に削除されるのが普通の状態 でもそうならなかった... Solr のログを見ると delete も コミットも実行されているのに Solr のログをもうちょっと慎重にみ…
状況 ManifoldCFからSolrにフィードされているもののコミットされてなかった。 対応 出力コネクションのSolrの設定で下記を設定する。 コンテンツを指定した時間内(ミリ秒)毎にコミット: 10000 # デフォルトは空白になっていて、自動的にコミットされない…
出力コネクション一覧 ターゲット出力コネクションの「表示」 すべてのコンテンツの再読込み 状態とジョブ管理 ターゲットジョブの「開始」
$ psql -U postgres dbname dbname=# \d ingeststatus; forcedparams | text | authorityname | character varying(32) | urihash | character varying(40) | lastoutputversion | text | lastingest | bigint | not null changecount | bigint | not null c…