2009-06-01から1ヶ月間の記事一覧
Pythonはroot権限がなくっても書き込み権限のある任意のディレクトリにインストールして、2つの環境変数をセットすることで使うことができるようになります。 セットする環境変数はこの2つです。 PYTHON_HOME PATH この方法を使えば複数のバージョンの Pytho…
お台場の潮風公園で実寸大のガンダムをみてきました。 最初ガンダムがどこにいるのかわからなかったのですが バーベキュー場の横の広場にいました。 バーベキュー場からいい匂いが漂ってきています。 あと、ヨッパライも多いです... ガンダムは想像していた…
Wii スポーツ リゾート (Wii Sports Resort ) で遊んでみました。 Wii モーションプラスのおかげでセンサー精度はかなりあがっていますね。Wii Sports にもあったゴルフやピンポンだとその差がはっきりと体感できます。 ゴルフは、ホントにゴルフっぽいスイ…
昼休みに博品館までダッシュしてゲットしてきました。 ボクが買った後でもまだ5個ぐらい残っていたので、それほど人気ではないのかもしれないですね。 Wii モーションプラスでどのくらい精度が上がるのかにとても興味があります。 Wii は既存の技術を上手く…
Solr ではデータの更新を行った後に commit を実行することで更新が反映されます。 「あー、やっぱり今のなし。なし。」って感じで更新をなかったことにするのは rollback です。 この辺は RDBMS でもよく使われるコマンドですね。 rollback は Solr1.4から…
Nutch では Jakarta POI を用いたパーザが標準で用意されているため、簡単な設定だけでクロール中に発見された Excel、Word、PowerPoint、PDFのファイル中から文章を抽出してインデキシングできるようになります。 日本語の文章も抽出できるので、Solrに取り…
平成21年6月15に「著作権法の一部を改正する法律案」が参議院を通過しました。 http://www.sangiin.go.jp/japanese/joho1/kousei/gian/171/meisai/m17103171054.htm これまで日本の著作権法では、クローラ等によってWebページの複製を持つことは、禁止されて…
前回 Nutch の Lucene 形式のインデックスを Solr から覗いてみました。 中身を覗いてみることはできたものの以下の課題もでました。 host や site、contentといったデータが表示されない。 日本語で検索できない。 この辺の対応には Nutch のデータを使って…
Nutch はクロールしたデータの管理に Lucene 形式 のインデックスを使っています。 このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。 ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webク…
マルチコアは一つの Solr で複数のインデックスをコントロールするための技術です。 インデックス毎にそれらをハンドリングする SolrCore(以下コア) と呼ばれるインスタンスを並行して実行することでそれを実現しています。マルチコアはバージョン1.3 から導…
Tomcat を停止させたときに $CATALINA_HOME/logs/catalina.out に 「Failed shutdown of Apache Portable Runtime」 というメッセージがでることがあります。 $CATALINA_HOME/logs/catalina.outより抜粋 情報: Coyote HTTP/1.1を http-8080 で停止します 200…
Tomcat のエラーハンドリングに log4j を使っているとTomcat を停止させたときに $CATALINA_HOME/logs/catalina.out にワーニングメッセージがでることがあります。 $CATALINA_HOME/logs/catalina.outより抜粋 WARN: The method class org.apache.commons.lo…
Nutchをインストールするとボクの環境では $CATALINA_HOME/bin/shutdown.sh を実行しても Tomcat が停止されないという問題が出ています。 $CATALINA_HOME/catalina.out に停止メッセージがちゃんと表示されているにもかかわらずです。(正確に言うと「停止し…
Solr はサーブレットとして実装されているので、実行するにはサーブレットコンテナが必要になります。 Solr には Jetty というサーブレットコンテナがバンドルされているのでその上で動かすこともできるのですが、Tomcat の方が機能的にすぐれていたり、Nutc…
Nutchを日本語対応するためにやるべきことを整理してみました。 対応はこのあと順次やっていこうと思います。 Tomcat の日本語化 クロールした結果を日本語で検索したり表示したりする場合に必要になります。これはTomcatの日本語対応として一般に知られてい…
Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 Google や Yahoo! 等の検索ポータルが内部で使用していることで知られてい…
すいませんが↓をみてください。 Apache プロジェクトのクローラ Nutch を軽く試してみたGoogleにこのページの方をインデキシングされてしまったのです。