2009-06-01から1ヶ月間の記事一覧

Python のインストール - Linux で root 権限なしでも最新の Python をインストールする1つのやりかた

Pythonはroot権限がなくっても書き込み権限のある任意のディレクトリにインストールして、2つの環境変数をセットすることで使うことができるようになります。 セットする環境変数はこの2つです。 PYTHON_HOME PATH この方法を使えば複数のバージョンの Pytho…

お台場の潮風公園で実寸大のガンダムをみてきた

お台場の潮風公園で実寸大のガンダムをみてきました。 最初ガンダムがどこにいるのかわからなかったのですが バーベキュー場の横の広場にいました。 バーベキュー場からいい匂いが漂ってきています。 あと、ヨッパライも多いです... ガンダムは想像していた…

Wii スポーツ リゾート (Wii Sports Resort ) で遊んでみた。

Wii スポーツ リゾート (Wii Sports Resort ) で遊んでみました。 Wii モーションプラスのおかげでセンサー精度はかなりあがっていますね。Wii Sports にもあったゴルフやピンポンだとその差がはっきりと体感できます。 ゴルフは、ホントにゴルフっぽいスイ…

Wii スポーツ リゾート (Wii Sports Resort ) ゲットした

昼休みに博品館までダッシュしてゲットしてきました。 ボクが買った後でもまだ5個ぐらい残っていたので、それほど人気ではないのかもしれないですね。 Wii モーションプラスでどのくらい精度が上がるのかにとても興味があります。 Wii は既存の技術を上手く…

commit と rollback

Solr ではデータの更新を行った後に commit を実行することで更新が反映されます。 「あー、やっぱり今のなし。なし。」って感じで更新をなかったことにするのは rollback です。 この辺は RDBMS でもよく使われるコマンドですね。 rollback は Solr1.4から…

クロール中に Excel, Word, PowerPoint, PDF から文章を自動的に抽出する方法

Nutch では Jakarta POI を用いたパーザが標準で用意されているため、簡単な設定だけでクロール中に発見された Excel、Word、PowerPoint、PDFのファイル中から文章を抽出してインデキシングできるようになります。 日本語の文章も抽出できるので、Solrに取り…

著作権法の改正案が参院を通過!

平成21年6月15に「著作権法の一部を改正する法律案」が参議院を通過しました。 http://www.sangiin.go.jp/japanese/joho1/kousei/gian/171/meisai/m17103171054.htm これまで日本の著作権法では、クローラ等によってWebページの複製を持つことは、禁止されて…

Nutch と Solr の連携 その2 〜 Nutch のインデックスを Solr で再インデックスする 〜

前回 Nutch の Lucene 形式のインデックスを Solr から覗いてみました。 中身を覗いてみることはできたものの以下の課題もでました。 host や site、contentといったデータが表示されない。 日本語で検索できない。 この辺の対応には Nutch のデータを使って…

Nutch と Solr の連携 その1 〜 Nutch のインデックスを Solr からのぞいてみる 〜

Nutch はクロールしたデータの管理に Lucene 形式 のインデックスを使っています。 このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。 ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webク…

マルチコア (Multi core) ってすっげー便利で実は簡単

マルチコアは一つの Solr で複数のインデックスをコントロールするための技術です。 インデックス毎にそれらをハンドリングする SolrCore(以下コア) と呼ばれるインスタンスを並行して実行することでそれを実現しています。マルチコアはバージョン1.3 から導…

停止するときに 「Failed shutdown of Apache Portable Runtime」とメッセーセージが出るのを止める方法

Tomcat を停止させたときに $CATALINA_HOME/logs/catalina.out に 「Failed shutdown of Apache Portable Runtime」 というメッセージがでることがあります。 $CATALINA_HOME/logs/catalina.outより抜粋 情報: Coyote HTTP/1.1を http-8080 で停止します 200…

停止するときに log4j のワーニングを出なくする方法

Tomcat のエラーハンドリングに log4j を使っているとTomcat を停止させたときに $CATALINA_HOME/logs/catalina.out にワーニングメッセージがでることがあります。 $CATALINA_HOME/logs/catalina.outより抜粋 WARN: The method class org.apache.commons.lo…

Nutch がインストールされていると Tomcat がシャットダウンできない件について

Nutchをインストールするとボクの環境では $CATALINA_HOME/bin/shutdown.sh を実行しても Tomcat が停止されないという問題が出ています。 $CATALINA_HOME/catalina.out に停止メッセージがちゃんと表示されているにもかかわらずです。(正確に言うと「停止し…

Linux で root 権限なしでも Solr を Tomcatの上で動かす1つのやりかた

Solr はサーブレットとして実装されているので、実行するにはサーブレットコンテナが必要になります。 Solr には Jetty というサーブレットコンテナがバンドルされているのでその上で動かすこともできるのですが、Tomcat の方が機能的にすぐれていたり、Nutc…

日本語を扱うために考えるべき5つのこと

Nutchを日本語対応するためにやるべきことを整理してみました。 対応はこのあと順次やっていこうと思います。 Tomcat の日本語化 クロールした結果を日本語で検索したり表示したりする場合に必要になります。これはTomcatの日本語対応として一般に知られてい…

Apache プロジェクトのクローラ Nutch を軽く試してみた

Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 Google や Yahoo! 等の検索ポータルが内部で使用していることで知られてい…

Apache プロジェクトのクローラ Nutch を軽く試してみた

すいませんが↓をみてください。 Apache プロジェクトのクローラ Nutch を軽く試してみたGoogleにこのページの方をインデキシングされてしまったのです。