2009-01-01から1年間の記事一覧

Wii スポーツ リゾート (Wii Sports Resort ) ゲットした

昼休みに博品館までダッシュしてゲットしてきました。 ボクが買った後でもまだ5個ぐらい残っていたので、それほど人気ではないのかもしれないですね。 Wii モーションプラスでどのくらい精度が上がるのかにとても興味があります。 Wii は既存の技術を上手く…

commit と rollback

Solr ではデータの更新を行った後に commit を実行することで更新が反映されます。 「あー、やっぱり今のなし。なし。」って感じで更新をなかったことにするのは rollback です。 この辺は RDBMS でもよく使われるコマンドですね。 rollback は Solr1.4から…

クロール中に Excel, Word, PowerPoint, PDF から文章を自動的に抽出する方法

Nutch では Jakarta POI を用いたパーザが標準で用意されているため、簡単な設定だけでクロール中に発見された Excel、Word、PowerPoint、PDFのファイル中から文章を抽出してインデキシングできるようになります。 日本語の文章も抽出できるので、Solrに取り…

著作権法の改正案が参院を通過!

平成21年6月15に「著作権法の一部を改正する法律案」が参議院を通過しました。 http://www.sangiin.go.jp/japanese/joho1/kousei/gian/171/meisai/m17103171054.htm これまで日本の著作権法では、クローラ等によってWebページの複製を持つことは、禁止されて…

Nutch と Solr の連携 その2 〜 Nutch のインデックスを Solr で再インデックスする 〜

前回 Nutch の Lucene 形式のインデックスを Solr から覗いてみました。 中身を覗いてみることはできたものの以下の課題もでました。 host や site、contentといったデータが表示されない。 日本語で検索できない。 この辺の対応には Nutch のデータを使って…

Nutch と Solr の連携 その1 〜 Nutch のインデックスを Solr からのぞいてみる 〜

Nutch はクロールしたデータの管理に Lucene 形式 のインデックスを使っています。 このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。 ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webク…

マルチコア (Multi core) ってすっげー便利で実は簡単

マルチコアは一つの Solr で複数のインデックスをコントロールするための技術です。 インデックス毎にそれらをハンドリングする SolrCore(以下コア) と呼ばれるインスタンスを並行して実行することでそれを実現しています。マルチコアはバージョン1.3 から導…

停止するときに 「Failed shutdown of Apache Portable Runtime」とメッセーセージが出るのを止める方法

Tomcat を停止させたときに $CATALINA_HOME/logs/catalina.out に 「Failed shutdown of Apache Portable Runtime」 というメッセージがでることがあります。 $CATALINA_HOME/logs/catalina.outより抜粋 情報: Coyote HTTP/1.1を http-8080 で停止します 200…

停止するときに log4j のワーニングを出なくする方法

Tomcat のエラーハンドリングに log4j を使っているとTomcat を停止させたときに $CATALINA_HOME/logs/catalina.out にワーニングメッセージがでることがあります。 $CATALINA_HOME/logs/catalina.outより抜粋 WARN: The method class org.apache.commons.lo…

Nutch がインストールされていると Tomcat がシャットダウンできない件について

Nutchをインストールするとボクの環境では $CATALINA_HOME/bin/shutdown.sh を実行しても Tomcat が停止されないという問題が出ています。 $CATALINA_HOME/catalina.out に停止メッセージがちゃんと表示されているにもかかわらずです。(正確に言うと「停止し…

Linux で root 権限なしでも Solr を Tomcatの上で動かす1つのやりかた

Solr はサーブレットとして実装されているので、実行するにはサーブレットコンテナが必要になります。 Solr には Jetty というサーブレットコンテナがバンドルされているのでその上で動かすこともできるのですが、Tomcat の方が機能的にすぐれていたり、Nutc…

日本語を扱うために考えるべき5つのこと

Nutchを日本語対応するためにやるべきことを整理してみました。 対応はこのあと順次やっていこうと思います。 Tomcat の日本語化 クロールした結果を日本語で検索したり表示したりする場合に必要になります。これはTomcatの日本語対応として一般に知られてい…

Apache プロジェクトのクローラ Nutch を軽く試してみた

Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 Google や Yahoo! 等の検索ポータルが内部で使用していることで知られてい…

Apache プロジェクトのクローラ Nutch を軽く試してみた

すいませんが↓をみてください。 Apache プロジェクトのクローラ Nutch を軽く試してみたGoogleにこのページの方をインデキシングされてしまったのです。

Linux で root 権限なしでも最新の Tomcat をインストールする1つのやりかた - 日本語化設定付き

Tomcatはroot権限がなくっても書き込み権限のある任意のディレクトリにインストールして、環境変数をセットすることで使うことができるようになります。この方法を使えば複数のバージョンの Tomcat をインストールして、切り替えて使うことも容易です。 例と…

JDK ( Java Development Kit ) のインストール - Linux で root 権限なしでも最新の JDK をインストールする1つのやりかた

JDKはroot権限がなくっても書き込み権限のある任意のディレクトリにインストールして、3つの環境変数をセットすることで使うことができるようになります。 セットする環境変数はこの3つです。 JAVA_HOME JRE_HOME PATH この方法を使えば複数のバージョンの J…

Solrにデータを入れてみる。レッツ インデキシング!

Solrにデータを入れてみます。Solr 等の検索エンジンではデータを入れることインデキシングするというようです。早速インデキシングしてみましょう。 Solr の起動 まずはSolrを起動します。インストールは [Solr] Solr1.4 インストール手順 ( Linux にコマン…

Solr1.4 インストール手順 ( Linux にコマンド4回だけでインストール完了)

Solr をインストールする SolrをLinuxにインストールには、下記のようにコマンドを4回実行するだけでできます。 % wget http://people.apache.org/builds/lucene/solr/nightly/solr-2009-05-02.tgz % tar xvfz solr-2009-05-02.tgz % cd apache-solr-nightly…

リバースプロクシの設定方法

Apacheのリバースプロクシは、ファイヤーウォールの内側にあるサーバの公開や、システムの拡張等につかえる技術です。 今回は、公開ネットワークにあるhostAのApacheを使って非公開ネットワークにあるhostBのWebページを公開しました。 以下手順です。 運が…

辞書に単語を追加する方法

ChaSenの辞書に単語を追加する方法です。手順は 1) ユーザ辞書を作る。テキストファイルです。 2) コンパイルする コンパイルの仕方で、ユーザ辞書だけの辞書にしたり既存の辞書と統合したりすることができます。 1) ユーザ辞書を作る。 名詞の場合は最低限…

パーディションがパッツンパッツンになったのでmysql一式を他のパーティションに移した。

パーディションがパッツンパッツンになったのでmysql一式を他のパーティションに移しました。500GBなんてあっという間に使っちゃいます。 # 納品直前で忙しいのに... 以下、手順のメモ % su # cp -r /usr/local/mysql /disk2/local # mv /usr/local/mysql /u…

MySQLで実行中のSQLを殺す方法。ロック対策とか

mysql> show processlist; mysql> kill 1293; ではでは

を80ポートで動かすひとつのやりかた jsvc

なんやかんやで Tomcat を80ポートで動かしたくなることってあると思います。 ・わざわざ Apache を動かすのはなんかたるい... ・できれば、Tomcat だけでなんとかしたい! ・でも、Tomcatだけでやろうと思っても、80ポートは root じゃないと使えない... ・r…

Red Hat Enterprise Linux AS release 4 (Nahant Update 7) に Python と ChaSen と CaboCha をインストールしたので手順をメモっとく

いつもはCentOSなボクですが、今回はワケあってちょっとリッチな Red Hat Enterprise Linux AS release 4 (Nahant Update 7) に実行環境を作ったのでその手順のメモです。 最初 Python をインストールしたときにちょいとハマったのが gcc のバージョンの違い…