Solr6 Jython でフィードの前処理をするメモ

Solr Python

1. Jython のインストール Jython のスタンドアローン版を下記からダウンロード http://www.jython.org/downloads.html sudo mkdir /var/solr/data/コア名/lib sudo cp jython-standalone-2.7.0.jar /var/solr/data/コア名/lib sudo /etc/init.d/solr resta…

2016-10-18

Amazon Linux に Solr 6.2.1 インストール

AWS EC2 Solr

インストール wget http://ftp.jaist.ac.jp/pub/apache/lucene/solr/6.2.1/solr-6.2.1.tgz tar xvfz solr-6.2.1.tgz sudo solr-6.2.1/bin/install_solr_service.sh solr-6.2.1.tgz sudo vi /etc/default/solr.in.sh JAVA_HOME="/usr" コアの作成とサンプルデ…

2015-10-26

双方向シノニムの実験

Solr

A = B と A = C の2つの双方向シノニムを登録した場合に自動的に B = C の双方向シノニムが実現されるのかの実験結論 Solrの再起動のみの場合シノニムを適用するために Solr を再起動しただけだと A = B 、 A = C のシノニムのみ実現される。B = C は実現…

2015-07-16

Python でフィードの前処理をするメモ

Solr Jython

1. Jython のインストール Jython のスタンドアローン版を下記からダウンロードして http://www.jython.org/downloads.html example/solr/collection1/lib に置く $ls example/solr/collection1/lib jython-standalone-2.7.0.jar 2. solrconfig.xml の変更 <requestHandler name="/update" class="solr.UpdateRequestHandler"> <lst name="defaults"></lst></requesthandler>…

2015-07-16

ICUTransformFilterFactory 使う準備メモ

Solr

$ mkdir example/solr/collection1/lib/ $ cp contrib/analysis-extras/lucene-libs/lucene-analyzers-icu-4.10.4.jar example/solr/collection1/lib/schema.xml <filter class="org.apache.lucene.analysis.icu.ICUTransformFilterFactory" id="Katakana-Hiragana"/></filter>

2015-01-22

ドキュメントのエクスポートでエラーが発生してもクローリングを続けるおまじない ignoreTikaException [メモ]

ManifoldCF Solr

ManifoldCF と Solr の組合せでファイルサーバのドキュメントをクローリングしている場合ドキュメントからテキストデータを抽出する処理でエラーが発生するとクローリングが止まってしまう。エラーが発生したドキュメントはスキップしてクローリング自…

2015-01-07

ファイルサーバからファイルを削除したのに検索にヒットしちゃうときにやったことメモ

ManifoldCF Solr

ManifoldCFで監視しているファイルサーバ上からファイルを削除すると Solrのインデックスからも自動的に削除されるのが普通の状態でもそうならなかった... Solr のログを見ると delete もコミットも実行されているのに Solr のログをもうちょっと慎重にみ…

2013-12-11

デフォルトの検索条件がいろいろ OR になっているのを AND にする

Solr

1) autoGeneratePhraseQueries属性トークナイズ後の検索条件を AND にするか OR にするかのパラメータデフォルトでは Kuromoji を使って形態素解析するフィールドタイプ text_ja のautoGeneratePhraseQueriesは OR (false) になっています。このため「北…

2013-12-10

人名の表記ゆれサイトウ問題を解決できるのか試してみた

Solr

サイトウさんには斉藤、斎藤、齋藤、齊藤などの表記バリエーションがあります。 (「藤」の方もいろいろあるようですがが、ここは一旦「斉」のみで）一番メジャーな「斉藤」で検索して「斉藤」、「斎藤」、「齋藤」、「齊藤」全てがヒットすると、検索サ…

2013-12-09

「Apache Solr 入門」を参考に AWS の EC2 に Solr をインストールしてみたメモ

Solr AWS

「 Apache Solr 入門」を参考に AWS のEC2に Solr をインストールしてみました。 1. EC2 を建てる1) まずは EC2 を1台建てる動作検証等が目的なら一番小さい t1.micro でOK メモリはデフォルトの600KB ディスクも最小構成の8GBのまま OS は Amazon Linux …

2013-12-07

改訂新版 Apache Solr 入門発売されました!

Solr

最近、某官庁のシステムにSolrを導入するプロジェクトに参加しています。 #スーツ着て霞ヶ関通いです... 作ったプロトタイプが大変好評で、お褒めの言葉をいただいたところまではよかったのですが扱っているドキュメントのセキュリティレベルがとても高いた…

2013-10-24

AWS で Tomcat 7 に Solr4.5 インストールしたときのメモ

AWS Solr Tomcat

Tomcat と Solr の配置 cd /home/hoge/work/ tar xvfz solr-4.5.0.tgz tar xvfz apache-tomcat-7.0.42.tar.gz cd apache-tomcat-7.0.42 cp -r /home/hoge/work/solr-4.5.0/example/solr /home/hoge/work/apache-tomcat-7.0.42 cp -r /home/hoge/work/solr-4.…

2011-05-19

3.1 は 1.4 に比べて 4割高速!!

Solr

2011年3月にリリースされた Solr3.1.0 とそれまでの最新バージョンであったSolr1.4.1 とで速度比較を行ってみました。内包している Lucene の性能が上がったためでしょうか、かなり高速化されているようです。私の試したところ下記となりました。レスポン…

2011-02-14

ドキュメント数 7.7億超えました

Solr

インデックスのデータサイズは約 3.5TB です。 Solr でもこのくらいのサイズのデータ量は保管できるという参考になれば。 OS : CentOS5.5 CPU : Xeon 6コア×4 メモリ : 62GB簡単な検索なら1秒以内で返ってきます

2011-01-06

4.0 で Spatial Search が進化してます。

Solr

開発中のSolr4.0のSpatialSearchを試してみました。バンドルされているサンプルデータにも緯度経度を含んだデータが入っているので簡単に試すことができます。最新の配布パッケージをダウンロード ( ファイル名はこちらを確認してください https://hudson.…

2010-11-04

対決ヒット件数が多いクエリで全てのヒットドキュメントを取得するなら Solr の勝ち!

Solr Fast ESP

Fast ESP は検索にヒットしたドキュメントのうち、実際に取得できるのは 4020 ドキュメントまでです。Google が最大でも 1000 ドキュメントまでしか取得できないのと同じような感じですね。一方、 Solr はヒットしたのが何百万ドキュメントであろうと最後の1…

2010-11-02

対決ドキュメントの削除のしやすさは Solr の勝ち!

Solr Fast ESP

Solr は delete by query コマンドを使って検索条件にヒットしたドキュメントを削除することができます。 BODY フィールドに「ほげほげ」を含むドキュメントを削除する場合には <delete><query>BODY:ほげほげ</query></delete>というXMLを与えればOKです。しかし、Fast ESP には delete by …

2010-08-09

Spatial Search 緯度経度を使った空間検索

Solr

現在開発中の Solr ( solr-1.5-dev )では緯度経度を使った空間検索ができるようになっています。銀座駅半径1Kmの検索例 http://192.168.11.42:8080/solr/select/?q=_val_:"recip(hsin(6378.137, vector(rad(WGS_LATLON_0_latLon), rad(WGS_LATLON_1_latLon…

2010-08-06

haproxy を使ってお手軽 HA 構成

Solr

haproxy はL7ロードバランサのソフトウェアです。これによって Solr への検索要求をタダで簡単に冗長化・負荷分散することができるようになります。 haproxy インストール $ wget http://haproxy.1wt.eu/download/1.4/src/haproxy-1.4.8.tar.gz $ cd haprox…

2010-08-02

データインポートハンドラ ( Data Import Handler ) の SQL 文中の関数が正しく実行されない場合は JDBC ドライバのバージョンを疑ってみよう

Solr

全く同じ db-data-config.xml ( データインポートハンドラの設定ファイル ) を使ったデータインポートが環境によって問題なく実行されたり、エラーになったりすることがありました。エラーになっている方は SQL文中でつかっている CONCAT() 関数がうまく実…

2010-07-15

NGramTokenizer は 1024 文字までしかパースしてくれないのでちょっと増やしてみた

Solr

修正 hi_time 様から下記のコメントいただきました。ご指摘の設定の方が洗練されていると思いますので、この記事の役割を問題の提起とhi_time 様の解決方法の紹介と変えさせていただければと思います。hi_time 様コメントありがとうございました。 hi_time …

2010-05-20

PHP から検索するときは使った方がいい Solr のオプション

Solr

PHP から Solr の検索をするときは solrconfig.xml に下のオプションを追加すると検索結果を受け取った後の処理がとても楽になります。 # <queryResponseWriter name="xslt" ... の下あたりに追記する  <queryResponseWriter name="php" class="org.apache.solr.request.PHPResponseWrit er"/> </queryresponsewriter></queryresponsewriter>

2010-05-19

Solr のインデックスに Python ( Jython ) から Lucene ライブラリを使ってアクセスするその２ NGramTokenizer と LowerCaseFilter を使って見る

Solr Python Jython

NGramTokenizer と LowerCaseFilter を同時に使って検索するコードのサンプルです。標準では NGramTokenizer 用の Analyzer は用意されていないので NGramAnalyzer を作成しています。 NGramTokenizer は lucene-analyzers-X.X.jar に入っているのでクラス…

2010-05-18

Solr のインデックスに Python ( Jython ) から Lucene ライブラリを使ってアクセスする。

Solr Python Jython

Python から Lucene ライブラリを使いたかったので Python の Java 実装である Jython を使って見ました。 Solr のベースとなっている Lucene は Java で記述されたライブラリなので Jython を使うと Python の文法のままで Lucene 簡単に使うことができま…

2010-04-06

Wikipedia のテキストデータを使ってベンチマークをする! その7 ロードバランサー( haproxy ) を使って Solr 2台構成にしてみた!

Solr MySQL

前回の [Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その6 Solr は MySQL より 200倍速い！からSolrのサーバを1台増加させた2台構成にして性能の変化をみてみました。前回から変わった計測条件 16スレッド×50ループの800クエリを…

2010-03-26

Wikipedia のテキストデータを使ってベンチマークをする! その6 Solr は MySQL より 200倍速い！

Solr MySQL

JMeter を使って負荷試験をしてみました。やってみたこと Wikipedia のページタイトルから検索ワードを選定選定ルールページタイトルから記号を含まないものだけを抽出。記号は検索式で様々な意味を持つのでそれを含まないものを選ぶ。それらをユニーク…

2010-03-16

Wikipedia のテキストデータを使ってベンチマークをする! その5 Solr と MySQL でざっくり速度対決

Solr MySQL

せっかく Solr にデータが入ったので軽く検索速度の比較をしてみました。比較してみたこと Solr と MySQL それぞれで「ロボット」で検索するヒットする記事の数と記事10件の取得時間を調べる。 Solr、MySQL ともに設定パラメータはデフォルトのまま Solr …

2010-03-11

Wikipedia のテキストデータを使ってベンチマークをする! その4 データインポートハンドラ( DIH Data Import Handler ) を使って Solr にデータを入れる

Solr MySQL

MySQL に入れておいた WikiPedia のデータを Solr に入れます。 WikiPedia のデータを MySQL に入れる方法は↓ [Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その２ Wikipedia のテキストデータを MySQL に入れる Solr のスキーマ設…

2010-03-10

Wikipedia のテキストデータを使ってベンチマークをする! その3 Solr のスキーマ設計

Solr MySQL

WikiPediaのデータを入れるための Solr のスキーマ設計です。 Wikipedia のデータ構成 [Solr][MySQL] Wikipedia のテキストデータを使ってベンチマークをする! その２ Wikipedia のテキストデータを MySQL に入れるで MySQL に入れた Wikipedia のデータ構造…

2010-03-04

Wikipedia のテキストデータを使ってベンチマークをする! その２ Wikipedia のテキストデータを MySQL に入れる。

Solr MySQL

Wikipedia のデータを取得してMySQLに入れます。 Wikipedia のデータ構成 MySQL に入れる Wikipedia のデータ構造は以下の用になります。フィールドの詳細については以下を参照してください。 http://www.mediawiki.org/wiki/Page_table/ja#page_title http…