Jython

BASIS TECHNOLOGY の Rosette と Kuromoji で すもももももももものうち やってみた メモ

#!/usr/local/jython/bin/jython # -*- coding: utf-8 -*- # Kuromoji と Rosette のパース対決 # Kuromoji from com.atilika.kuromoji.unidic import Tokenizer # BASIS TECHNOLOGY Rosette from com.basistech.util import Pathnames from com.basistech.u…

を使う

Jython の pip を使ってインストール $ sudo /usr/local/jython/bin/pip install elasticsearch $ jython Jython 2.7.0 (default:9987c746f838, Apr 29 2015, 02:25:11) [OpenJDK 64-Bit Server VM (Oracle Corporation)] on java1.7.0_101 Type "help", "co…

ICU で 文字列の正規化を行う

インストール $ wget http://download.icu-project.org/files/icu4j/55.1/icu4j-55_1-docs.jar $ vi ~/.bash_profile export CLASSPATH=$CLASSPATH:/hoge/icu4j-55_1.jar #!/usr/local/jython/bin/jython # -*- coding: utf-8 -*- from com.ibm.icu.text imp…

Python で フィードの前処理をする メモ

1. Jython のインストール Jython の スタンドアローン版を下記からダウンロードして http://www.jython.org/downloads.html example/solr/collection1/lib に置く $ls example/solr/collection1/lib jython-standalone-2.7.0.jar 2. solrconfig.xml の変更 <requestHandler name="/update" class="solr.UpdateRequestHandler"> <lst name="defaults"></lst></requesthandler>…

を使った Solr インデックスからの単語の抽出

#! /usr/local/jython2.5.1/jython # -*- coding: utf-8 -*- from org.apache.lucene.store import FSDirectory from org.apache.lucene.index import IndexReader from org.apache.lucene.index import Term from org.apache.lucene.index import TermEnum …

Jython から MySQL を使う方法

Jython プログラム mytest.jy #! /usr/local/jython2.5.1/jython # -*- coding: utf-8 -*- import com.ziclix.python.sql as sql if __name__ == "__main__": db = sql.zxJDBC.connect( "jdbc:mysql://localhost/データベース名", "ユーザ名", "パスワード",…

can't write index file の対処法

こんなエラーメッセージがでたときは *sys-package-mgr*: can't write cache file for 'hoge/lib/mysql-connector-java-5.0.8-bin.jar' *sys-package-mgr*: can't write index fileJython の cachedir 以下のパーミッションを 誰でも読み書きできる 777 に変…

Solr のインデックスに Python ( Jython ) から Lucene ライブラリを使ってアクセスする その2 NGramTokenizer と LowerCaseFilter を使って見る

NGramTokenizer と LowerCaseFilter を同時に使って検索するコードのサンプルです。 標準では NGramTokenizer 用の Analyzer は用意されていないので NGramAnalyzer を作成しています。 NGramTokenizer は lucene-analyzers-X.X.jar に入っているのでクラス…

Solr のインデックスに Python ( Jython ) から Lucene ライブラリを使ってアクセスする。

Python から Lucene ライブラリを使いたかったので Python の Java 実装である Jython を使って見ました。 Solr の ベースとなっている Lucene は Java で記述されたライブラリなので Jython を使うと Python の文法のままで Lucene 簡単に使うことができま…