1. make 環境 インストール
$ sudo yum -y install gcc-c++ glibc-headers openssl-devel readline libyaml-devel readline-devel zlib zlib-devel libffi-devel libxml2 libxslt libxml2-devel libxslt-devel sqlite-devel
2. mvn インストール
$ sudo wget http://repos.fedorapeople.org/repos/dchen/apache-maven/epel-apache-maven.repo -O /etc/yum.repos.d/epel-apache-maven.repo $ sudo sed -i s/\$releasever/6/g /etc/yum.repos.d/epel-apache-maven.repo $ sudo yum install -y apache-maven $ mvn --version
3. mecab インストール ( mecab インストールしないと UniDic がインストールできない)
$ wget http://mecab.googlecode.com/files/mecab-0.996.tar.gz $ tar zvxf mecab-0.996.tar.gz $ cd mecab-0.996 $ ./configure $ make $ sudo make install $ sudo su - # pip install https://mecab.googlecode.com/files/mecab-python-0.996.tar.gz $ python import MeCab
4. UniDic インストール
https://osdn.jp/projects/unidic/releases/58338 unidic-mecab-2.1.2_src.zip ダウンロード $ unzip unidic-mecab-2.1.2_src.zip $ cd unidic-mecab-2.1.2_src $ ./configure $ make $ sudo make install $ sudo ldconfig $ sudo vi /usr/local/etc/mecabrc ; dicdir = /usr/local/lib/mecab/dic/ipadic dicdir = /usr/local/lib/mecab/dic/unidic
5. kuromoji のインストール
$ git clone https://github.com/atilika/kuromoji.git $ mvn -pl kuromoji-unidic -am package <- メモリサイズ小さいと失敗する $ vi ~/.bash_profile CLASSPATH=$CLASSPATH:kuromoji-unidic/target/kuromoji-unidic-1.0-SNAPSHOT.jar:kuromoji-core/target/kuromoji-core-1.0-SNAPSHOT.jar
6. Jython でテスト
#!/usr/local/jython/bin/jython # -*- coding: utf-8 -*- from com.atilika.kuromoji.unidic import Tokenizer if __name__ == "__main__": parseWord = u"すもももももももものうち" tokenizer = Tokenizer() tokens = tokenizer.tokenize( parseWord ) for token in tokens: print token.getSurface() + "\t" + token.getAllFeatures()
$ jython test.jy すもも 名詞,普通名詞,一般,*,*,*,スモモ,李,すもも,スモモ,すもも,スモモ,和,*,*,*,* も 助詞,係助詞,*,*,*,*,モ,も,も,モ,も,モ,和,*,*,*,* もも 名詞,普通名詞,一般,*,*,*,モモ,桃,もも,モモ,もも,モモ,和,*,*,*,* も 助詞,係助詞,*,*,*,*,モ,も,も,モ,も,モ,和,*,*,*,* もも 名詞,普通名詞,一般,*,*,*,モモ,桃,もも,モモ,もも,モモ,和,*,*,*,* の 助詞,格助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,* うち 名詞,普通名詞,副詞可能,*,*,*,ウチ,内,うち,ウチ,うち,ウチ,和,*,*,*,*