Kuromoji

BASIS TECHNOLOGY の Rosette と Kuromoji で すもももももももものうち やってみた メモ

#!/usr/local/jython/bin/jython # -*- coding: utf-8 -*- # Kuromoji と Rosette のパース対決 # Kuromoji from com.atilika.kuromoji.unidic import Tokenizer # BASIS TECHNOLOGY Rosette from com.basistech.util import Pathnames from com.basistech.u…

で UniDic 使う

1. make 環境 インストール $ sudo yum -y install gcc-c++ glibc-headers openssl-devel readline libyaml-devel readline-devel zlib zlib-devel libffi-devel libxml2 libxslt libxml2-devel libxslt-devel sqlite-devel 2. mvn インストール $ sudo wget…

Jython から Kuromoji を使って形態素解析する メモ

kuromoji-0.7.7.jar に CLASSPATH を通しておく hoge.jy #!/usr/local/jython/bin/jython # -*- coding: utf-8 -*- from org.atilika.kuromoji import Tokenizer if __name__ == "__main__": parseWord = u"すもももももももものうち" builder = Tokenizer.b…