Jython から Kuromoji を使って形態素解析する メモ

kuromoji-0.7.7.jar に CLASSPATH を通しておく


hoge.jy

#!/usr/local/jython/bin/jython
# -*- coding: utf-8 -*-

from org.atilika.kuromoji import Tokenizer

if __name__ == "__main__":

 parseWord = u"すもももももももものうち"
 builder = Tokenizer.builder();

 # ノーマルモード
 normal = builder.build();
 TokensNormal = normal.tokenize(parseWord);

 for token in TokensNormal:
  print token.getSurfaceForm() + "\t" + token.getAllFeatures()
$ hoge.jy
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ