入門 自然言語処理



NLTK を用いた自然言語処理の入門書です。
大学の教科書として書かれたものなので比較的分かりやすい内容となっています。
翻訳ものなので、独自の言い回しがちょっと眠気を誘いますが。


12章として加えられた「Python による日本語自然言語処理」は
以下から読むことができます。
http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html
これだけでも読む価値は十分にありますよ。


サンプルコードで2カ所ほど動かない箇所があったので
私なりに修正して動かしてみました。

genpaku_tfd = FreqDist(t[2] for (w, t) in genpaku.tagged_words())
↓
genpaku_tfd = nltk.FreqDist(t.split('\t')[2] for (w, t) in genpaku.tagged_words())
>>> print ' '.join( set(w for w,t in genpaku.tagged_words()
...     if t[0] == u"コウショウ") )
↓
 >>> print ' '.join( set(w for w,t in genpaku.tagged_words()
...     if t.split( '\t' )[0] == u"コウショウ") )


この中で matplotlib でのグラフ作成で日本語は文字化けするとあるのですが
日本語を使いたい方はこちらを参照してみてください。

[Python][Linux] matplotlib で 日本語 を使えるようにしてみた


[CentOS] オープンソース日本語フォント IPA フォント のインストール