Sudachi

ライブドアコーパスの記事分類を トークナイザーを変更しながらやってみる その2 SentencePieceでもやってみた

github.com github.com ライブドアコーパスの記事分類性能がトークナイザーの種類によって変わるのか試す実験の続き。今回は SentencePiece でやってみた SentencePiece はディープラーニングでの利用を前提に作られているのだけれど、ロジスティック回帰等…

ライブドアコーパスの記事分類を トークナイザー を変更しながらやってみた

ライブドアコーパスの記事分類で、トークナイザー をGiNZA、Sudachi、MeCab+NEologdで変更しながら分類精度の差を調べてみた 結論 : 多少の凸凹はあるものの有意な差はなさそう 分類方法は Bag of Words + ロジスティック回帰 GiNZA、Sudachi、NEologdのバ…

Sudachi インストール メモ

ohke.hateblo.jp 上記ページを参考に Sudachi をインストール $ cd /home/ec2-user/work ← このディレクトリのsrc以下にインストールされる $ pip install -e git+git://github.com/WorksApplications/SudachiPy@develop#egg=SudachiPy $ pip list | grep su…