GinZA

ライブドアコーパスの記事分類を トークナイザーを変更しながらやってみる その2 SentencePieceでもやってみた

github.com github.com ライブドアコーパスの記事分類性能がトークナイザーの種類によって変わるのか試す実験の続き。今回は SentencePiece でやってみた SentencePiece はディープラーニングでの利用を前提に作られているのだけれど、ロジスティック回帰等…

ライブドアコーパスの記事分類を トークナイザー を変更しながらやってみた

ライブドアコーパスの記事分類で、トークナイザー をGiNZA、Sudachi、MeCab+NEologdで変更しながら分類精度の差を調べてみた 結論 : 多少の凸凹はあるものの有意な差はなさそう 分類方法は Bag of Words + ロジスティック回帰 GiNZA、Sudachi、NEologdのバ…

GinZA インストール メモ

AWS の EC2 の場合はインスタンスタイプを medium (4GB) 以上で実行する こちらも NEologd 同様 small (2GB) だとメモリ不足でエラーになった $ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz" $ ginza …