Mecab

ライブドアコーパスの記事分類を トークナイザーを変更しながらやってみる その2 SentencePieceでもやってみた

github.com github.com ライブドアコーパスの記事分類性能がトークナイザーの種類によって変わるのか試す実験の続き。今回は SentencePiece でやってみた SentencePiece はディープラーニングでの利用を前提に作られているのだけれど、ロジスティック回帰等…

ライブドアコーパスの記事分類を トークナイザー を変更しながらやってみた

ライブドアコーパスの記事分類で、トークナイザー をGiNZA、Sudachi、MeCab+NEologdで変更しながら分類精度の差を調べてみた 結論 : 多少の凸凹はあるものの有意な差はなさそう 分類方法は Bag of Words + ロジスティック回帰 GiNZA、Sudachi、NEologdのバ…

連続した数字を1つのトークンにする

Mecab で連続した数字をトークナイズするとだいたい1文字ずつトークナイズされます。連接コストの計算結果で決まるので100%の確率ではありませんが。 $ mecab bmw318 bmw 名詞,固有名詞,組織,*,*,*,* 3 名詞,数,*,*,*,*,3,サン,サン,, 1 名詞,数,*,*,*,*,1,…