ライブドアコーパスの記事分類を トークナイザー を変更しながらやってみた

ライブドアコーパスの記事分類で、トークナイザー をGiNZA、Sudachi、MeCab+NEologdで変更しながら分類精度の差を調べてみた
結論 : 多少の凸凹はあるものの有意な差はなさそう


分類方法は Bag of Words + ロジスティック回帰
GiNZA、Sudachi、NEologdのバージョンは 2019/7/23 時点の最新版を使用
Sudachiは差が出たら面白いかなと思ってmode C でやってみた。結果、差が出なかったけど

f:id:knaka20blue:20190724150251p:plain
precision


f:id:knaka20blue:20190724150325p:plain
recall


f:id:knaka20blue:20190724150348p:plain
f1-score