2019-07-01から1ヶ月間の記事一覧

ライブドアコーパスの記事分類を トークナイザー を変更しながらやってみた

ライブドアコーパスの記事分類で、トークナイザー をGiNZA、Sudachi、MeCab+NEologdで変更しながら分類精度の差を調べてみた 結論 : 多少の凸凹はあるものの有意な差はなさそう 分類方法は Bag of Words + ロジスティック回帰 GiNZA、Sudachi、NEologdのバ…

Sudachi インストール メモ

ohke.hateblo.jp 上記ページを参考に Sudachi をインストール $ cd /home/ec2-user/work ← このディレクトリのsrc以下にインストールされる $ pip install -e git+git://github.com/WorksApplications/SudachiPy@develop#egg=SudachiPy $ pip list | grep su…

GinZA インストール メモ

AWS の EC2 の場合はインスタンスタイプを medium (4GB) 以上で実行する こちらも NEologd 同様 small (2GB) だとメモリ不足でエラーになった $ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz" $ ginza …

NEologd アップデート メモ

AWS の EC2 の場合はインスタンスタイプを medium (4GB) 以上で実行する small (2GB) だとメモリ不足でエラーになった sudo su - cd /usr/local/src/ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd ./b…

GSC ( Google Cloud Storage ) のバケットを作る

Colaboratory で TPU を使う場合、ファイル出力は GCS にしかできない CPUならGoogle DriveでもOKGCSバケットの作り方 https://console.cloud.google.com/ 左上「三」からメニューを表示して ストレージ.Storage を選択 「課金を有効にする」をクリック アカ…