ライブドアコーパスの記事分類を トークナイザーを変更しながらやってみる その2 SentencePieceでもやってみた

github.com github.com ライブドアコーパスの記事分類性能がトークナイザーの種類によって変わるのか試す実験の続き。今回は SentencePiece でやってみた SentencePiece はディープラーニングでの利用を前提に作られているのだけれど、ロジスティック回帰等…

ライブドアコーパスの記事分類を トークナイザー を変更しながらやってみた

ライブドアコーパスの記事分類で、トークナイザー をGiNZA、Sudachi、MeCab+NEologdで変更しながら分類精度の差を調べてみた 結論 : 多少の凸凹はあるものの有意な差はなさそう 分類方法は Bag of Words + ロジスティック回帰 GiNZA、Sudachi、NEologdのバ…

Sudachi インストール メモ

ohke.hateblo.jp 上記ページを参考に Sudachi をインストール $ cd /home/ec2-user/work ← このディレクトリのsrc以下にインストールされる $ pip install -e git+git://github.com/WorksApplications/SudachiPy@develop#egg=SudachiPy $ pip list | grep su…

GinZA インストール メモ

AWS の EC2 の場合はインスタンスタイプを medium (4GB) 以上で実行する こちらも NEologd 同様 small (2GB) だとメモリ不足でエラーになった $ pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz" $ ginza …

NEologd アップデート メモ

AWS の EC2 の場合はインスタンスタイプを medium (4GB) 以上で実行する small (2GB) だとメモリ不足でエラーになった sudo su - cd /usr/local/src/ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd ./b…

GSC ( Google Cloud Storage ) のバケットを作る

Colaboratory で TPU を使う場合、ファイル出力は GCS にしかできない CPUならGoogle DriveでもOKGCSバケットの作り方 https://console.cloud.google.com/ 左上「三」からメニューを表示して ストレージ.Storage を選択 「課金を有効にする」をクリック アカ…

ColaboratoryでTPUを使えるようにする

上ナビ 「ランタイム」 「ランタイムのタイプを変更」 「ハードウェアアクセラレータ」 : TPU 保存 ※1) GPUを使う場合も手順は同じ。「ハードウェアアクセラレータ」でGPUを選ぶ ※2) Googleドライブのマウントはやり直す必要がある

ColaboratoryでGoogleドライブをマウントして使う

# Googleドライブのマウント from google.colab import drive drive.mount('/content/drive')表示されるURLをクリック アカウントを選択 許可 表示されるコードをコピー Enter your authorization code: に張り付ける Mounted at /content/drive が表示され…

BERT 動かしてみる その1 MRPCを動かすまで

techblog.nhn-techorus.com上記参考ページを見ながら Colaboratory で実行するために一部変更しながら BERT を動かしてみた # BERT のダウンロード !git clone https://github.com/google-research/bert # BERT 学習済みモデルのダウンロード !wget https://…

EC2 に cmake インストールした

sudo yum remove cmake wget wget https://cmake.org/files/v3.14/cmake-3.14.4.tar.gz tar -xvzf cmake-3.14.4.tar.gz cd cmake-3.14.4 ./bootstrap make sudo make install

Colaboratory で ファイルをアップロードする方法

ディレクトリの作成はUIからはできないっぽいので、プログラムから作成するか既存のディレクトリを使う sample_data というディレクトリがデフォルトである アップロードしたファイルは時間が来ると削除される模様qiita.com

Colaboratory で TensorBoard が正式サポートされた

実行方法 % load_ext tensorboard.notebook% tensorboard --logdir ログディレクトリ これで TensorBoard がインライン表示される

Elasticsearch のインデックスを全件削除して空にする

#!/bin/bash -x SERVER='127.0.0.1' PORT='9200' INDEX='index' TYPE='type' curl -XPOST "http://$SERVER:9200/$INDEX/$TYPE/_delete_by_query?conflicts=proceed&pretty" -d '{ "query": { "match_all": { } } }'

Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so.

参考ページ stackoverflow.com scikit-learn で LogisticRegression 実行中にエラーで Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so. mkl使わないようにする conda install nomkl numpy scipy scikit-learn numexpr conda remove mkl…

RemoveError: 'pyopenssl' is a dependency of conda and cannot be removed from conda's operating environment.が出た時にやったこと メモ

アップデートしたら conda update --all エラーが出た RemoveError: 'pyopenssl' is a dependency of conda and cannot be removed from conda's operating environment. 本体のアップデートやってから conda update --force conda もう一回 conda update --…

Elasticsearch 既存のスキーマにフィールドを追加する

参考ページ www.elastic.co #!/bin/bash -x SERVER='hoge.hoge.com' PORT='9200' INDEX='index' TYPE='type' curl -X PUT http://$SERVER:$PORT/$INDEX/$TYPE/_mapping?pretty -d ' { "properties" : { "new_field1" : { "type" : "keyword" }, "new_field2"…

Selenium で撮った スクリーンショット を ImageNet の学習済みモデルを使って 何のページか雑に推定してみる

推定してみるページ その1 www.min-inuzukan.com 推定してみるページ その2 www.instagram.com 結果 : 動物だけだと簡単すぎたかも... みんなの犬図鑑 - トイプードル 0.png ← その1のページ ('n02113624', 'toy_poodle', 0.9494451) ('n02113712', 'miniat…

Windows10 に Selenium 環境を作る

下記を参考に構築 qiita.com conda install selenium Chrome のバージョンが 72 だったので下記から ChromeDriver 2.46 をダウンロードして解凍 chromedriver.chromium.org できたchromedriver_win32 フォルダ を以下にコピーしてパスを通した C:\Program Fi…

AWS EC2 に Selenium 環境作った メモ

下記を参考に構築 qiita.com > sudo su - # curl https://intoli.com/install-google-chrome.sh | bash Successfully installed google-chrome-stable, Google Chrome 72.0.3626.109 . 途中 エラーが出ても気にしない... # vim /etc/yum.repos.d/centos.repo…

Django MySQLdb の インポートでエラーなったときやったこと メモ

>python manage.py runserver django.core.exceptions.ImproperlyConfigured: Error loading MySQLdb module.Did you install mysqlclient? MySQLdb が欲しい libssl と libssl のバージョンがあってなかったらしい強引にあってるように見せかけた >cd /usr/…

ダッシュボードに検索結果一覧 Search Engine Results Pages (SERP) を入れる方法

Kibana の ダッシュボードに グラフ等を表示する場合には まず Visualize で グラフそれぞれを作ってから Dashboard で配置しますが 検索結果一覧は Visualize ではなく Discover で作成します 1) Discover で 対象の Index Pattern を選んだあと ページ上部…

Bash on Ubuntu on Windows BOW に Anaconda をインストールする

普通にLinuxにインストールするのと同じ 下記からインストーラゲット https://www.anaconda.com/download/#linux bash Anaconda3-2018.12-Linux-x86_64.sh yes yes no

エラーになったときにやったこと

elasticdump を実行して出たエラー /usr/local/lib/node_modules/elasticdump/bin/elasticdump:69 for (var i of jsonParsedOpts) { ^^ SyntaxError: Unexpected identifier at Module._compile (module.js:439:25) at Object.Module._extensions..js (modul…

合格! JDLA Deep Learning for GENERAL 2018#2

合格しました!日本ディープラーニング協会にジェネラリストとして認定されました G検定公式テキスト3回読んでチャレンジしたらなんとか合格できました 機械学習の手法についてはあらかじめ多少理解できていたのも良かったようです

「Python] from size を使って全権取得しようとしたら、1万件までしかムリと言われたので仕方なく scroll を使った時の メモ

from + size の合計で 1万が上限らしい パラメータをいじると上限変えられるらしいけど、根本的な解決にならないのでメッセージ通りscrollを使ってみる elasticsearch.exceptions.TransportError: TransportError(500, 'search_phase_execution_exception', …

PyCharm でコピペできない Ctrl+C Ctrl+V 効かない ときにやったこと

ファイル-> 設定 -> Vimエミュレーション Ctrl+C と Ctrl+V のハンドラーをIDEにする

gc2pe httplib2.SSLHandshakeError: [SSL: CERTIFICATE_VERIFY_FAILE

sample.dat がない。もしくは0バイトのときは、別のPCで sample.py を実行して sample.dat を作ってコピーする

UTF-8で作成したCSVをExcelで文字化けせずに開けるようにする方法

ExcelはBOM付きだとUTF-8だと判断できるらしい open するときに encoding='utf_8_sig' を指定する f = open( 'hoge.csv', 'w', encoding='utf_8_sig') writer = csv.writer(f, lineterminator='\n', dialect='excel', quotechar='"', uoting=csv.QUOTE_ALL)

for Windows インストール メモ

Docker for Windows をインストール https://www.docker.com/docker-windowsDownload for WindowsPlease Login To Download # ↓ アカウントがない場合 Create AccountDockerID、 Email、 Passwordを入力チェックボックスはすべてチェックするSign Upメールが…

Windows10 で Hyper-V を有効にする方法

PowerShell を管理者権限で起動して以下実行 Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Hyper-V -All この操作を完了するために、今すぐコンピューターを再起動しますか? [Y] Yes [N] No [?] ヘルプ (既定値は "Y"):Y Windows管理ツー…