2015-01-01から1年間の記事一覧

Jython から Kuromoji を使って形態素解析する メモ

kuromoji-0.7.7.jar に CLASSPATH を通しておく hoge.jy #!/usr/local/jython/bin/jython # -*- coding: utf-8 -*- from org.atilika.kuromoji import Tokenizer if __name__ == "__main__": parseWord = u"すもももももももものうち" builder = Tokenizer.b…

EC2 に GUI を使わないで コマンドラインだけで Jython をインストールする ヘッドレス メモ

jython-installer-2.7.0.jar を下記から ダウンロード http://www.jython.org/downloads.html $ sudo su - # java -jar /tmp/jython-installer-2.7.0.jar -c Welcome to Jython ! You are about to install Jython version 2.7.0 (at any time, answer c to …

出口ノード数

Tor

全世界で 7〜800 ぐらいでしょうか 日本は 1% ぐらいですねhttp://torstatus.blutmagie.de/network_detail.php

を使ってダークウェブをクローリングする

Tor + polipo の環境ができていれば 環境変数 http_proxy を設定しておくと Scrapy が読み取って Tor 経由のアクセスになってくれるようです export http_proxy=http://localhost:8123

から ダークウェヴを見てみる

polipo経由でTorに潜ることでPythonから.onionのダークウェヴを見てみます Pythonプログラム ⇛ Polipo(プロクシ : 8123) ⇛ Tor(親プロクシ) ⇛ hogehoge.onion #! /usr/bin/env python # coding=utf-8 # polipo 経由で Tor を使う import urllib2 url = "http…

EC2 インストールメモ

polipoは軽量なプロキシです これを経由することで SOCK に対応していないブラウザやクライアントアプリからも Torにアクセスできるようになります 以下は同じサーバに自前のTorサーバが動いていることが前提の設定です $ sudo yum --enablerepo=epel instal…

[AWS] EC2インストール メモ

$ sudo yum update $ sudo yum -y install gcc-c++ glibc-headers openssl-devel readline libyaml-devel readline-devel zlib zlib-devel libffi-devel libxml2 libxslt libxml2-devel libxslt-devel sqlite-devel $ sudo pip install --upgrade pip $ sudo…

IMEの切り替えをMac風に「変換」「無変換」で行う メモ

Mozc の設定 スタートメニュー -> 設定 -> Mozcの設定 -> キー設定の選択 編集 入力キー Henkan、Muhenkann の設定をすべて消す Fcitxの設定 スタートメニュー -> 設定 -> Fcitx設定 -> 全体の設定 入力メニューのオンオフ ZENKAKUHAN 入力メソッドをオンに …

Hotspot Shield で iOS の VPN 接続が失敗する場合に試してみること メモ

VPN

ルータ(ファイアウォール) で下記ポートのアウトバウンドを開放する インバウンドは開放しなくてよい UDP : 500 UDP : 4500 UDP : 1701

TvRock で スリープから復帰したときに devcon.exe で USBハブに restart コマンド送っているのだけれど Restart failed No matching devices found. になってうまくいかないときにやってみるべきこと メモ

1. TvRock が 管理者権限で実行されているか確認する 特に設定変更して手動で停止・起動したときなどは、一般ユーザ権限で起動しがち 2. devcon.exeをWindows Driver Kitに入っているのに入れ替えてみる http://www.microsoft.com/en-us/download/details.as…

selenium.common.exceptions.WebDriverException: Message: "Can't load the profile... になったときにやったこと

pip install -U selenium

双方向シノニムの実験

A = B と A = C の2つの双方向シノニムを登録した場合に 自動的に B = C の双方向シノニムが実現されるのかの実験 結論 Solrの再起動のみの場合 シノニムを適用するために Solr を再起動しただけだと A = B 、 A = C のシノニムのみ実現される。B = C は実現…

Python から 使ってみる

Tor

環境構築 SocksiPy.tar.gz をダウンロード https://osdn.jp/projects/sfnet_socksipy/ tar xvfz SocksiPy.tar.gz sudo cp socks.py /usr/lib/python2.6/site-packagesPythonからはTorであることは意識しなくていい。SOCKSプロクシだと思って使えばOK サンプ…

を AWS の EC2 にインストールする メモ

Tor

$ sudo yum install libevent libevent-devel zlib openssl 下記から ソース tor-0.2.6.10.tar.gz ダウンロード https://www.torproject.org/download/download.html.en $ tar xvfz /tmp/tor-0.2.6.10.tar.gz $ cd tor-0.2.6.10/ $ ./configure $ make $ sud…

外国語の形態素解析をする TreeTagger インストール メモ

TreeTaggerは英語、中国語、ロシア語他多数の言語の形態素解析をしてくれるツールです 具体的には 単語の品詞と基本形を教えてくれます http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ 上から下記をダウンロード $ ls english-par-linux-3.2-utf…

Java の ベンチマーク ツール nanobench 使ってみた メモ

以下から jar ファイルをダウンロードする https://github.com/tokuhirom/maven/blob/gh-pages/releases/me/geso/nanobench/0.0.4/nanobench-0.0.4.jar $ ln -s nanobench-0.0.4.jar nanobench.jar $ javac ListBenchmark.java $ java -jar nanobench.jar Li…

Mac でマウススクロールだけ逆にする

http://easyramble.com/reverse-scroll-with-mac-mouse.html

Python で フィードの前処理をする メモ

1. Jython のインストール Jython の スタンドアローン版を下記からダウンロードして http://www.jython.org/downloads.html example/solr/collection1/lib に置く $ls example/solr/collection1/lib jython-standalone-2.7.0.jar 2. solrconfig.xml の変更 <requestHandler name="/update" class="solr.UpdateRequestHandler"> <lst name="defaults"></lst></requesthandler>…

ICUTransformFilterFactory 使う準備 メモ

$ mkdir example/solr/collection1/lib/ $ cp contrib/analysis-extras/lucene-libs/lucene-analyzers-icu-4.10.4.jar example/solr/collection1/lib/schema.xml <filter class="org.apache.lucene.analysis.icu.ICUTransformFilterFactory" id="Katakana-Hiragana"/></filter>

コピペしても行番号、列番号変えたくないときは $ を付ける メモ

'A1'は相対参照。コピペすると'A2'に変わったりする '$A$1'は絶対参照。コピペしても変化しない =VLOOKUP(A1,'20150526.sjis.csv'!$A$1:$C$4179,2,FALSE)

nkf で ファイルを URLデコードする メモ

nkf -w --url-input hoge.txt

EC2でPythonのバージョンアップをしたら yum がエラーになって動かなくなったときにやったこと メモ

AWS

$ sudo cp /usr/bin/yum /usr/bin/_yum_old $ sudo sed -i s/python/python26/g /usr/bin/yum $ yum list

boto3 で 検索 習作

#!/bin/env python # -*- coding: utf-8 -*- # クラウドサーチで検索してみる習作 # boto3 編 import boto3 cloudsearchdomain = boto3.client('cloudsearchdomain', endpoint_url='http://search-hogehoge.ap-northeast-1.cloudsearch.amazonaws.com') resu…

AWS CLI (コマンドラインツール) から 検索しようとしてエラーになった時にやったこと メモ

AWS の CLI を使って、検索リクエストを送信しようとしたら % aws cloudsearchdomain --endpoint-url http://search-movies-y6gelr4lv3jeu4rvoelunxsl2e.us-east-1.cloudsearch.amazonaws.com search --search-query wolverine --return _no_fields 以下のエ…

boto を使って Python で検索 習作

#!/bin/env python # -*- coding: utf-8 -*- from boto.cloudsearch2.layer2 import Layer2 layer2 = Layer2( aws_access_key_id='aws_access_key_id', aws_secret_access_key='aws_secret_access_key', region='ap-northeast-1') domain = layer2.lookup('…

AWS EC2 にインストール メモ

Java のアップデート http://www.oracle.com/technetwork/java/javase/downloads/index.html # rpm -ivh jdk-8u31-linux-i586.rpm$ wget http://mirrors.koehn.com/apache/manifoldcf/apache-manifoldcf-1.8.1/apache-manifoldcf-1.8.1-bin.tar.gz $ tar xvf…

青空文庫を入れて遊んでみる フィード編 メモ

青空文庫の書籍を1冊ずつ ドキュメントバッチ形式の XML に変換して S3に置いて一気にフィードしようとしたんだけど S3からのフィードは1回につき 5MB という制限があって断念。 まさか5MBずつ ちょろちょろフィードするわけにもいかないし。 というわけで C…

青空文庫を入れて遊んでみる 環境構築編 メモ

CloudSearch ドメイン (インスタンス) の作成 https://ap-northeast-1.console.aws.amazon.com/console/ CloudSearch Create a new search domain Search Domain Name : ほげドメイン ←英小文字、数字、ハイフンしか使えない Desired Instance Type: Use def…

NEC Aterm MR03LN に Y! mobile ( イーモバイル ) GL08D のSIM を 入れてみた メモ

GL08D は Y! mobile ( イーモバイル ) の USB スティックタイプの端末です。 普段は Mac に 接続して使っています。 Amazon で Y! mobile ( イーモバイル ) も使える モバイルルータ MR03LN が安売りされていたので買ってみました。新型がでるのかもしれませ…

Windows 7 に gc2pe の環境構築したときの メモ

1. Proxyの設定 設定しないと ez_setup.py のインストールでエラーになる コントロールパネル→ユーザーアカウント→環境変数の変更 システム環境変数 → 新規 変数名 HTTP_PROXY 変数値 http://ユーザ名:パスワード@proxy.pub.hoge.co.jp:8080 変数名 HTTPS_PR…