Webページからの本文抽出をするために Pocket の API を試してみました
https://help.getpocket.com/
ライブラリのインストール
pip install pocket-api
プログラム
from pocket import Pocket, PocketException import json url = 'https://www.yahoo.co.jp/' # access_token は 下記にアクセスして取得する # http://reader.fxneumann.de/plugins/oneclickpocket/auth.php p = Pocket( consumer_key='XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX', access_token='XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX' ) # 登録 p.add( url ) # 削除 # p.delete(item_id) # p.commit() # 登録済みデータの参照 response = p.retrieve(offset=0, count=10) print( json.dumps(response, sort_keys=True, ensure_ascii=False, indent=2) )
実行結果
{ "complete": 1, "error": null, "list": { "18294": { "excerpt": "ヤフオク!くじで落札額分の期間固定Tポイント当たる - シーズン最終セール スノーボード&スキー用品がお得 自己ベストに笑顔 2月10日20時43分 配信 デイリースポーツ IDでもっと便利に[ 新規取得 ] メー", "favorite": "0", "given_title": "", "given_url": "https://www.yahoo.co.jp/", "has_image": "0", "has_video": "0", "is_article": "0", "is_index": "1", "item_id": "18294", "resolved_id": "18294", "resolved_title": "Yahoo! JAPAN", "resolved_url": "https://www.yahoo.co.jp/", "sort_id": 0, "status": "0", "time_added": "1521791641", "time_favorited": "0", "time_read": "0", "time_updated": "1521791641", "word_count": "77" } }, "search_meta": { "search_type": "normal" }, "since": 1521791641, "status": 1 }
この例では結果はいまいちでした