このサイトについて

PyGoogle

PyGoogle

とても簡単だ。

  1. PyGoogle本体をダウンロード、インストールする
  2. GoogleからGoogleAPIのアカウントを取得、ライセンスキーを得る
  3. ひたすら使う。APIドキュメンテーションはこちら

使い方は

import google
google.setLicense('ライセンスキー')
data = google.doGoogleSearch('検索語')

print "%d秒,%d件の結果" \
    %(data.meta.searchTime, \
data.meta.estimatedTotalResultsCount) for item in data.results: print "%s : %s" % (item.title,item.URL)

などとする。titleはUTF-8で返ってくる。

検索結果は10個づつしか取得できないので、全部取得したい場合は、startを増やしつつメタデータの「総数」分(data.meta.estimatedTotalResultsCount)まで検索を繰り返すなどする必要がある。

'coreblog'を検索語として与えて検索をしてみた。言語は日本語に限定(language='lang_ja')。検索結果のURLから、COREBlog固有のURLを生成して対象がCOREBlogであるかどうかを判定。んー、結構知らないBlogがあるなあ。RSSを定期的にクローリングしてみようかしら。。。

2010-08-27 04:26