wgetを使ってwebページ上のデータをダウンロードする

pythonでスクレイピング

こちらの本を進めています

webページ上の情報をとる

webページ上の情報を取得するためのプログラムをWebクローラーと呼ぶ。

web検索エンジンはあらかじめクローラーを使って世界中のwebページを収集・蓄積して、高速な検索を可能にしている。

RSSリーダーはクローラーがrssフィードをチェックし、更新があると教えてくれる。

Wgetは複数ファイルを一度にダウンロード、webページのリンクを辿って複数コンテンツを一気にダウンロードすることができる。

cURLはHTTPレスポンスがコンソールに表示。オプションでhttpメソッドを簡単に送信できるのでwebAPIの呼び出しによく使われる。

Wgetを使ってみる

wget URLで抜き取れる。

wget URL -O ファイル名、でファイル名を指定できる

ファイル名に-を指定すると、保存ではなく、標準出力ができる。-qをつけると読みやすくなる。

wgetで再帰的(ディレクトリの中まで、またその中まで)にクローリング

-rコマンド。-lでリンクを辿る深さを制限。-wオプションでダウンロード間隔を開ける。

–no-parentで親ディレクトリはクロールしない

–restrict-file-names=controlはurlに日本語が含まれる場合、日本語のファイル名で保存

最後にスラッシュすると、ダウンロードした/dpに対応するファイルがクローリング途中で消えないようにできる。

使い方:wget -r –no-parent -w 1 -l 1 –restrict-file-names=noncontrol URL

brew install tree(ツリー構造を確認するためのtreeコマンドが打てるようになる)。

tree [ファイル名]でサイトからダウンロードしてきたページのツリー構造がわかる。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする