Unixコマンドによるスクレイピング

pythonでスクレイピング

こちらの本で進めています

標準ストリームとパイプ

標準入力→標準出力+標準エラー出力 = 標準ストリーム
パイプを使うとあるコマンドの標準出力→他のコマンドの標準入力に渡せる

Unixコマンドの使い方

正規表現

特定のパターンの文字列を表すための文字列表現。grep, sedでは標準正規表現が使えて、-Eオプションをつけると拡張正規表現。メタ文字とパターンの例は一回一回ググる。

正規表現の使い方

Unixコマンドでもこのようにかなりスクレイピングができるけど、弱点もたくさん。なので汎用言語のPythonを使った方が良い。次からpython、やったね。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする