プラットフォーム運営・シェアリングエコノミーサービスに役立つ情報

wgetコマンド(ダブルゲットコマンド)

wgetコマンドは、実行時に指定したURLのページをローカルホストにダウンロードすることができるコマンドです。プログラミングの際に、特定のzipファイルをダウンロードしたり、サイトを横断することで情報を集めることも可能です。

wgetのメリットは、UAを指定することができる点にあります。UAを指定することで使用している端末を指定することが可能になり、端末ごとに処理を分けているサーバーに対して動作をチェックすることが可能です。

wgetは再帰的にページやコンテンツをダウンロードすることができます。例えば、特定サイトの画像を全てダウンロードしたい場合は、wgetに再帰的に動作させるオプションを指定して、ダウンロードする拡張子にjpgとpngを指定することで特定サイトの全ての画像を手に入れることができます。

ただし、wgetは何も指定していない状態であれば間髪入れずに次のダウンロードを行う仕組みになっているので、サーバーに負荷をかけてしまうことになる点に注意が必要です。

特にサーバーへのアクセスを繰り返しているとDDoS攻撃として扱われ、刑事告訴されてしまうこともあります。そのため、wgetコマンドを実行する際には待ち時間を指定することでアクセス先のサーバーへの負荷を軽減させることが重要です。

wgetを実行したとしても目当てのファイルがダウンロードできないこともあります。JavaScriptが動作しなければコンテンツが表示されないなどと行った場合はプログラミングで解決しましょう。

SeleniumなどのJavaScriptが動作するプログラムであれば、ほぼすべてのサイト上のコンテンツをダウンロード可能です。

以上の点からwgetコマンドは特定のURLのコンテンツをコマンド一回入力するだけで入手できますが、その性能には限りがあり、サイト上の全てのコンテンツを手に入れることはできない点に留意します。

SNSでフォローする