Wget
GNU Wget は広く使われているインターネットプロトコルである HTTP, HTTPS, FTP, FTPS (1.18 以降) を使用してファイルを取得するためのフリーソフトウェアパッケージです。非対話型のコマンドラインツールなので、スクリプトから簡単に呼び出すことができます。
目次
インストール
wget 1.x
wget パッケージをインストールします。Gitバージョンは、wget-gitAUR としてAURに存在します。
wget 2
コマンドラインの構文がほぼ同じの代替として、wget2 があります。wget2 は "GNU Wget の後継であり、ゼロから設計・作成された" とされています。この書き換えは "マルチスレッドで動作し、速い操作を可能にするための多くの機能を使用します。多くのケースで、Wget2 は HTTP2、HTTP 圧縮、並列接続、If-Modified-Since HTTP ヘッダーの使用により、Wget1.x よりもはるかに高速にダウンロードできます" [1]
wget2 を使用するには、AUR から wget2AUR をインストールしてください。なお、これは pandoc に依存しており、依存関係が多いため、この依存関係を避けるために、AUR にある wget2-no-docsAUR を代わりにインストールすることもできます。
設定
設定は /etc/wgetrc
で行います。デフォルトの設定ファイルはドキュメントがよく整理されているだけでなく、変更する必要は基本的にありません。複雑なオプションについては wget(1) § OPTIONS ページを見て下さい。
FTP の自動化
大抵、ネットワーク上で安全にファイルを転送したいときは SSH が使われますが、SSH で scp や rsync を使うよりも FTP の方がリソースの消費が抑えられます。FTP はセキュアではありませんが、ファイアウォールで保護されている環境で、CPU が制約されるようなシステムで巨大なデータを転送する場合、FTP を使用するのが理にかなっています。
# wget ftp://root:somepassword@10.13.X.Y//ifs/home/test/big/"*.tar" 3,562,035,200 74.4M/s in 47s
上記の例では、Wget は 3.3 GB のファイルを 74.4MB/s の速度で転送しています。
以下の利点があります:
- スクリプトに組み込める
- ssh よりも高速
- 簡単に文字列を置換できる
- globbing 機能
プロキシ
Wget は通常のプロキシ環境変数を使います。参照: プロキシ設定。
プロキシ認証機能を使うには:
$ wget --proxy-user "DOMAIN\USER" --proxy-password "PASSWORD" URL
HTML 認証フォームを使用するプロキシは利用できません。
pacman インテグレーション
pacman で Wget を使ってプロキシ認証を自動的に行わせたい場合、/etc/pacman.conf
の [options]
セクションに Wget コマンドを記述します:
XferCommand = /usr/bin/wget --proxy-user "domain\user" --proxy-password="password" --passive-ftp -q --show-progress -c -O %o %u
使用方法
このセクションでは Wget のユースケースを紹介します。
基本的な使い方
Wget の最も一般的なユースケースはインターネットからのファイルのダウンロードでしょう。
$ wget <URL>
ダウンロードするファイルの URL を既に知っている場合、ブラウザでダウンロードして適当なディレクトリに手動で移動するよりも素早くダウンロードができます。もちろん、単純な使い方以外にも、必要であればダウンロードの自動化を行うことができます。
ウェブサイトの完全なアーカイブを作成
Wget は、絶対リンクを相対リンクに変更することで、正しいリンク先を維持しながら、完全な Web サイトをアーカイブできます。
$ wget --recursive --no-parent --convert-links 'target-url-here'
動的なウェブサイトの場合、静的な HTML に変換するためにいくつかの追加オプションが利用可能です。
$ wget --recursive --no-parent --page-requisites --adjust-extension --convert-links --backup-converted 'target-url-here'
wget は、ダウンロード防止メカニズムを回避するためのオプションもあります。
$ wget --recursive --no-parent --convert-links --random-wait --execute robots=off --user-agent "Mozilla/5.0" 'target-url-here'
また、サードパーティのコンテンツをダウンロードに含める場合は、-H/--span-hosts
スイッチを -r/--recursive
と一緒に使用して、リンクされたホストを再帰的に実行できます。