1. robots.txt
ファイルとは?
robots.txt
ファイルとは、「Google などのクローラやボットに対して、ページの取得を受け入れる/拒否する意思を伝えるためのファイル」です。
robots.txt
ファイルで利用される規約は、「Robots Exclusion Standard(RES)」「Robots Exclusion Protocol」「ロボット排除規約」「robots.txt プロトコル」など様々な呼称があります。
このファイルはあくまで「意思を伝える」だけであるため、クローラ(プログラム)がそれを尊重するかどうかはまた別の話しです。但し、robots.txt
で拒否しているのにそれを無視してページを取得していることが分かれば悪評が立つでしょう。
クローラやボットについて
「クローラ」は、ウェブサイトのページデータ(主に htmlファイルや画像ファイル)を取得するプログラムを指します。それに対して「ボット(インターネットボット、Webボット)」はもう少し範囲が広く、インターネット上で何らかのタスクを行うために常時稼働しているプログラムを指します。そのため、ボットの中にクローラも含まれると言えます。
2. 使い方
ファイルの設置
ウェブサイトのドキュメントルートの位置に、robots.txt
という名前のファイルを設置します。
記述例
そこで、クローラプログラムを表す名前に対して、Allow(許可する) / Disallow(許可しない)などを指定します。
例えば、Wayback Machine というウェブサービスでは、あらゆるウェブサイトを日々クロールして取得し、取得した日付別に公開しています。この Wayback Machine からのクロールを拒否したい場合は、robots.txt
ファイルに以下を記述します。
User-agent: ia_archiver
Disallow: /
全てのクローラやボットが全ファイルを走査できないようにするには、「*」を使って以下のように記述することができますが、これだと無視されることもあるようです。
User-agent: *
Disallow: /
全てのクローラやボットが、「特定のファイル」を見ないよう指定する場合は以下のように書きます。
User-agent: *
Disallow: /directory/file.html