用語集

robots.txt ファイルとは?

投稿日:2018年5月24日 更新日:

基礎知識

1. robots.txt ファイルとは?

robots.txt ファイルとは、「Google などのクローラやボットに対して、ページの取得を受け入れる/拒否する意思を伝えるためのファイル」です。

robots.txt ファイルで利用される規約は、「Robots Exclusion Standard(RES)」「Robots Exclusion Protocol」「ロボット排除規約」「robots.txt プロトコル」など様々な呼称があります。

このファイルはあくまで「意思を伝える」だけであるため、クローラ(プログラム)がそれを尊重するかどうかはまた別の話しです。但し、robots.txt で拒否しているのにそれを無視してページを取得していることが分かれば悪評が立つでしょう。

クローラやボットについて

クローラ」は、ウェブサイトのページデータ(主に htmlファイルや画像ファイル)を取得するプログラムを指します。それに対して「ボット(インターネットボット、Webボット)」はもう少し範囲が広く、インターネット上で何らかのタスクを行うために常時稼働しているプログラムを指します。そのため、ボットの中にクローラも含まれると言えます。

2. 使い方

ファイルの設置

ウェブサイトのドキュメントルートの位置に、robots.txt という名前のファイルを設置します。

記述例

そこで、クローラプログラムを表す名前に対して、Allow(許可する) / Disallow(許可しない)などを指定します。

例えば、Wayback Machine というウェブサービスでは、あらゆるウェブサイトを日々クロールして取得し、取得した日付別に公開しています。この Wayback Machine からのクロールを拒否したい場合は、robots.txt ファイルに以下を記述します。

User-agent: ia_archiver
Disallow: /

全てのクローラやボットが全ファイルを走査できないようにするには、「*」を使って以下のように記述することができますが、これだと無視されることもあるようです。

User-agent: *
Disallow: /

全てのクローラやボットが、「特定のファイル」を見ないよう指定する場合は以下のように書きます。

User-agent: *
Disallow: /directory/file.html

-用語集

執筆者:fitallright

関連記事

no image

ウェブサーバー(Webサーバー)とは?

ウェブサーバー(Webサーバー)とは? ウェブサーバーとは、ウェブサイトを提供するためのサーバープログラムです。サーバープログラムというのは、クライアントからのアクセスを常時待ち、アクセスがあった際に …

ドメインとは?

目次1. ドメインとは?2. URL におけるドメインスキームドメインホスト名3. ドメインの種類4. 独自ドメイン 1. ドメインとは? 「ドメイン」とは、インターネットにおける「住所」を表すための …

PHP とは?

PHP は、プログラミング言語の1つです。 HTML 文書の中に簡単に混ぜることができるので、ウェブページの作成によく使用されています。 ここで詳細は説明しませんが、例えば以下のような記述を行った場合 …

ドメインロック(レジストラロック、トランスファーロック)とは?

ドメインロック(レジストラロック、トランスファーロック)とは、自分が取得しているドメインを第三者によって勝手に他のレジストラに移管されてしまうのを防ぐサービスです。 例えば、お名前.com で何か1つ …

レンタルサーバーにおける「サーバー」とは?

紛らわしいことに、レンタルサーバーにおける「サーバー」という言葉には、以下の2つの意味があります。 ハードとしてのサーバー(以後、サーバーマシンと呼びます) サーバーマシンの中で常時稼働するソフトウェ …

ロリポップ!「スタンダードプラン」
さくらのレンタルサーバ「スタンダードプラン」