用語集

robots.txt ファイルとは?

投稿日:2018年5月24日 更新日:

基礎知識

1. robots.txt ファイルとは?

robots.txt ファイルとは、「Google などのクローラやボットに対して、ページの取得を受け入れる/拒否する意思を伝えるためのファイル」です。

robots.txt ファイルで利用される規約は、「Robots Exclusion Standard(RES)」「Robots Exclusion Protocol」「ロボット排除規約」「robots.txt プロトコル」など様々な呼称があります。

このファイルはあくまで「意思を伝える」だけであるため、クローラ(プログラム)がそれを尊重するかどうかはまた別の話しです。但し、robots.txt で拒否しているのにそれを無視してページを取得していることが分かれば悪評が立つでしょう。

クローラやボットについて

クローラ」は、ウェブサイトのページデータ(主に htmlファイルや画像ファイル)を取得するプログラムを指します。それに対して「ボット(インターネットボット、Webボット)」はもう少し範囲が広く、インターネット上で何らかのタスクを行うために常時稼働しているプログラムを指します。そのため、ボットの中にクローラも含まれると言えます。

2. 使い方

ファイルの設置

ウェブサイトのドキュメントルートの位置に、robots.txt という名前のファイルを設置します。

記述例

そこで、クローラプログラムを表す名前に対して、Allow(許可する) / Disallow(許可しない)などを指定します。

例えば、Wayback Machine というウェブサービスでは、あらゆるウェブサイトを日々クロールして取得し、取得した日付別に公開しています。この Wayback Machine からのクロールを拒否したい場合は、robots.txt ファイルに以下を記述します。

User-agent: ia_archiver
Disallow: /

全てのクローラやボットが全ファイルを走査できないようにするには、「*」を使って以下のように記述することができますが、これだと無視されることもあるようです。

User-agent: *
Disallow: /

全てのクローラやボットが、「特定のファイル」を見ないよう指定する場合は以下のように書きます。

User-agent: *
Disallow: /directory/file.html

-用語集

執筆者:fitallright

関連記事

WHOIS とは?

目次1. WHOIS とは?2. WHOISによる検索サービスコマンドウェブ上のサービス3. ドメインによって登録情報は異なる4. 登録情報は公開される5. 汎用JPドメインの登録情報について6. お …

レンタルサーバーにおける「サーバー」とは?

紛らわしいことに、レンタルサーバーにおける「サーバー」という言葉には、以下の2つの意味があります。 ハードとしてのサーバー(以後、サーバーマシンと呼びます) サーバーマシンの中で常時稼働するソフトウェ …

FTP とは?

目次FTP とは?レンタルサーバーを利用するにあたっての主な用途2つの転送モードFTP の問題点と、通信の暗号化FTP クライアントツール FTP とは? FTP (File Transfer Pro …

PHP とは?

PHP は、プログラミング言語の1つです。 HTML 文書の中に簡単に混ぜることができるので、ウェブページの作成によく使用されています。 ここで詳細は説明しませんが、例えば以下のような記述を行った場合 …

URL とは?

目次URL とは?URLの構成要素構成要素の説明仕様書 URL とは? URLとは、リソース(HTML文書や画像など)を特定するための識別子です。 ブラウザのアドレスバーに表示されているのがURLです …

ロリポップ!「スタンダードプラン」
さくらのレンタルサーバ「スタンダードプラン」