用語集

robots.txt ファイルとは?

投稿日:2018年5月24日 更新日:

基礎知識

1. robots.txt ファイルとは?

robots.txt ファイルとは、「Google などのクローラやボットに対して、ページの取得を受け入れる/拒否する意思を伝えるためのファイル」です。

robots.txt ファイルで利用される規約は、「Robots Exclusion Standard(RES)」「Robots Exclusion Protocol」「ロボット排除規約」「robots.txt プロトコル」など様々な呼称があります。

このファイルはあくまで「意思を伝える」だけであるため、クローラ(プログラム)がそれを尊重するかどうかはまた別の話しです。但し、robots.txt で拒否しているのにそれを無視してページを取得していることが分かれば悪評が立つでしょう。

クローラやボットについて

クローラ」は、ウェブサイトのページデータ(主に htmlファイルや画像ファイル)を取得するプログラムを指します。それに対して「ボット(インターネットボット、Webボット)」はもう少し範囲が広く、インターネット上で何らかのタスクを行うために常時稼働しているプログラムを指します。そのため、ボットの中にクローラも含まれると言えます。

2. 使い方

ファイルの設置

ウェブサイトのドキュメントルートの位置に、robots.txt という名前のファイルを設置します。

記述例

そこで、クローラプログラムを表す名前に対して、Allow(許可する) / Disallow(許可しない)などを指定します。

例えば、Wayback Machine というウェブサービスでは、あらゆるウェブサイトを日々クロールして取得し、取得した日付別に公開しています。この Wayback Machine からのクロールを拒否したい場合は、robots.txt ファイルに以下を記述します。

User-agent: ia_archiver
Disallow: /

全てのクローラやボットが全ファイルを走査できないようにするには、「*」を使って以下のように記述することができますが、これだと無視されることもあるようです。

User-agent: *
Disallow: /

全てのクローラやボットが、「特定のファイル」を見ないよう指定する場合は以下のように書きます。

User-agent: *
Disallow: /directory/file.html

-用語集

執筆者:fitallright

関連記事

ドメインとは?

目次1. ドメインとは?2. URL におけるドメインスキームドメインホスト名3. ドメインの種類4. 独自ドメイン 1. ドメインとは? 「ドメイン」とは、インターネットにおける「住所」を表すための …

no image

ウェブサーバー(Webサーバー)とは?

ウェブサーバー(Webサーバー)とは? ウェブサーバーとは、ウェブサイトを提供するためのサーバープログラムです。サーバープログラムというのは、クライアントからのアクセスを常時待ち、アクセスがあった際に …

PHP とは?

PHP は、プログラミング言語の1つです。 HTML 文書の中に簡単に混ぜることができるので、ウェブページの作成によく使用されています。 ここで詳細は説明しませんが、例えば以下のような記述を行った場合 …

データベース(MySQL)とは?

目次データベースとは?レンタルサーバーにおけるデータベース1. データベースソフトウェアそのものを「データベースと呼ぶ」場合2. MySQL 内でデータを保存する単位としての「データベース」 データベ …

CSS とは?

目次CSS とは?CSS の例CSS の仕様 CSS とは? CSS は、HTMLで記述された文書に対して「どのHTMLタグをどのような見た目にするか?」を指定するためのスタイルシート言語です(これは …

ロリポップ!「スタンダードプラン」
さくらのレンタルサーバ「スタンダードプラン」