PINTO!株式会社PLAN-Bの情報発信メディア

2019.06.07

五十嵐 和希

SEO SOLUTION

robots.txtとは|クローラー制御・XMLサイトマップの場所指定の方法

WRITER

五十嵐 和希

株式会社PLAN-B システム開発本部 PDMチーム プロダクトオーナー

2013年中途採用でPLAN-Bに入社。東日本エリアの営業マネージャーを経て、2017年にビジネス開発ユニットを立ち上げ、オウンドメディア運用と事業開発を行う。その後、2018年よりJuicer事業部へ異動。自社開発DMP「Juicer」の販売戦略を中心としたマーケティング活動に従事。現在はPDMチームにてプロダクトオーナーとして新規事業の立ち上げを行っている。

目次
    1.  robots.txtとは?設定する効果は?
    2.  robots.txtの作り方
      1.  robots.txtの書き方
        1. User-Agent
        2. Disallow
        3. Sitemap
        4. Allow
    3. robots.txtの設置方法
    4. WordPressはrobots.txtに便利なプラグインがある
      1. WordPress Robots.txt File
    5. サーチコンソールの送信方法
    6. robots.txt作成時に注意すべき点
      1. 01 : クロール拒否はnoindex目的で使用してはいけない
      2. 02 : 全ページクロール拒否しないようにする
      3. 03 : インデックスさせたくないページをクロール拒否する
    7. まとめ:予想以上に影響度が大きいのでサイトリリース時に注意すること!

皆さんの運営しているWebサイトは、robots.txtが適切に設定されていますか?

必要の無いページまで検索エンジンにクロールさせていないでしょうか。SEOを考慮する上で重要な役割を担うrobots.txtですが、未だに設置すらされていないWebサイトが多くみられます。そこで今回は、robots.txtの正しい設定方法と、その役割についてご紹介します。


 robots.txtとは?設定する効果は?

robots.txtは、検索エンジンのクローラーの動きを制御するために使用します。例えば、会員限定のコンテンツやショッピングカート、またシステム的にやむを得ず自動で生成されてしまう重複ページなどはクロールさせる必要がありません。無駄なページへのクロールを制限することで、重要なコンテンツへのクロールを優先するようになります。

robots.txtとは


 robots.txtの作り方

robots.txtは非常に強い指定のため、誤った記述をしてしまうとWebサイトに重大な問題を引き起こす危険性があります。そのような事態に陥らないためにも、適切な記述方法を知ることが大切です。これから、robots.txtの正しい書き方についてご説明します。


 robots.txtの書き方

まずは、robots.txtの基本の書き方の例をご覧ください。

上記の様な形でtxtファイルに記述をします。各記述の説明は以下の通りです。


User-Agent

この記述は対応する検索ロボットを意味します。

*を使用した場合は、全ての検索エンジンロボットを指定することができます。Googleのクローラーのみを指定したい場合は「User-Agent:googlebot」と記述し、その他特定のクローラーを指定する際には、それぞれに対応した記述をしましょう。


Disallow

これはアクセスの拒否を行う際に使用します。

上記の例の様に、Disallow:の後に何も記述をしなければ、アクセスが拒否されることはありません。使用方法としては、Disallow:の後にアクセスを拒否したいルートディレクトリ、またはファイル名を指定します。

例えば、http://example.com/login/の/login/以下のページ全てに対してアクセスを拒否する場合は「Disallow:/login/」と記述します。

また、ルートディレクトリ以外にもパラメータ付きURLに対するアクセス拒否も可能です。その場合は「Disallow:/*?example=*」のexampleの部分をそれぞれのパラメータに変更してご利用ください。

このようにクロールの必要が無いページに対しては、クロールの制御を行いましょう。よく行われている例としてはログインURLなどが対象になります。Wordpressの管理画面のURL(例aaa.com/wp-admin)をクロール拒否しているサイトは多数あります。


Sitemap

ここにはSitemap.xmlを設置しているページを絶対パスで指定します。Sitemap.xmlを記述することで、検索エンジンに対しsitemap.xmlの存在を伝えることができます。

特に設定しておかなくても、勝手に検索エンジンロボットはクロールしてくれますが、robots.txtに記述しておくことで余計なページを巡回させずに済みます。robots.txtを利用して、クローラーに快適な巡回をさせてあげましょう。


Allow

書き方の例には記載しておりませんが、Allowという記述をすることでアクセスの許可を促すことができます。しかし、何も記載しない状態がアクセス許可を意味するため、この指定を使用する機会は少ないです。


robots.txtの設置方法

robots.txtの作成が完了したら、次はサーバーにアップロードしましょう。アップロードする際は、サイトのトップディレクトリに設置してください。robots.txtは各種サーバーのコントロールパネルから設置、またはFTPクライアントを利用してください。主なFTPクライアントは以下の通りです。

■Windows用

  • FFFTP
  • File Zilla

■Mac用

  • Cyberduck
  • Flie Zilla

robots.txtは、sitemap.xmlと同じ階層にアップロードしましょう。


WordPressはrobots.txtに便利なプラグインがある

WordPressサイトでは、インストールするだけでrobots.txtが自動で生成されます。ただし、FTPクライアントなどでファイルを見ても、実際にrobots.txtファイルは存在しません。そのため、仮想robots.txtと呼ばれています。

WordPressで自動生成されたファイルは、デフォルトの状態ではログイン画面がアクセス拒否されているだけで、記述の追加修正が必要な場合があります。その際には管理画面から修正が可能となる、便利なプラグインを利用しましょう。


WordPress Robots.txt File

プラグインの新規追加から「WordPress Robots.txt File」をインストールして、有効化します。すると、管理画面メニューの表示設定にrobots.txtを編集できる項目が追加されますので、任意の記述を記載します。

ちなみに、プラグイン有効化前のデフォルトの状態ではSitemap: http://example.com/sitemap.xmlの記述はありませんので、忘れずに追加をしましょう。または「Google XML Sitemaps」や「All in One SEO Pack」というプラグインをインストールすることで、自動的にXMLファイルの指定が可能です。


サーチコンソールの送信方法

robots.txtの設定が完了した後、サーチコンソールを利用して正しく設定されているかチェックします。サーチコンソール管理画面左メニューの「クロール」から「robots.txtテスター」を選択します。テキストボックス内にrobots.txtを設置しているURLを記入し、テスト対象のユーザーエージェントを指定して「テスト」ボタンを押します。

テスト結果で問題が無ければ、Googleにrobots.txtの更新情報を知らせましょう。「送信」ボタンをクリックするとダイアログが開きますので、3つ目の項目にある「Google に更新をリクエスト」の「送信」を押して完了です。


robots.txt作成時に注意すべき点

ここからはrobots.txtを作成する際の注意点をご説明します。

注意するべき3点


01 : クロール拒否はnoindex目的で使用してはいけない

robots.txtにdisallowの指定をすると、クロールのアクセスを制御することができるため、基本的にはインデックスされることはありません。

しかし、他ページにdisallow対象のページへのリンクが設置されている場合に、インデックスされてしまう可能性があります。絶対にインデックスさせたくないページには、head内に以下の様にnoindexを使用しましょう。

noindexを促すrobotsメタタグ


02 : 全ページクロール拒否しないようにする

robots.txtを作成する上で最も危険な行為が、全ページをクロール拒否してしまうことです。以下の記述は、クロールを全て拒否してしまうため、絶対に使用しないようにしてください。

robots.txtを設定した際には、上記の記述をしていないかどうかをチェックしましょう。


03 : インデックスさせたくないページをクロール拒否する

不要なページをインデックスさせないために、robotsメタタグでnoindexの指定したページをDisallowでクロール拒否をしてはいけません。クローラーはnoindexの記述を確認する必要があります。既に検索結果に表示されている場合、クロールを拒否されているとそのページはインデックスされ続けてしまいます。


まとめ:予想以上に影響度が大きいのでサイトリリース時に注意すること!

クロール頻度を上げる行為自体は、検索結果のランキングに直接の影響を与えることはありません。しかし、重複コンテンツなどの質の低いページが多くなることで、重要なページへのクロールが遅れてしまう可能性があります。

robots.txtを使用して、優先度の高いページへのクロールを促進し、検索ロボットに好かれるサイト構築を目指しましょう。

SEOをもっと学びたい方はこちらもチェック:SEO対策の全てを紹介!