PINTO!株式会社PLAN-Bの情報発信メディア

2020.09.14

五十嵐 和希

SEO SOLUTION

robots.txtとは|クローラー制御・XMLサイトマップの場所指定の方法

WRITER

五十嵐 和希

株式会社PLAN-B システム開発本部 PDMチーム

大手広告主企業での広告宣伝部、総合広告代理店でのプロモーション部を経験し、PLAN-Bへ入社。
企業のオウンドメディア立ち上げ支援や自社開発DMP「Juicer」のマーケティング責任者を担う。
現在は自社開発プロダクト「SEARCHWRITE」のプロダクトオーナーとしてPMFに向けた活動を担当している。

目次
    1.  robots.txtとは?設定する効果は?
      1. robots.txtを設定する効果
    2.  robots.txtの作り方
      1.  robots.txtの書き方
        1. User-Agent
        2. Disallow
        3. Sitemap
        4. Allow
    3. robots.txt作成時に注意すべき点
      1. 01 : クロール拒否はnoindex目的で使用してはいけない
      2. 02 : 全ページクロール拒否しないようにする
      3. 03 : インデックスさせたくないページをクロール拒否する
    4.  robots.txtの設置方法
    5. WordPressはrobots.txtに便利なプラグインがある
      1. WordPress Robots.txt File
    6. サーチコンソールの送信方法
    7. まとめ:影響度が大きいrobots.txtはサイトリリース時に要注意!

サイト上のクロールされたくないコンテンツを制御するファイルであるrobots.txt。

robots.txtが適切に設定されていることで、重要度の高いコンテンツが優先的にクロールされ、サイト全体のSEOにも良い効果があると言われています。

robots.txtを使用していないと、必要の無いページまで検索エンジンにクロールさせて、サイト全体のクオリティを下げている可能性が高いです。

必要の無いページまで検索エンジンにクロールさせていないでしょうか。SEOを考慮する上で重要な役割を担うrobots.txtですが、未だに設置すらされていないWebサイトが多くみられます。

そこで今回は、robots.txtの正しい設定方法と、その役割についてご紹介します。


 robots.txtとは?設定する効果は?

robots.txtとは、収集されたくないコンテンツをGoogleといった検索エンジンによってクロールされないよう制御するファイルを指します。

一般的にはクロールされることは良いと捉えられることから、「WEBページにある全てのコンテンツはクロールされた方がいいのでは?」と考える人もいるかもしれません。

しかし、会員限定のコンテンツやショッピングカート、またシステム的にやむを得ず自動で生成されてしまう重複ページなどはクロールさせることで、かえってサイト全体のSEOに影響が出ることがあるのです。

robots.txtを設定する効果

robots.txtを導入することで、無駄なページへのクロールを制限でき、重要なコンテンツへのクロールが優先されるようになります。

その結果、WEBサイト全体のSEOにも効果的だとされています。

robots.txtとは


 robots.txtの作り方

robots.txtは非常に強い指定のため、誤った記述をしてしまうとWebサイトに重大な問題を引き起こす危険性があります。

せっかく良質なコンテンツを作成しても、誤ったrobots.txtの作成によって上手くクロールされなかったらもったいないですよね。

そのような事態に陥らないためにも、適切なrobots.txtの記述方法を知ることが大切です。

これからrobots.txtの正しい書き方についてご説明します。


 robots.txtの書き方

まずは、robots.txtの基本の書き方の例をご覧ください。

上記の様な形でtxtファイルに記述をします。各記述の説明は以下の通りです。


User-Agent

User-Agentという記述は対応する検索ロボットを意味します。

*を使用した場合は、全ての検索エンジンロボットを指定することができます。

Googleのクローラーのみを指定したい場合は「User-Agent:googlebot」と記述し、その他特定のクローラーを指定する際には、それぞれに対応した記述をしましょう。


Disallow

Disallowという記述はアクセスの拒否を行う際に使用します。

上記の例の様に、Disallow:の後に何も記述をしなければ、アクセスが拒否されることはありません。

使用方法としては、Disallow:の後にアクセスを拒否したいルートディレクトリ、またはファイル名を指定します。

例えば、http://example.com/login/の/login/以下のページ全てに対してアクセスを拒否する場合は「Disallow:/login/」と記述します。

また、ルートディレクトリ以外にもパラメータ付きURLに対するアクセス拒否も可能です。その場合は「Disallow:/*?example=*」のexampleの部分をそれぞれのパラメータに変更してご利用ください。

このようにクロールの必要が無いページに対しては、Disallowを記述し、クロールの制御を行いましょう。よく行われている例としてはログインURLなどが対象になります。Wordpressの管理画面のURL(例aaa.com/wp-admin)をクロール拒否しているサイトは多数あります。


Sitemap

Sitemapは、Sitemap.xmlを設置しているページを絶対パスで指定できる記述です。

Sitemap.xmlを記述することで、検索エンジンに対しsitemap.xmlの存在を伝えることができます。

特に設定しておかなくても、勝手に検索エンジンロボットはクロールしてくれますが、robots.txtに記述しておくことで余計なページを巡回させずに済みます。robots.txtを利用して、クローラーに快適な巡回をさせてあげましょう。


Allow

書き方の例には記載しておりませんが、Allowという記述をすることでアクセスの許可を促すことができます。

ただ何も記載しない状態がアクセス許可を意味するため、この指定を使用する機会は少ないでしょう。


robots.txt作成時に注意すべき点

robots.txtの作成方法がわかったところで、実際に作成する場合に注意すべきポイントを3点ご説明します。
注意するべき3点


01 : クロール拒否はnoindex目的で使用してはいけない

1つ目は、クロール拒否はnoindex(インデックスされない)目的で使用してはいけないことです。あくまでクロール拒否はクロールを拒否する役割であり、インデックスが防げるわけではないためです。

robots.txtにdisallowの指定をすると、クロールのアクセスを制御することができるため、基本的にはインデックスされることはありません。

しかし、他ページにdisallow対象のページへのリンクが設置されている場合に、インデックスされてしまう可能性があります。

絶対にインデックスさせたくないページには、head内に以下の様にnoindexを使用しましょう。

noindexを促すrobotsメタタグ


02 : 全ページクロール拒否しないようにする

2つ目の注意点は、全ページをクロール拒否しないようにすることです。

robots.txtを作成する上で最も危険な行為が、全ページをクロール拒否してしまうこと。

以下の記述は、クロールを全て拒否してしまうため、絶対に使用しないようにしてください。

robots.txtを設定した際には、上記の記述をしていないかどうかをチェックしましょう。


03 : インデックスさせたくないページをクロール拒否する

3つ目は、インデックスさせたくないページのクロール拒否を忘れないという点です。

不要なページをインデックスさせないために、robotsメタタグでnoindexの指定したページをDisallowでクロール拒否をしてはいけません。

クローラーはnoindexの記述を確認する必要があります。

既に検索結果に表示されている場合、クロールを拒否されているとそのページはインデックスされ続けてしまいます。


 robots.txtの設置方法

robots.txtの作成が完了したら、次はサーバーにアップロードしましょう。

アップロードする際は、サイトのトップディレクトリに設置してください。

robots.txtは各種サーバーのコントロールパネルから設置、またはFTPクライアントを利用してください。主なFTPクライアントは以下の通りです。

■Windows用

  • File Zilla
  • FFFTP(公式の開発は終了しているものの、有志でいまだにアップデートされ続けています)

■Mac用

robots.txtは、sitemap.xmlと同じ階層にアップロードしましょう。


WordPressはrobots.txtに便利なプラグインがある

WordPressサイトでは、インストールするだけでrobots.txtが自動で生成されます。

ただし、FTPクライアントなどでファイルを見ても、実際にrobots.txtファイルは存在しません。そのため、仮想robots.txtと呼ばれています。

WordPressで自動生成されたファイルは、デフォルトの状態ではログイン画面がアクセス拒否されているだけで、記述の追加修正が必要な場合があります。

その際には管理画面から修正が可能となる、便利なプラグインを利用しましょう。


WordPress Robots.txt File

プラグインの新規追加から「WordPress Robots.txt File」をインストールして、有効化します。

すると、管理画面メニューの表示設定にrobots.txtを編集できる項目が追加されますので、任意の記述を記載します。

ちなみに、プラグイン有効化前のデフォルトの状態ではSitemap: http://example.com/sitemap.xmlの記述はありませんので、忘れずに追加をしましょう。

または「Google XML Sitemaps」や「All in One SEO Pack」というプラグインをインストールすることで、自動的にXMLファイルの指定が可能です。


サーチコンソールの送信方法

robots.txtの設定が完了した後、サーチコンソールを利用して正しく設定されているかチェックします。

robots.txtテスター」を選択しプロパティを選択します。

テキストボックス内にrobots.txtを設置しているURLを記入し、テスト対象のユーザーエージェントを指定して「テスト」ボタンを押します。

テスト結果で問題が無ければ、Googleにrobots.txtの更新情報を知らせましょう。

「送信」ボタンをクリックするとダイアログが開きますので、3つ目の項目にある「Google に更新をリクエスト」の「送信」を押して完了です。


まとめ:影響度が大きいrobots.txtはサイトリリース時に要注意!

ここまでrobots.txtの正しい設定方法と、その役割について紹介しました。

クロール頻度を上げる行為自体は、検索結果のランキングに直接影響を与えることはありません。

しかし重複コンテンツなどの質の低いページが多くクロールされることで、重要なページへのクロールが遅れる可能性があります。

robots.txtを使用して、優先度の高いページへのクロールを促進し、検索アルゴリズムに好かれるサイト構築を目指しましょう。

SEOをもっと学びたい方はこちらもチェック:SEO対策の全てを紹介!
S
EOの内部対策についてはこちらもチェック:SEO内部対策を徹底解説!

SEARCH WRITE