robots.txtでGooglebotをブロックすると、”Googlebot” で始まるすべてのロボットがブロックされる・・・

久しぶりにGoogle ウェブマスターツールを見てみると、kanshin.mobiの携帯サイトクロールエラーに相変わらず「robots.txt により制限された URL」が頻発していた。普通のGooglebotだけをブロックして携帯サイト向けクローラーは許可しているがどうもおかしい。ヘルプを探していると見つけたのがこれ。

Googlebot をブロックすると、”Googlebot” で始まるすべてのロボットがブロックされます。

  • Googlebot: ウェブ インデックスと Google ニュース インデックスからページをクロールします。
  • Googlebot-Mobile: 携帯サイト インデックスのページをクロールします。
  • Googlbot-Image: イメージ検索のインデックスのページをクロールします。
  • Mediapartners-Google: ページをクロールして AdSense のコンテンツを確認します。 このロボットは、お客様が AdSense の広告をサイトに掲載する場合にのみ、サイトをクロールするために使用されます。
  • Adsbot-Google: ページをクロールして、アドワーズ広告のリンク先ページの品質を評価します。このロボットは、お客様が Google アドワーズ広告を使用してサイトを広告する場合にのみ使用されます。

ウェブマスター向けヘルプ センター – Googlebot をブロックするにはどうすればよいですか。

robots.txt 解析でGooglebot-Mobileもテスト対象にしたときに、結果が「許可」。この表示を信じていたのが間違いだったようで。

robots.txt 解析結果

ということで、実際設定するには以下のように。ただトラップ有りのような気がします。

Googlebot をブロックして、Googlebot-Mobile など他の Google ロボットを許可する場合、Allow ルールを使用して特定のロボットにアクセスを許可することができます。 たとえば、次のように指定します。

User-Agent: Googlebot
Disallow: /
User-Agent: Googlebot-Mobile:
Allow:

User-Agent: Googlebot-Mobile:と書かれていますが、英語のヘルプを見るとUser-Agent: Googlebot-Mobileとなっているので、最後のコロンはいらない可能性があります。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中