ひとことで言うと
robots.txt とは、Web サイトの入口(/robots.txt)に置くテキストファイルで、クローラー(検索エンジンの巡回ボット、AI クローラー)に「どこを見ていいか」を指示 します。
具体的にどんな場面?
例えばあなたのサイトの /robots.txt に:
User-agent: GPTBot
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://example.com/sitemap.xml
と書いておくと、ChatGPT / Claude / Gemini のクローラーが「あ、このサイトは全部見ていいんだな」と理解して巡回します。
逆に Disallow: / と書くと、これらの AI クローラーから完全に締め出すことができます。
GEO 視点でのベストプラクティス
| ボット | GEO 対策での扱い |
|---|---|
| GPTBot(OpenAI / ChatGPT) | Allow ← 引用されるため必須 |
| Claude-Web(Anthropic / Claude) | Allow |
| Google-Extended(Google / Gemini) | Allow |
| PerplexityBot(Perplexity) | Allow |
| CCBot(Common Crawl) | 任意(学習データには使われる) |
基本的にすべて Allow が GEO 対策の鉄則。Disallow にすると、AI 検索で完全に見えない存在になります。
よくある間違い
- 意図せず Disallow :古いテンプレで GPTBot を Disallow している会社が多い(2024 年以前のテンプレは要見直し)
- 設定なし:設定なしだとデフォルトで Allow なので、まだマシ
- AI 系だけ Disallow:学習データに使われたくない気持ちは分かるが、引用機会も失う
関連ファイル
GEO 対策では robots.txt と並行して以下も整備:
- sitemap.xml:クローラーに巡回すべき URL を明示
- llms.txt:AI に主要コンテンツを Markdown で伝える