GPTBot, ClaudeBot, PerplexityBot : gérer les crawlers IA sur votre site en 2026
En mars 2025, les crawlers IA généraient 50 milliards de requêtes par jour chez Cloudflare. Guide complet pour identifier, autoriser ou bloquer ces robots — et comprendre ce que chaque choix implique pour votre visibilité GEO.
En mars 2025, Cloudflare a publié un chiffre qui a surpris beaucoup de webmasters : les crawlers IA généraient 50 milliards de requêtes par jour sur son réseau, soit près de 1 % de tout le trafic web mondial observé (HUMAN Security, 2026). Ce trafic machine ne génère aucune session GA4, n’achète rien, ne commente pas — mais il détermine directement si votre site sera cité dans les réponses de ChatGPT, Perplexity ou Claude demain matin.
La plupart des propriétaires de site n’ont jamais réfléchi à leur politique vis-à-vis de ces robots. Voici tout ce qu’il faut savoir pour prendre une décision informée.
Deux types de crawlers IA : une distinction critique
Avant toute configuration, il faut comprendre que les crawlers IA se divisent en deux catégories fonctionnellement très différentes (No Hacks, 2026) :
Les crawlers d’entraînement
Ils collectent du contenu pour alimenter les futurs modèles. Votre texte peut finir dans les données d’entraînement de GPT-7, d’un futur Claude ou d’un modèle tiers. Le rapport entre le nombre de pages crawlées et le nombre de citations directes est très élevé — ClaudeBot affiche un ratio de 38 065 pages crawlées pour 1 citation (Prominara, 2026).
Les principaux : GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended, CCBot (Common Crawl), Bytespider (ByteDance).
Les crawlers de recherche et de réponse
Ils récupèrent du contenu en temps réel ou quasi-réel pour alimenter les réponses IA actuelles. Ce sont eux qui déterminent si votre site est cité dans une réponse Perplexity ou dans un résultat ChatGPT avec SearchGPT. Bloquer ces crawlers, c’est vous rendre invisible aux moteurs de recherche IA.
Les principaux : OAI-SearchBot (SearchGPT), ChatGPT-User (navigation temps réel), PerplexityBot, Claude-User.
En 2026, le trafic total des crawlers IA se répartit ainsi (Lumina SEO, 2026) :
- 89,4 % — crawlers d’entraînement
- 8 % — crawlers de recherche IA
- 2,6 % — agents agentiques (navigateurs comme Atlas et Comet)
La liste complète des user-agents à connaître
| Crawler | Éditeur | Type | Respecte robots.txt |
|---|---|---|---|
| GPTBot | OpenAI | Entraînement | ✅ Oui |
| OAI-SearchBot | OpenAI | Recherche (SearchGPT) | ✅ Oui |
| ChatGPT-User | OpenAI | Navigation temps réel | ✅ Oui |
| ClaudeBot | Anthropic | Entraînement | ✅ Oui |
| Claude-User | Anthropic | Navigation temps réel | ✅ Oui |
| PerplexityBot | Perplexity | Recherche + entraînement | ✅ Oui |
| Google-Extended | Entraînement Gemini | ✅ Oui | |
| Google-Agent | Navigation (Gemini Live) | ❌ Non | |
| Applebot-Extended | Apple | Entraînement | ✅ Oui |
| Amazonbot | Amazon | Entraînement Alexa | ✅ Oui |
| CCBot | Common Crawl | Entraînement | ✅ Oui |
| Bytespider | ByteDance | Entraînement | ⚠️ Variable |
Point d’attention : Anthropic a déprécié ses anciens user-agents Claude-Web et anthropic-ai. Les sites qui bloquent uniquement ces chaînes ne bloquent plus rien côté Anthropic depuis fin 2025. Le user-agent actif est ClaudeBot (Mersel AI, 2026).
Autre point d’attention : Google-Agent (ajouté à la liste officielle Google en mars 2026) est un fetcher déclenché par l’utilisateur — il ignore robots.txt. Le bloquer nécessite une authentification serveur, pas une règle robots.txt.
Les 3 stratégies de configuration
Stratégie A — Tout autoriser
# robots.txt - tout autoriser (aucune règle IA spécifique)
User-agent: *
Allow: /
Pour qui : sites qui veulent maximiser leur visibilité dans tous les moteurs IA, sans se préoccuper de l’utilisation de leur contenu pour l’entraînement. Sites d’actualité, blogs, annuaires — toute entité dont la priorité est la citation.
Risque : vos textes peuvent alimenter l’entraînement de modèles concurrents ou tiers sans compensation.
Stratégie B — Bloquer l’entraînement, autoriser la recherche (la plus répandue en 2026)
# Bloquer les crawlers d'entraînement
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Applebot-Extended
Disallow: /
# Autoriser les crawlers de recherche IA (déjà autorisés par défaut)
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
Pour qui : la majorité des entreprises. Vous restez visible dans les moteurs IA, mais vous refusez que votre contenu serve à entraîner de futurs modèles sans votre accord. C’est la stratégie recommandée par la plupart des praticiens GEO en 2026 (The GEO Community, 2026).
Attention : si vous bloquez ClaudeBot (entraînement) mais autorisez Claude-User (navigation), Claude peut toujours citer votre site en réponse à des requêtes — il ne le fera juste pas depuis son corpus d’entraînement mais depuis sa navigation en temps réel.
Stratégie C — Bloquer tous les crawlers IA
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
Pour qui : sites de presse sous paywall, cabinets juridiques ou médicaux avec données sensibles, éditeurs de contenu premium qui négocient des licences avec les LLM. Ou sites qui préfèrent simplement ne pas alimenter l’IA.
Conséquence directe : une étude de début 2026 indique que les sites bloquant GPTBot sont cités 73 % moins souvent dans les réponses ChatGPT que des sites comparables qui l’autorisent (Dev.to, 2026). Si la visibilité GEO est un objectif, c’est un coût lourd.
Les erreurs courantes de configuration
1. Bloquer des user-agents obsolètes
Claude-Web, anthropic-ai, Bard — ces chaînes sont déprécié ou ne sont plus utilisées. Une règle qui les bloque ne fait rien. Vérifiez que vous ciblez bien les user-agents actifs en 2026.
2. Le CDN qui écrase robots.txt
Cloudflare, Fastly et AWS CloudFront ont leurs propres règles de filtrage des bots qui peuvent silencieusement remplacer votre robots.txt. Si votre CDN a une règle “bloquer tous les bots inconnus”, vos crawlers IA légitimes peuvent être bloqués sans que vous le sachiez — et votre site disparaît des moteurs IA sans explication apparente. Vérifiez vos règles WAF/bot management explicitement (Open Shadow, 2026).
3. Confondre robots.txt et protection réelle
robots.txt est un fichier de politesse, pas un pare-feu. Les bots bien élevés (GPTBot, ClaudeBot, PerplexityBot) le respectent. Les scrapers malveillants l’ignorent. Selon une analyse récente, 5,7 % des requêtes présentant un user-agent de crawler IA connu sont en réalité des requêtes usurpées (HUMAN Security, 2026). Pour une protection réelle, la vérification d’IP reverse DNS et les WAF sont nécessaires.
4. Configurer une fois et oublier
L’industrie IA lance de nouveaux crawlers régulièrement, et les user-agents existants changent parfois. Une revue trimestrielle de votre robots.txt est recommandée. Sources à suivre : Search Engine Journal, la documentation officielle de chaque éditeur (OpenAI, Anthropic, Google Developers).
Vérifier que vos crawlers arrivent bien
Pour s’assurer que vos robots.txt sont correctement appliqués, trois méthodes :
- Google Search Console → Rapport de couverture → Inspecter une URL → Vérifier les crawlers autorisés.
- Logs serveur : filtrer les User-Agents sur
GPTBot,ClaudeBot,PerplexityBotpour confirmer les accès ou blocages. - Test manuel : l’outil
robots.txt Testerde Google Search Console permet de simuler l’accès d’un user-agent donné à une URL.
Pour les crawlers IA qui ne sont pas Googlebot, il n’existe pas d’outil officiel équivalent — les logs restent la méthode la plus fiable.
La question des méta-tags
Outre robots.txt, deux méta-tags HTML permettent un contrôle plus granulaire :
<!-- Bloquer l'indexation et le suivi de liens pour tous les robots -->
<meta name="robots" content="noindex, nofollow">
<!-- Bloquer spécifiquement GPTBot sur cette page -->
<meta name="GPTBot" content="noindex">
Utilité concrète : bloquer un crawler IA sur des pages spécifiques (CGV, mentions légales, espace client) tout en restant visible sur vos pages de contenu. Plus granulaire que robots.txt, qui s’applique à des chemins entiers.
Ce que ça change pour votre stratégie GEO
Si la visibilité dans les moteurs IA est votre objectif (c’est le cœur du GEO), la règle est simple : les crawlers de recherche doivent pouvoir accéder à vos pages. Bloquer OAI-SearchBot et PerplexityBot, c’est vous rendre invisible dans SearchGPT et Perplexity — deux des moteurs les plus utilisés en 2026.
Pour les crawlers d’entraînement, le choix est plus nuancé et relève autant d’une décision de politique éditoriale que de stratégie GEO. La visibilité à court terme plaide pour les autoriser (vos données enrichissent le modèle, qui vous cite plus). La valeur de votre contenu et la question de la compensation plaident pour les bloquer.
Le bon arbitrage pour la plupart des sites : Stratégie B — bloquer l’entraînement, autoriser la recherche. Vous gardez votre visibilité IA sans nourrir gratuitement les corpus d’entraînement.
Liens utiles
- Votre
robots.txtactuel :votresite.fr/robots.txt - Documentation OpenAI crawlers : platform.openai.com/docs/gptbot
- Documentation Anthropic : anthropic.com/claude-bot
- Checker robots.txt : Google Search Console → Outils d’inspection
Pour aller plus loin
Prêt à améliorer votre visibilité IA ?
Testez votre score GEO gratuitement ou trouvez un expert dans votre ville.