GPTBot, Google-Extended, ClaudeBot... Les crawlers des moteurs d'IA se multiplient. Voici la liste complète pour identifier ces robots, comprendre leur fonctionnement et contrôler leur accès à votre site web.
Pourquoi cette liste est essentielle
Avec l'explosion de l'IA générative, de nombreux crawlers parcourent le web pour collecter des données d'entraînement. Contrairement aux robots des moteurs de recherche traditionnels, ces crawlers peuvent avoir un impact différent sur votre site et soulever des questions éthiques et légales concernant l'utilisation de votre contenu.
À savoir : Certains crawlers comme Google-Extended et GPTBot permettent aux webmasters de contrôler explicitement l'utilisation de leur contenu pour l'entraînement des modèles d'IA via le fichier robots.txt.
Liste complète des crawlers IA
Voici le tableau récapitulatif des principaux crawlers utilisés par les entreprises d'IA :
| Nom du Crawler | Propriétaire | Description | User-Agent |
|---|---|---|---|
| Amazonbot | Amazon | Utilisé pour crawler le web afin d'enrichir les services Amazon, notamment les réponses d'Alexa, l'IA de Fire OS et les recommandations de produits. | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) |
| Anthropic-ai | Anthropic | Crawler d'entraînement pour la collecte de données d'entraînement pour ses modèles. | Mozilla/5.0 (compatible; anthropic-ai/1.0; +http://www.anthropic.com/bot.html) |
| Applebot | Apple | Crawler principal de recherche. Indexe le web pour les services Apple comme Siri et les suggestions Spotlight. | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot) |
| Bingbot | Microsoft | Crawler hybride (recherche + entraînement). Les données sont utilisées pour l'indexation de recherche et pour entraîner les modèles de Microsoft (Copilot). | Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) |
| Bytespider | ByteDance (TikTok) | Utilisé pour entraîner les LLM de ByteDance (ex: Doubao). Collecte texte, images et vidéo pour divers algorithmes. | Pas de chaîne fixe, le token Bytespider est inclus dans un User-Agent de navigateur standard. |
| CCBot | Common Crawl | Source de données publique. Ses données sont une source majeure pour l'entraînement de nombreux LLM (OpenAI, Meta, etc.). | CCBot/2.0 (+https://commoncrawl.org/bot.html) |
| ChatGPT-User | OpenAI | Déclenché lorsqu'un utilisateur de ChatGPT demande d'analyser une URL spécifique (fonctionnalité "Browse with Bing"). | Pas de User-Agent unique ; utilise un User-Agent de navigateur standard. |
| ClaudeBot | Anthropic | Crawler principal pour l'entraînement. Collecte du contenu web pour améliorer et entraîner les modèles génératifs d'Anthropic. | ClaudeBot/1.0; +https://www.anthropic.com |
| Google-Extended | Crawler pour l'entraînement des modèles Gemini. Permet aux éditeurs de contrôler si leur contenu peut être utilisé. | Le token est Google-Extended. Pas de chaîne User-Agent distincte. | |
| GPTBot | OpenAI | Crawler principal pour l'entraînement. Collecte des données sur le web pour entraîner les futurs modèles de langage d'OpenAI. | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) |
| Meta-ExternalAgent | Meta | Crawler principal pour l'entraînement. Collecte du contenu web pour l'entraînement des modèles d'IA de Meta (comme Llama). | meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler) |
| PerplexityBot | Perplexity AI | Crawler pour l'indexation (RAG). Indexe le web pour construire et alimenter le moteur de réponses de Perplexity. | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot) |
Comment contrôler l'accès des crawlers IA
Vous pouvez utiliser le fichier robots.txt de votre site pour autoriser ou bloquer l'accès à certains crawlers :
User-agent: GPTBot
Disallow: /
# Autoriser GPTBot mais exclure certains dossiers
User-agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /private/
# Bloquer Google-Extended pour l'entraînement des modèles IA
User-agent: Google-Extended
Disallow: /
# Autoriser Google-Extended
User-agent: Google-Extended
Allow: /
# Bloquer CCBot de Common Crawl
User-agent: CCBot
Disallow: /
Attention : Certains crawlers comme Perplexity utilisent également des user-agents génériques imitant des navigateurs standards pour contourner les blocages via robots.txt. Le contrôle total peut nécessiter des mesures supplémentaires.
Les différents types de crawlers IA
Crawlers d'entraînement
Ces robots collectent des données pour améliorer les modèles d'IA :
- GPTBot (OpenAI) - Pour l'entraînement des futurs modèles GPT
- Google-Extended - Pour l'entraînement des modèles Gemini
- ClaudeBot (Anthropic) - Pour l'entraînement des modèles Claude
- Meta-ExternalAgent - Pour l'entraînement des modèles Llama
Crawlers de requête utilisateur
Ces agents sont déclenchés lorsqu'un utilisateur demande l'analyse d'une URL spécifique :
- ChatGPT-User - Lorsqu'un utilisateur de ChatGPT utilise "Browse with Bing"
- Claude-User - Lorsqu'un utilisateur de Claude demande l'analyse d'une page
- Gemini-User - Équivalent pour Google Gemini
Crawlers d'indexation (RAG)
Ces robots indexent le web pour améliorer les réponses des assistants IA :
- PerplexityBot - Pour le moteur de réponses de Perplexity
- Claude-SearchBot - Pour les résultats de recherche de Claude
- YouBot - Pour les réponses de You.com
Recommandations pour les webmasters
Face à cette prolifération de crawlers IA, voici quelques conseils :
- Auditez régulièrement vos logs pour identifier quels crawlers visitent votre site
- Utilisez robots.txt pour contrôler l'accès selon vos préférences
- Considérez l'impact SEO - certains crawlers peuvent affecter la performance de votre site
- Protégez votre contenu premium - bloquez l'accès aux sections payantes ou exclusives
- Restez informé - de nouveaux crawlers apparaissent régulièrement
La gestion des crawlers IA devient un aspect essentiel de la stratégie web. En comprenant qui accède à votre contenu et dans quel but, vous pouvez prendre des décisions éclairées sur l'utilisation de vos données pour l'entraînement des modèles d'intelligence artificielle.