SEO & Contenu

Contrôle d'accès des bots IA

Analysez le fichier robots.txt de votre site ; visualisez en temps réel l’état d’accès de GPTBot, ClaudeBot, Perplexity et de 17 autres robots d’exploration IA.

Contrôle d'accès des bots IA
Informations

Concernant le contrôle d'accès des bots IA

Les entreprises spécialisées en IA (OpenAI, Anthropic, Google, Meta, Amazon, etc.) utilisent des robots spécialisés pour explorer le Web et entraîner des modèles d'IA ou effectuer des recherches en temps réel. Ces robots accèdent à votre site. robots.txt Cela dépend des règles définies dans votre fichier. Cependant, il est assez fastidieux de voir quels bots sont autorisés et lesquels sont bloqués en un seul endroit.

L'outil de contrôle d'accès par bot IA vérifie le site web que vous visitez. robots.txt Il récupère le fichier depuis le serveur en temps réel et analyse automatiquement l'état de 17 robots d'exploration IA différents : GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI) ; ClaudeBot, anthropic-ai, Claude-Web (Anthropic) ; PerplexityBot et Perplexity-User (Perplexity) ; Google-Extended (Gemini/AI Overview) ; Applebot-Extended ; CCBot (Common Crawl) ; Bytespider (TikTok) ; Amazonbot ; meta-externalagent et FacebookBot (Meta) ; DuckAssistBot et cohere-ai. Pour chaque bot… Autorisé, Désactivé ou Non spécifié (autorisation par défaut) Vous pouvez consulter leur statut grâce à des badges de couleur.

L'écran des résultats comprend également une option permettant de désactiver les bots d'IA. robots.txt Des exemples de règles sont également fournis. Vous pouvez aussi l'utiliser pour consulter la politique de n'importe quel site, même si vous n'en êtes pas le propriétaire. Toutes les requêtes sont traitées côté serveur ; elles sont uniquement envoyées aux adresses IP publiques, les blocs de réseaux locaux et privés étant bloqués pour des raisons de sécurité.

Comment l'utiliser ?

Pas à pas

  1. Saisissez le nom de domaine ou l'URL complète (par exemple) exemple.com ou https://example.com).
  2. Vérifier Cliquez sur le bouton ; l'outil sera disponible sur le site. robots.txt Il récupère le fichier.
  3. Pour chaque bot d'IA Autorisé, Désactivé ou Indéterminé Visualisez votre statut grâce à des badges colorés.
  4. Si nécessaire, vous pouvez copier les règles préétablies figurant en bas de page sur votre site. robots.txt Ajoutez-le au fichier.
FAQ

Foire aux questions

Le fichier robots.txt est un protocole standard qui indique aux robots d'exploration web les pages auxquelles ils peuvent accéder. Les entreprises spécialisées en IA s'engagent à ce que leurs robots de collecte de données respectent ce fichier. Configurer correctement ce fichier est le moyen le plus rapide d'empêcher que votre contenu ne soit intégré aux ensembles de données d'entraînement des IA ou utilisé dans des recherches d'IA en temps réel.

Si votre fichier robots.txt ne contient pas de règle spécifique pour ce bot, et que le bloc `User-agent: * (all bots)` ne comporte aucune restriction, le bot est autorisé par défaut. Vous devrez donc ajouter une règle personnalisée si vous souhaitez le bloquer.

Non, le fichier robots.txt est une simple recommandation technique ; il n'est pas obligatoire. Si les robots des entreprises d'IA sérieuses s'engagent à respecter ces règles, les robots malveillants peuvent les ignorer. Pour les contenus sensibles, il est recommandé de prendre des mesures supplémentaires telles que le contrôle d'accès et l'authentification.

Google-Extended est un identifiant de robot d'exploration spécifique utilisé par Google pour développer des produits d'IA comme Gemini et les Vues d'ensemble de l'IA. Il est distinct du robot de recherche Google classique (Googlebot) ; votre page web continuera d'apparaître dans les résultats de recherche Google uniquement si ce dernier est bloqué.

Common Crawl est un projet d'archivage web open source, et de nombreux modèles de langage majeurs (dont GPT-3/4) ont utilisé les données de CCBot pour leur entraînement. Bloquer CCBot peut réduire la quantité de votre contenu qui alimentera les futurs modèles d'IA open source.