SEO y contenido

Control de Acceso de Bots de IA

Analiza el archivo robots.txt de tu sitio web; consulta el estado de acceso de GPTBot, ClaudeBot, Perplexity y otros 17 rastreadores de IA en tiempo real.

Control de Acceso de Bots de IA
Información

En relación con el control de acceso de los bots de IA

Las empresas de IA (OpenAI, Anthropic, Google, Meta, Amazon y más) utilizan bots especializados para rastrear la web y entrenar modelos de IA o realizar búsquedas en tiempo real. Estos bots acceden a su sitio, robots.txt Esto viene determinado por las reglas de tu archivo. Sin embargo, consultar en un solo lugar qué bots están permitidos y cuáles están bloqueados resulta bastante engorroso.

La herramienta de control de acceso mediante bots de IA verifica el sitio web que está visitando. robots.txt Recupera el archivo del servidor en tiempo real y analiza automáticamente el estado de 17 rastreadores de IA diferentes: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot y Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent y FacebookBot (Meta); DuckAssistBot y cohere-ai. Para cada bot... Autorizado, Desactivado o No especificado (permiso predeterminado) Puedes ver su estado mediante insignias de colores.

La pantalla de resultados también incluye una opción para desactivar por completo los bots de IA. robots.txt También se proporcionan ejemplos de reglas. Si no eres el propietario del sitio, puedes usarlo para consultar la política de cualquier sitio web. Todas las consultas se realizan en el servidor; las solicitudes solo se envían a direcciones IP públicas, y se bloquean las direcciones de red locales y privadas por motivos de seguridad.

¿Cómo usarlo?

Paso a paso

  1. Introduzca el nombre de dominio o la URL completa (por ejemplo) ejemplo.com o https://example.com).
  2. Controlar Haz clic en el botón; la herramienta estará disponible en el sitio web. robots.txt Recupera el archivo.
  3. Para cada bot de IA Autorizado, Desactivado o Sin especificar Consulta tu estado con insignias de colores.
  4. Si es necesario, puede copiar las reglas predefinidas que se encuentran al final de la página y pegarlas en su sitio web. robots.txt Añádelo al archivo.
Preguntas frecuentes

Preguntas frecuentes

El archivo robots.txt es un protocolo estándar que indica a los rastreadores web a qué páginas pueden acceder. Las empresas de IA se comprometen a garantizar que sus bots de recopilación de datos cumplan con este archivo. Configurar correctamente el archivo es la forma más rápida de evitar que tu contenido se incluya en conjuntos de datos de entrenamiento de IA o se utilice en búsquedas de IA en tiempo real.

Si tu archivo robots.txt no tiene una regla específica para ese bot y el bloque `User-agent: * (all bots)` no contiene ninguna restricción, el bot se considera con acceso permitido por defecto. Esto significa que tendrás que añadir una regla personalizada si quieres bloquearlo.

No, robots.txt es un protocolo de cortesía técnica; no es un requisito legal. Si bien los bots de empresas de IA serias se comprometen a seguir estas reglas, los rastreadores maliciosos pueden ignorarlas. Para contenido sensible, se recomienda tomar medidas adicionales como el control de acceso y la autenticación.

Google-Extended es un identificador de rastreador especial que Google utiliza para desarrollar productos de IA como Gemini y AI Overviews. Es independiente del bot de búsqueda habitual de Google (Googlebot); solo si se bloquea este bot, su página web seguirá apareciendo en los resultados de búsqueda de Google.

Common Crawl es un proyecto de archivo web de código abierto, y muchos modelos de lenguaje importantes (incluidos GPT-3/4) han utilizado datos de CCBot para su entrenamiento. Bloquear CCBot puede reducir la cantidad de contenido que se incorporará a futuros modelos de IA de código abierto.