SEO e Conteúdo

Controle de acesso de bot de IA

Analise o arquivo robots.txt do seu site; veja o status de acesso do GPTBot, ClaudeBot, Perplexity e outros 17 rastreadores de IA em tempo real.

Nome de domínio ou URL

Informação

Em relação ao controle de acesso de bots de IA

Empresas de IA (OpenAI, Anthropic, Google, Meta, Amazon e outras) usam bots especializados para rastrear a web e treinar modelos de IA ou realizar buscas em tempo real. Esses bots acessam seu site, robots.txt Isso é determinado pelas regras do seu arquivo. No entanto, visualizar em um único lugar quais bots são permitidos e quais são bloqueados é bastante trabalhoso.

A ferramenta de Controle de Acesso do Bot de IA verifica o site que você está visitando. robots.txt Ele recupera o arquivo do servidor em tempo real e analisa automaticamente o status de 17 diferentes rastreadores de IA: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot e Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent e FacebookBot (Meta); DuckAssistBot e cohere-ai. Para cada bot... Autorizado, Desabilitado ou Não especificado (permissão padrão) Você pode ver o status deles com distintivos coloridos.

A tela de resultados também inclui uma opção para desativar os bots de IA. robots.txt Regras de exemplo também são fornecidas. Você também pode usá-lo para pesquisar a política de qualquer site, mesmo que não seja o proprietário. Todas as consultas são feitas no servidor; as solicitações são enviadas apenas para endereços IP públicos, e os bloqueios de redes locais e privadas são bloqueados por motivos de segurança.

Como usar?

Passo a passo

Insira o nome do domínio ou o URL completo (por exemplo) exemplo.com ou https://example.com).
Verificar Clique no botão; a ferramenta estará disponível no site. robots.txt Ele recupera o arquivo.
Para cada bot de IA Autorizado, Desabilitado ou Não especificado Veja seu status com distintivos coloridos.
Se necessário, você pode copiar as regras prontas que estão na parte inferior da página para o seu site. robots.txt Adicione-o ao arquivo.

FAQ

Perguntas frequentes

O arquivo robots.txt é um protocolo padrão que informa aos rastreadores da web quais páginas eles podem acessar. Empresas de IA se comprometem a garantir que seus bots de coleta de dados sigam esse arquivo. Configurar o arquivo corretamente é a maneira mais rápida de impedir que seu conteúdo entre em conjuntos de dados de treinamento de IA ou seja usado em buscas de IA em tempo real.

Se o seu arquivo robots.txt não tiver uma regra específica para esse bot e o bloco `User-agent: * (todos os bots)` não contiver nenhuma restrição, o bot será considerado como tendo acesso permitido por padrão. Isso significa que você precisará adicionar uma regra personalizada se quiser bloquear o bot.

Não, o robots.txt é um protocolo técnico de cortesia; não é uma exigência legal. Embora os bots de empresas de IA sérias se comprometam a seguir essas regras, rastreadores maliciosos podem ignorá-las. Para conteúdo sensível, recomenda-se tomar medidas adicionais, como controle de acesso e autenticação.

O Google Extended é um ID de rastreador especial que o Google usa para desenvolver produtos de IA como o Gemini e o AI Overviews. Ele é diferente do robô de busca comum do Google (Googlebot); somente se esse robô for bloqueado é que sua página continuará aparecendo nos resultados de busca do Google.

O Common Crawl é um projeto de arquivamento da web de código aberto, e muitos dos principais modelos de linguagem (incluindo o GPT-3/4) usaram dados do CCBot para treinamento. Bloquear o CCBot pode reduzir a quantidade de conteúdo seu que será utilizada em futuros modelos de IA de código aberto.

Voltar a todas as ferramentas gratuitas

Controle de acesso de bot de IA

Em relação ao controle de acesso de bots de IA

Passo a passo

Perguntas frequentes

Por que o arquivo robots.txt é importante?

O que significa o status "Não especificado"?

As regras do robots.txt têm força legal?

O que é o Google Extended?

Por que o CCBot (Common Crawl) está nesta lista?