SEO & Contenuto

Controllo accesso AI Bot

Analizza il file robots.txt del tuo sito; visualizza in tempo reale lo stato di accesso di GPTBot, ClaudeBot, Perplexity e altri 17 crawler basati sull'intelligenza artificiale.

Controllo accesso AI Bot
Informazioni

Riguardo al controllo degli accessi dei bot di intelligenza artificiale

Le aziende di IA (OpenAI, Anthropic, Google, Meta, Amazon e altre) utilizzano bot specializzati per scansionare il web e addestrare modelli di IA o eseguire ricerche in tempo reale. Questi bot accedono al tuo sito, robots.txt Questo è determinato dalle regole presenti nel tuo file. Tuttavia, visualizzare in un unico posto quali bot sono consentiti e quali bloccati è piuttosto macchinoso.

Lo strumento di controllo degli accessi basato su bot AI verifica il sito web che stai visitando. robots.txt Recupera il file dal server in tempo reale e analizza automaticamente lo stato di 17 diversi crawler AI: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot e Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent e FacebookBot (Meta); DuckAssistBot e cohere-ai. Per ogni bot... Autorizzato, Disabile O Non specificato (autorizzazione predefinita) È possibile visualizzare il loro stato tramite badge colorati.

La schermata dei risultati include anche un'opzione per disattivare i bot basati sull'intelligenza artificiale. robots.txt Sono disponibili anche esempi di regole. Puoi usarlo anche per esaminare le policy di qualsiasi sito se non ne sei il proprietario. Tutte le query vengono eseguite lato server; le richieste vengono inviate solo a indirizzi IP pubblici, mentre i blocchi di rete locali e private sono bloccati per motivi di sicurezza.

Come si usa?

Passo dopo passo

  1. Inserisci il nome del dominio o l'URL completo (ad esempio) example.com O https://example.com).
  2. Controllo Fai clic sul pulsante; lo strumento sarà disponibile sul sito. robots.txt Recupera il file.
  3. Per ogni bot IA Autorizzato, Disabile O Non specificato Visualizza il tuo stato con badge colorati.
  4. Se necessario, puoi copiare le regole predefinite che trovi in fondo alla pagina e incollarle sul tuo sito. robots.txt Aggiungilo al file.
FAQ

Domande frequenti

Il file robots.txt è un protocollo standard che indica ai crawler web a quali pagine possono accedere. Le aziende che si occupano di intelligenza artificiale si impegnano a garantire che i loro bot di raccolta dati rispettino questo file. Configurare correttamente il file è il modo più rapido per impedire che i propri contenuti vengano utilizzati nei dataset di addestramento dell'IA o nelle ricerche in tempo reale basate sull'IA.

Se il file robots.txt non contiene una regola specifica per quel bot e il blocco `User-agent: * (all bots)` non include alcuna restrizione, per impostazione predefinita si considera che il bot abbia accesso consentito. Ciò significa che, se si desidera bloccare il bot, sarà necessario aggiungere una regola personalizzata.

No, robots.txt è un protocollo di cortesia tecnica; non è un requisito legale. Sebbene i bot delle aziende di intelligenza artificiale più serie si impegnino a seguire queste regole, i crawler malevoli potrebbero ignorarle. Per i contenuti sensibili, si consiglia di adottare misure aggiuntive come il controllo degli accessi e l'autenticazione.

Google-Extended è uno speciale ID di crawling che Google utilizza per sviluppare prodotti basati sull'intelligenza artificiale come Gemini e AI Overviews. È distinto dal normale bot di ricerca di Google (Googlebot); solo se quest'ultimo viene bloccato, la tua pagina web continuerà ad apparire nei risultati di ricerca di Google.

Common Crawl è un progetto di archiviazione web open source e molti importanti modelli linguistici (inclusi GPT-3/4) hanno utilizzato i dati di CCBot per l'addestramento. Bloccare CCBot può ridurre la quantità dei tuoi contenuti che verranno utilizzati in futuri modelli di intelligenza artificiale open source.