SEO & Obsah

Kontrola přístupu AI botů

Analyzujte soubor robots.txt vašeho webu; v reálném čase zobrazte stav přístupu GPTBot, ClaudeBot, Perplexity a 17 dalších robotů s umělou inteligencí.

Kontrola přístupu AI botů
Informace

Ohledně kontroly přístupu botů s umělou inteligencí

Společnosti zabývající se umělou inteligencí (OpenAI, Anthropic, Google, Meta, Amazon a další) používají specializované boty k procházení webu a trénování modelů umělé inteligence nebo k provádění vyhledávání v reálném čase. Tito boti přistupují k vašemu webu, Soubor robots.txt To je určeno pravidly ve vašem souboru. Nicméně vidět, kteří boti jsou povoleni a kteří blokováni na jednom místě, je poměrně složité.

Nástroj pro kontrolu přístupu botů s umělou inteligencí ověřuje webovou stránku, kterou navštěvujete. Soubor robots.txt Načítá soubor ze serveru v reálném čase a automaticky analyzuje stav 17 různých robotů s umělou inteligencí: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot a Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent a FacebookBot (Meta); DuckAssistBot a cohere-ai. Pro každého bota... Autorizovaný, Zakázáno nebo Neuvedeno (výchozí oprávnění) Jejich stav můžete vidět pomocí barevných odznaků.

Obrazovka s výsledky také obsahuje možnost automatického vypnutí pro AI roboty. Soubor robots.txt Jsou zde také uvedena příkladová pravidla. Můžete je také použít k prozkoumání zásad libovolného webu, pokud nejste jeho vlastníkem. Všechny dotazy jsou na straně serveru; požadavky jsou odesílány pouze na veřejné IP adresy, blokování v místních a privátních sítích je z bezpečnostních důvodů blokováno.

Jak to používat?

Krok za krokem

  1. Zadejte název domény nebo celou URL adresu (například) example.com nebo https://example.com).
  2. Kontrola Klikněte na tlačítko; nástroj bude na webu. Soubor robots.txt Načte soubor.
  3. Pro každého bota s umělou inteligencí Autorizovaný, Zakázáno nebo Nespecifikováno Zobrazte si svůj stav pomocí barevných odznaků.
  4. V případě potřeby si můžete hotová pravidla ze spodní části stránky zkopírovat na svůj web. Soubor robots.txt Přidejte to do souboru.
FAQ

Často kladené otázky

Soubor robots.txt je standardní protokol, který sděluje webovým robotům, ke kterým stránkám mají přístup. Společnosti zabývající se umělou inteligencí se zavazují zajistit, aby jejich roboti shromažďující data tento soubor dodržovali. Správná konfigurace souboru je nejrychlejší způsob, jak zabránit tomu, aby se váš obsah dostal do trénovacích datových sad umělé inteligence nebo aby byl použit ve vyhledávání umělé inteligence v reálném čase.

Pokud váš soubor robots.txt neobsahuje pro daného bota specifické pravidlo a blok `User-agent: * (all bots)` neobsahuje žádná omezení, je bot ve výchozím nastavení považován za osobu s povoleným přístupem. To znamená, že pokud chcete bota zablokovat, budete muset přidat vlastní pravidlo.

Ne, soubor robots.txt je technický protokol zdvořilosti; není to zákonný požadavek. Zatímco se boti seriózních společností zabývajících se umělou inteligencí zavazují k dodržování těchto pravidel, škodliví roboti je mohou ignorovat. U citlivého obsahu se doporučuje přijmout další opatření, jako je řízení přístupu a ověřování.

Google-Extended je speciální ID prohledávače, které Google používá k vývoji produktů s umělou inteligencí, jako jsou Gemini a AI Overviews. Je oddělené od běžného vyhledávacího robota Google (Googlebot); vaše webová stránka se bude ve výsledcích vyhledávání Google nadále zobrazovat pouze v případě, že je tento robot zablokován.

Common Crawl je open-source projekt webového archivu a mnoho hlavních jazykových modelů (včetně GPT-3/4) používá data CCBot pro trénování. Blokování CCBot může snížit množství vašeho obsahu, který se dostane do budoucích open-source modelů umělé inteligence.