SEO & Inhoud

AI Bot Toegangscontrole

Analyseer het robots.txt-bestand van uw site; bekijk de toegangsstatus van GPTBot, ClaudeBot, Perplexity en 17 andere AI-crawlers in realtime.

AI Bot Toegangscontrole
Informatie

Met betrekking tot toegangscontrole voor AI-bots

AI-bedrijven (OpenAI, Anthropic, Google, Meta, Amazon en meer) gebruiken gespecialiseerde bots om het web te crawlen en AI-modellen te trainen of realtime zoekopdrachten uit te voeren. Deze bots hebben toegang tot uw site, robots.txt Dit wordt bepaald door de regels in je bestand. Het is echter nogal omslachtig om op één plek te zien welke bots zijn toegestaan en welke geblokkeerd.

De AI Bot Access Control-tool verifieert de website die u bezoekt. robots.txt Het haalt het bestand in realtime van de server op en analyseert automatisch de status van 17 verschillende AI-crawlers: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot en Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent en FacebookBot (Meta); DuckAssistBot en cohere-ai. Voor elke bot... Geautoriseerd, Gehandicapt of Niet gespecificeerd (standaardtoestemming) Je kunt hun status zien aan de hand van gekleurde badges.

Het resultatenscherm bevat ook een instelling om AI-bots volledig uit te schakelen. robots.txt Er worden ook voorbeeldregels gegeven. Je kunt het ook gebruiken om het beleid van een website te onderzoeken als je niet de eigenaar van die website bent. Alle query's worden aan de serverzijde uitgevoerd; verzoeken worden alleen naar openbare IP-adressen verzonden. Lokale en privénetwerken worden om veiligheidsredenen geblokkeerd.

Hoe gebruik ik het?

Stap voor stap

  1. Voer de domeinnaam of de volledige URL in (bijvoorbeeld) voorbeeld.com of https://example.com).
  2. Rekening Klik op de knop; de tool verschijnt dan op de website. robots.txt Het haalt het bestand op.
  3. Voor elke AI-bot Geautoriseerd, Gehandicapt of Niet gespecificeerd Bekijk je status met kleurrijke badges.
  4. Indien nodig kunt u de kant-en-klare regels onderaan de pagina naar uw eigen site kopiëren. robots.txt Voeg het toe aan het bestand.
FAQ

Veelgestelde vragen

robots.txt is een standaardprotocol dat webcrawlers vertelt welke pagina's ze mogen bezoeken. AI-bedrijven verplichten zich ertoe ervoor te zorgen dat hun dataverzamelende bots zich aan dit bestand houden. Het correct configureren van het bestand is de snelste manier om te voorkomen dat uw content in AI-trainingsdatasets terechtkomt of wordt gebruikt in realtime AI-zoekopdrachten.

Als uw robots.txt-bestand geen specifieke regel voor die bot bevat en het blok `User-agent: * (alle bots)` geen beperkingen bevat, wordt de bot standaard als toegestaan beschouwd. Dit betekent dat u een aangepaste regel moet toevoegen als u de bot wilt blokkeren.

Nee, robots.txt is een technisch protocol, geen wettelijke verplichting. Hoewel bots van serieuze AI-bedrijven zich aan deze regels houden, kunnen kwaadwillende crawlers ze negeren. Voor gevoelige content is het aan te raden extra maatregelen te nemen, zoals toegangscontrole en authenticatie.

Google-Extended is een speciale crawler-ID die Google gebruikt voor de ontwikkeling van AI-producten zoals Gemini en AI Overviews. Deze ID staat los van de reguliere Google-zoekbot (Googlebot); uw webpagina zal alleen in de Google-zoekresultaten verschijnen als deze bot geblokkeerd is.

Common Crawl is een open-source webarchiefproject, en veel belangrijke taalmodellen (waaronder GPT-3/4) hebben CCBot-gegevens gebruikt voor training. Door CCBot te blokkeren, kunt u de hoeveelheid van uw content die in toekomstige open-source AI-modellen terechtkomt, verminderen.