SEO & Indhold

AI Bot adgangskontrol

Analysér din hjemmesides robots.txt-fil; se adgangsstatus for GPTBot, ClaudeBot, Perplexity og 17 andre AI-crawlere i realtid.

AI Bot adgangskontrol
Information

Vedrørende adgangskontrol til AI-botter

AI-virksomheder (OpenAI, Anthropic, Google, Meta, Amazon og flere) bruger specialiserede bots til at crawle nettet og træne AI-modeller eller udføre søgninger i realtid. Disse bots får adgang til dit websted, robots.txt Dette bestemmes af reglerne i din fil. Det er dog ret besværligt at se, hvilke bots der er tilladt, og hvilke der er blokeret, på ét sted.

AI Bot Access Control-værktøjet verificerer det websted, du besøger. robots.txt Den henter filen fra serveren i realtid og analyserer automatisk status for 17 forskellige AI-crawlere: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot og Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent og FacebookBot (Meta); DuckAssistBot og cohere-ai. For hver bot... Autoriseret, Handicappet eller Ikke angivet (standardtilladelse) Du kan se deres status med farvede badges.

Resultatskærmen indeholder også en mulighed for at slukke AI-bots. robots.txt Der gives også eksempler på regler. Du kan også bruge den til at undersøge politikken for ethvert websted, hvis du ikke er webstedets ejer. Alle forespørgsler er serverside; anmodninger sendes kun til offentlige IP-adresser, lokale og private netværksblokeringer blokeres af sikkerhedsmæssige årsager.

Hvordan bruger man det?

Trin for trin

  1. Indtast domænenavnet eller den fulde URL (for eksempel) eksempel.com eller https://example.com).
  2. Check Klik på knappen; værktøjet vil være på webstedet. robots.txt Den henter filen.
  3. For hver AI-bot Autoriseret, Handicappet eller Uspecificeret Se din status med farverige badges.
  4. Om nødvendigt kan du kopiere de færdige regler nederst på siden til dit websted. robots.txt Tilføj det til filen.
FAQ

Ofte stillede spørgsmål

robots.txt er en standardprotokol, der fortæller webcrawlere, hvilke sider de kan tilgå. AI-virksomheder forpligter sig til at sikre, at deres dataindsamlingsrobotter overholder denne fil. Korrekt konfiguration af filen er den hurtigste måde at forhindre, at dit indhold kommer ind i AI-træningsdatasæt eller bruges i AI-søgninger i realtid.

Hvis din robots.txt-fil ikke har en specifik regel for den pågældende bot, og blokken `User-agent: * (all bots)` ikke indeholder nogen begrænsninger, betragtes botten som standard som tilladt adgang. Det betyder, at du skal tilføje en brugerdefineret regel, hvis du vil blokere botten.

Nej, robots.txt er en teknisk høflighedsprotokol; det er ikke et juridisk krav. Selvom seriøse AI-virksomheders bots forpligter sig til at følge disse regler, kan ondsindede crawlere ignorere dem. For følsomt indhold anbefales det at træffe yderligere foranstaltninger såsom adgangskontrol og godkendelse.

Google-Extended er et særligt crawler-ID, som Google bruger til at udvikle AI-produkter som Gemini og AI Overviews. Det er adskilt fra den almindelige Google-søgebot (Googlebot); kun hvis denne bot er blokeret, vil din webside fortsat blive vist i Googles søgeresultater.

Common Crawl er et open source-webarkivprojekt, og mange større sprogmodeller (herunder GPT-3/4) har brugt CCBot-data til træning. Blokering af CCBot kan reducere mængden af dit indhold, der vil blive inkluderet i fremtidige open source AI-modeller.