SEO och innehåll

AI-botåtkomstkontroll

Analysera din webbplats robots.txt fil; Få en realtidsöversikt över åtkomststatusen för GPTBot, ClaudeBot, Perplexity och 17 andra AI-webbläsare.

AI-botåtkomstkontroll
Information

Om AI-botåtkomstkontroll

AI-företag (OpenAI, Anthropic, Google, Meta, Amazon och fler) använder specialiserade botar för att genomsöka webben och träna AI-modeller eller utföra omedelbara sökningar i innehåll. Dessa botars tillgång till din sida, robots.txt bestäms av reglerna i din fil. Det är dock ganska svårt att se vilken bot som är tillåten och vilken som är blockerad på ett ställe.

AI-botens åtkomstkontrollverktyg låter dig komma åt sidan du besöker robots.txt Den hämtar sin fil i realtid via servern och analyserar automatiskt statusen för 17 olika AI-crawlers: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (antropisk); PerplexityBot och Perplexity-User (Perplexity); Google-Extended (Gemini/AI-översikt); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent och FacebookBot (Meta); DuckAssistBot och cohere-ai. För varje bot På permission, Funktionsnedsatt eller Ospecificerad (standardbehörighet) Du kan se statusen med färgade märken.

Resultatskärmen visar också att man ska stänga av AI-botar helt robots.txt Exempel på regler presenteras också. Om du inte är webbplatsägare kan du också använda den för att undersöka policyn för vilken sida som helst. Hela frågan är server-sided; Endast förfrågningar skickas till publika IP-adresser, lokala och privata nätverksblock blockeras av säkerhetsskäl.

Hur använder man?

Steg för steg

  1. Ange domännamnet eller hela URL:en (till exempel, example.com eller https://example.com).
  2. Check knapp; Fordonsplats robots.txt fil.
  3. För varje AI-bot På permission, Funktionsnedsatt eller Ej specificerat Se dess status med färgglada märken.
  4. Om det behövs, kopiera de färdiga reglerna längst ner på sidan för att skapa din webbplats robots.txt fil.
FAQ

Vanliga frågor

robots.txt är ett standardprotokoll som talar om för webbläsare vilka sidor de kan komma åt. AI-företag förbinder sig att säkerställa att deras datainsamlingsrobotar följer denna fil. Att strukturera filen korrekt är det snabbaste sättet att förhindra att ditt innehåll hamnar i AI-träningsdataset eller används i omedelbara AI-sökningar.

Om din robots.txt fil inte har en specifik regel för den boten, och blockeringen User-agent: * (alla bots) inte innehåller någon begränsning, anses boten ha tillgång som standard. Det betyder att om du vill blockera boten måste du lägga till en anpassad regel.

Nej, robots.txt är ett tekniskt artighetsprotokoll; Det är ingen juridisk skyldighet. Medan bottar från seriösa AI-företag förbinder sig att följa dessa regler, kan illvilliga crawlers blunda. Det är rekommenderat att vidta ytterligare åtgärder såsom åtkomstkontroll och autentisering för känsligt innehåll.

Google-Extended är det exklusiva webbläsar-ID som Google använder för att utveckla sina AI-produkter, såsom Gemini och AI Overviews. Den är separat från den vanliga Google-sökboten (Googlebot); endast om denna bot blockeras kommer din webbsida att fortsätta att visas i Googles sökresultat.

Common Crawl är ett öppen källkodsprojekt för webbarkiv, och många stora språkmodeller (inklusive GPT-3/4) har använt CCBot-data för träning. Att blockera CCBot kan minska att ditt innehåll hamnar i framtida open source-AI-modeller.