SEO & Inhoud

AI Bot Toegangskontrole

Analiseer jou webwerf se robots.txt-lêer; sien die toegangsstatus van GPTBot, ClaudeBot, Perplexity en 17 ander KI-kruipers intyds.

AI Bot Toegangskontrole
Inligting

Aangaande KI-bottoegangsbeheer

KI-maatskappye (OpenAI, Anthropic, Google, Meta, Amazon, en meer) gebruik gespesialiseerde robotte om die web te deursoek en KI-modelle op te lei of intydse soektogte uit te voer. Hierdie robotte verkry toegang tot jou webwerf, robots.txt Dit word bepaal deur die reëls in jou lêer. Dit is egter nogal omslagtig om te sien watter robotte toegelaat word en watter op een plek geblokkeer word.

Die KI Bot Toegangsbeheer-instrument verifieer die webwerf wat jy besoek. robots.txt Dit haal die lêer intyds van die bediener op en analiseer outomaties die status van 17 verskillende KI-kruipers: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot en Perplexity-User (Perplexity); Google-Extended (Gemini/KI-oorsig); Applebot-Extended; CCBot (Algemene kruip); Bytespider (TikTok); Amazonbot; meta-externalagent en FacebookBot (Meta); DuckAssistBot en cohere-ai. Vir elke bot... Gemagtig, Gestremd of Nie gespesifiseer nie (standaardtoestemming) Jy kan hul status met gekleurde kentekens sien.

Die resultateskerm bevat ook 'n gereed-om-af te skakel-opsie vir KI-botte. robots.txt Voorbeeldreëls word ook verskaf. Jy kan dit ook gebruik om die beleid van enige webwerf te ondersoek as jy nie die webwerf-eienaar is nie. Alle navrae is bedienerkant; versoeke word slegs na publieke IP-adresse gestuur, plaaslike en private netwerkblokke word om sekuriteitsredes geblokkeer.

Hoe om dit te gebruik?

Stap vir stap

  1. Voer die domeinnaam of die volledige URL in (byvoorbeeld) voorbeeld.com of https://example.com).
  2. Kontroleer Klik op die knoppie; die instrument sal op die webwerf wees. robots.txt Dit haal die lêer op.
  3. Vir elke KI-bot Gemagtig, Gestremd of Ongespesifiseerd Bekyk jou status met kleurvolle kentekens.
  4. Indien nodig, kan u die gereedgemaakte reëls onderaan die bladsy na u webwerf kopieer. robots.txt Voeg dit by die lêer.
Gereelde Vrae

Gereelde vrae

robots.txt is 'n standaardprotokol wat webkruipers vertel watter bladsye hulle kan besoek. KI-maatskappye verbind hulle daartoe om te verseker dat hul data-insamelingsrobotte by hierdie lêer hou. Die korrekte konfigurasie van die lêer is die vinnigste manier om te verhoed dat jou inhoud KI-opleidingsdatastelle binnegaan of in intydse KI-soektogte gebruik word.

As jou robots.txt-lêer nie 'n spesifieke reël vir daardie bot het nie, en die `User-agent: * (all bots)`-blok geen beperkings bevat nie, word die bot standaard as toegangsregte beskou. Dit beteken dat jy 'n persoonlike reël moet byvoeg as jy die bot wil blokkeer.

Nee, robots.txt is 'n tegniese hoflikheidsprotokol; dit is nie 'n wetlike vereiste nie. Terwyl ernstige KI-maatskappye se robotte hulle daartoe verbind om hierdie reëls te volg, kan kwaadwillige kruipers dit ignoreer. Vir sensitiewe inhoud word dit aanbeveel om bykomende maatreëls soos toegangsbeheer en verifikasie te tref.

Google-Extended is 'n spesiale kruiper-ID wat Google gebruik om KI-produkte soos Gemini en KI Overviews te ontwikkel. Dit is apart van die gewone Google-soekbot (Googlebot); slegs as hierdie bot geblokkeer is, sal jou webblad steeds in Google-soekresultate verskyn.

Common Crawl is 'n oopbron-webargiefprojek, en baie groot taalmodelle (insluitend GPT-3/4) het CCBot-data vir opleiding gebruik. Die blokkering van CCBot kan die hoeveelheid van jou inhoud wat toekomstige oopbron-KI-modelle sal binnegaan, verminder.