SEO i sadržaj

AI bot kontrola pristupa

Analizirajte robots.txt datoteku vaše stranice; Dobijte uvid u stvarnom vremenu statusa pristupa GPTBot-a, ClaudeBot-a, Perplexity-ja i još 17 AI preglednika.

AI bot kontrola pristupa
Informacije

O AI Bot Kontroli pristupa

AI tvrtke (OpenAI, Anthropic, Google, Meta, Amazon i druge) koriste specijalizirane botove za pretraživanje weba i treniranje AI modela ili izvođenje trenutnih pretraga sadržaja. Pristup ovih botova vašoj stranici, robots.txt Određeno pravilima u vašem dosjeu. Međutim, prilično je teško vidjeti koji je bot dopušten, a koji blokiran na jednom mjestu.

AI Bot Access Control alat omogućuje vam pristup stranici na koju ulazite robots.txt On u stvarnom vremenu povlači svoju datoteku od strane poslužitelja i automatski analizira status 17 različitih AI crawlera: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, antrop-ai, Claude-Web (antropski); PerplexityBot i Perplexity-User (Perplexity); Google-Extended (Gemini/AI pregled); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent i FacebookBot (Meta); DuckAssistBot i cohere-ai. Za svakog bota Na dopustu, Onemogućeno ili Nespecificirano (zadana dozvola) Status možete vidjeti s obojenim značkama.

Na ekranu s rezultatima također piše da se AI botovi potpuno isključe robots.txt Predstavljeni su i primjeri pravila. Ako niste vlasnik stranice, možete je koristiti i za istraživanje pravila bilo koje stranice. Cijeli upit je na strani poslužitelja; Zahtjevi se šalju samo na javne IP adrese, lokalni i privatni mrežni blokovi su blokirani iz sigurnosnih razloga.

Kako koristiti?

Korak po korak

  1. Unesite naziv domene ili puni URL (na primjer, example.com ili https://example.com).
  2. Provjera gumb; Lokacija vozila robots.txt datoteka.
  3. Za svakog AI bota Na dopustu, Onemogućeno ili Nije specificirano Pogledajte njegov status po šarenim značkama.
  4. Ako je potrebno, kopirajte gotova pravila na dnu stranice kako biste kreirali svoje web stranice robots.txt datoteka.
Često postavljana pitanja

Često postavljana pitanja

robots.txt je standardni protokol koji web preglednikima govori koje stranice mogu pristupiti. AI tvrtke obvezuju se osigurati da njihovi botovi za prikupljanje podataka budu u skladu s ovom datotekom. Ispravno strukturiranje datoteke najbrži je način da spriječite da vaš sadržaj uđe u AI trening skupove podataka ili da se koristi u instant AI pretraživanjima.

Ako vaša robots.txt datoteka nema specifično pravilo za tog bota, a blok User-agent: * (svi botovi) ne sadrži ograničenje, bot se po defaultu smatra dopuštenim pristupom. To znači da, ako želite blokirati bota, morate dodati prilagođeno pravilo.

Ne, robots.txt je tehnički protokol pristojnosti; To nije zakonska obveza. Dok se botovi ozbiljnih AI tvrtki obvezuju pridržavati tih pravila, zlonamjerni crawleri mogu zatvarati oči. Preporučuje se poduzeti dodatne mjere poput kontrole pristupa i autentifikacije za osjetljiv sadržaj.

Google-Extended je ekskluzivni ID preglednika koji Google koristi za razvoj svojih AI proizvoda, poput Gemini i AI Overviews. Odvojen je od običnog Google pretraživačkog bota (Googlebot); samo ako je ovaj bot blokiran, vaša web stranica će se i dalje pojavljivati u rezultatima pretraživanja na Googleu.

Common Crawl je open-source projekt web arhive, a mnogi veliki jezični modeli (uključujući GPT-3/4) koristili su CCBot podatke za treniranje. Blokiranje CCBot-a može smanjiti ulazak vašeg sadržaja u buduće open-source AI modele.