SEO & Sadržaj

Kontrola pristupa AI botova

Analizirajte robots.txt datoteku vaše web stranice; pogledajte status pristupa GPTBot-a, ClaudeBot-a, Perplexity-ja i 17 drugih AI crawlera u stvarnom vremenu.

Kontrola pristupa AI botova
Bijela i crna lista

U vezi sa kontrolom pristupa AI botova

Kompanije koje se bave umjetnom inteligencijom (OpenAI, Anthropic, Google, Meta, Amazon i druge) koriste specijalizirane botove za pretraživanje weba i obuku AI modela ili za obavljanje pretraga u stvarnom vremenu. Ovi botovi pristupaju vašoj web stranici, robots.txt Ovo je određeno pravilima u vašoj datoteci. Međutim, vidjeti koji su botovi dozvoljeni, a koji blokirani na jednom mjestu je prilično komplicirano.

Alat za kontrolu pristupa AI Bot provjerava web stranicu koju posjećujete. robots.txt Preuzima datoteku sa servera u realnom vremenu i automatski analizira status 17 različitih AI pretraživača: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot i Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent i FacebookBot (Meta); DuckAssistBot i cohere-ai. Za svakog bota... Ovlašteno, Onemogućeno ili Nije navedeno (zadana dozvola) Njihov status možete vidjeti pomoću oznaka u boji.

Ekran s rezultatima također uključuje opciju za automatsko isključivanje AI botova. robots.txt Također su dati primjeri pravila. Možete ga koristiti i za istraživanje pravila bilo koje web stranice ako niste vlasnik web stranice. Svi upiti su na strani servera; zahtjevi se šalju samo na javne IP adrese, blokovi lokalnih i privatnih mreža su blokirani iz sigurnosnih razloga.

Kako ga koristiti?

Korak po korak

  1. Unesite naziv domene ili puni URL (na primjer) primjer.com ili https://example.com).
  2. Provjeri Kliknite na dugme; alat će biti na sajtu. robots.txt Preuzima datoteku.
  3. Za svakog AI bota Ovlašteno, Onemogućeno ili Neodređeno Pogledajte svoj status pomoću šarenih znački.
  4. Ako je potrebno, možete kopirati gotova pravila s dna stranice na svoju web-lokaciju. robots.txt Dodajte ga u datoteku.
ČPP

Često postavljana pitanja

Datoteka robots.txt je standardni protokol koji govori web pretraživačima kojim stranicama mogu pristupiti. Kompanije koje se bave umjetnom inteligencijom obavezuju se da će osigurati da se njihovi botovi za prikupljanje podataka pridržavaju ove datoteke. Ispravno konfiguriranje datoteke je najbrži način da spriječite ulazak vašeg sadržaja u skupove podataka za obuku umjetne inteligencije ili da se koristi u pretragama umjetne inteligencije u stvarnom vremenu.

Ako vaša robots.txt datoteka nema specifično pravilo za tog bota, a blok `Korisnički agent: * (svi botovi)` ne sadrži nikakva ograničenja, bot se smatra da ima dozvoljen pristup prema zadanim postavkama. To znači da ćete morati dodati prilagođeno pravilo ako želite blokirati bota.

Ne, robots.txt je tehnički protokol ljubaznosti; nije zakonski zahtjev. Dok se ozbiljni botovi kompanija koje se bave umjetnom inteligencijom obavezuju da će poštovati ova pravila, zlonamjerni pretraživači ih mogu ignorisati. Za osjetljiv sadržaj preporučuje se poduzimanje dodatnih mjera kao što su kontrola pristupa i autentifikacija.

Google-Extended je poseban ID pretraživača koji Google koristi za razvoj AI proizvoda kao što su Gemini i AI Overviews. Odvojen je od redovnog Googleovog bota za pretraživanje (Googlebot); samo ako je ovaj bot blokiran, vaša web stranica će se nastaviti pojavljivati u rezultatima Google pretrage.

Common Crawl je projekat web arhive otvorenog koda, a mnogi glavni jezički modeli (uključujući GPT-3/4) koristili su podatke CCBota za obuku. Blokiranje CCBota može smanjiti količinu vašeg sadržaja koji će ući u buduće modele umjetne inteligencije otvorenog koda.