SEO & Sadržaj

Kontrola pristupa AI botova

Анализирајте robots.txt датотеку вашег сајта; погледајте статус приступа GPTBot-а, ClaudeBot-а, Perplexity-ја и 17 других AI претраживача у реалном времену.

Kontrola pristupa AI botova
Informacije

У вези са контролом приступа AI ботова

Компаније за вештачку интелигенцију (OpenAI, Anthropic, Google, Meta, Amazon и друге) користе специјализоване ботове за претраживање веба и тренирање вештачких модела или обављање претрага у реалном времену. Ови ботови приступају вашем сајту, robots.txt Ово је одређено правилима у вашој датотеци. Међутим, видети који су ботови дозвољени, а који блокирани на једном месту је прилично компликовано.

Алатка за контролу приступа AI Bot проверава веб локацију коју посећујете. robots.txt Преузима датотеку са сервера у реалном времену и аутоматски анализира статус 17 различитих AI претраживача: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot и Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent и FacebookBot (Meta); DuckAssistBot и cohere-ai. За сваког бота... Овлашћено, Онемогућено или Није наведено (подразумевана дозвола) Њихов статус можете видети помоћу обојених значки.

Екран са резултатима такође укључује опцију спремну за искључивање за AI ботове. robots.txt Такође су дати примери правила. Можете га користити и за истраживање смерница било којег сајта ако нисте власник сајта. Сви упити су на страни сервера; захтеви се шаљу само на јавне ИП адресе, локалне и приватне мрежне блокаде су блокиране из безбедносних разлога.

Како га користити?

Корак по корак

  1. Унесите име домена или пуну URL адресу (на пример) example.com или https://example.com).
  2. Провери Кликните на дугме; алат ће бити на сајту. robots.txt Преузима датотеку.
  3. За сваког AI бота Овлашћено, Онемогућено или Неодређено Погледајте свој статус помоћу шарених значки.
  4. Ако је потребно, можете копирати готова правила са дна странице на свој сајт. robots.txt Додајте га у датотеку.
ČPP

Често постављана питања

Датотека robots.txt је стандардни протокол који говори веб претраживачима којим страницама могу да приступе. Компаније које се баве вештачком интелигенцијом обавезују се да ће осигурати да се њихови ботови за прикупљање података придржавају ове датотеке. Правилно конфигурисање датотеке је најбржи начин да спречите да ваш садржај уђе у скупове података за обуку вештачке интелигенције или да се користи у претрагама вештачке интелигенције у реалном времену.

Ако ваша датотека robots.txt нема посебно правило за тог бота, а блок `User-agent: * (сви ботови)` не садржи никаква ограничења, бот се подразумевано сматра дозвољеним приступом. То значи да ћете морати да додате прилагођено правило ако желите да блокирате бота.

Не, robots.txt је технички протокол љубазности; није законски захтев. Иако се ботови озбиљних компанија за вештачку интелигенцију обавезују да ће поштовати ова правила, злонамерни претраживачи их могу игнорисати. За осетљив садржај препоручује се предузимање додатних мера као што су контрола приступа и аутентификација.

Google-Extended је посебан ИД претраживача који Google користи за развој AI производа као што су Gemini и AI Overviews. Одвојен је од обичног Google бота за претрагу (Googlebot); само ако је овај бот блокиран, ваша веб страница ће наставити да се појављује у резултатима Google претраге.

Common Crawl је пројекат веб архиве отвореног кода, а многи главни језички модели (укључујући GPT-3/4) су користили податке CCBot-а за обуку. Блокирање CCBot-а може смањити количину вашег садржаја који ће ући у будуће моделе вештачке интелигенције отвореног кода.