SEO и садржај

Контрола приступа AI ботом

Анализирајте robots.txt датотеку вашег сајта; погледајте статус приступа GPTBot-а, ClaudeBot-а, Perplexity-ја и 17 других AI претраживача у реалном времену.

Име домена или URL

Информације

У вези са контролом приступа AI ботова

Компаније за вештачку интелигенцију (OpenAI, Anthropic, Google, Meta, Amazon и друге) користе специјализоване ботове за претраживање веба и тренирање вештачких модела или обављање претрага у реалном времену. Ови ботови приступају вашем сајту, роботс.тxт Ово је одређено правилима у вашој датотеци. Међутим, видети који су ботови дозвољени, а који блокирани на једном месту је прилично компликовано.

Алатка за контролу приступа AI Bot проверава веб локацију коју посећујете. роботс.тxт Преузима датотеку са сервера у реалном времену и аутоматски анализира статус 17 различитих AI претраживача: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot и Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent и FacebookBot (Meta); DuckAssistBot и cohere-ai. За сваког бота... Овлашћено, Онемогућено или Није наведено (подразумевана дозвола) Њихов статус можете видети помоћу обојених значки.

Екран са резултатима такође укључује опцију спремну за искључивање за AI ботове. роботс.тxт Такође су дати примери правила. Можете га користити и за истраживање смерница било којег сајта ако нисте власник сајта. Сви упити су на страни сервера; захтеви се шаљу само на јавне ИП адресе, локалне и приватне мрежне блокаде су блокиране из безбедносних разлога.

Како га користити?

Корак по корак

Унесите име домена или пуну URL адресу (на пример) еxампле.цом или https://example.com).
Провери Кликните на дугме; алат ће бити на сајту. роботс.тxт Преузима датотеку.
За сваког AI бота Овлашћено, Онемогућено или Неодређено Погледајте свој статус помоћу шарених значки.
Ако је потребно, можете копирати готова правила са дна странице на свој сајт. роботс.тxт Додајте га у датотеку.

Фејсбук

Често постављана питања

Датотека robots.txt је стандардни протокол који говори веб претраживачима којим страницама могу да приступе. Компаније које се баве вештачком интелигенцијом обавезују се да ће осигурати да се њихови ботови за прикупљање података придржавају ове датотеке. Правилно конфигурисање датотеке је најбржи начин да спречите да ваш садржај уђе у скупове података за обуку вештачке интелигенције или да се користи у претрагама вештачке интелигенције у реалном времену.

Ако ваша датотека robots.txt нема посебно правило за тог бота, а блок `User-agent: * (сви ботови)` не садржи никаква ограничења, бот се подразумевано сматра дозвољеним приступом. То значи да ћете морати да додате прилагођено правило ако желите да блокирате бота.

Не, robots.txt је технички протокол љубазности; није законски захтев. Иако се ботови озбиљних компанија за вештачку интелигенцију обавезују да ће поштовати ова правила, злонамерни претраживачи их могу игнорисати. За осетљив садржај препоручује се предузимање додатних мера као што су контрола приступа и аутентификација.

Google-Extended је посебан ИД претраживача који Google користи за развој AI производа као што су Gemini и AI Overviews. Одвојен је од обичног Google бота за претрагу (Googlebot); само ако је овај бот блокиран, ваша веб страница ће наставити да се појављује у резултатима Google претраге.

Common Crawl је пројекат веб архиве отвореног кода, а многи главни језички модели (укључујући GPT-3/4) су користили податке CCBot-а за обуку. Блокирање CCBot-а може смањити количину вашег садржаја који ће ући у будуће моделе вештачке интелигенције отвореног кода.

Врати се на све бесплатне алате

Контрола приступа AI ботом

У вези са контролом приступа AI ботова

Корак по корак

Често постављана питања

Зашто је robots.txt важна?

Шта значи статус „Неодређено“?

Да ли су правила robots.txt правно обавезујућа?

Шта је Google-Extended?

Зашто је CCBot (Common Crawl) на овој листи?