SEO & Съдържание

Контрол на достъпа за AI ботове

Анализирайте файла robots.txt на вашия сайт; вижте състоянието на достъп на GPTBot, ClaudeBot, Perplexity и 17 други роботи с изкуствен интелект в реално време.

Контрол на достъпа за AI ботове
Информация

Относно контрола на достъпа на ботове с изкуствен интелект

Компаниите, занимаващи се с изкуствен интелект (OpenAI, Anthropic, Google, Meta, Amazon и други), използват специализирани ботове за обхождане на мрежата и обучение на модели с изкуствен интелект или за извършване на търсения в реално време. Тези ботове имат достъп до вашия сайт, robots.txt Това се определя от правилата във вашия файл. Въпреки това, виждането кои ботове са разрешени и кои са блокирани на едно място е доста тромаво.

Инструментът за контрол на достъпа с изкуствен интелект (AI Bot Access Control) проверява уебсайта, който посещавате. robots.txt Той извлича файла от сървъра в реално време и автоматично анализира състоянието на 17 различни AI роботи: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot и Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent и FacebookBot (Meta); DuckAssistBot и cohere-ai. За всеки бот... Упълномощен, За хора с увреждания или Не е посочено (разрешение по подразбиране) Можете да видите техния статус с цветни значки.

Екранът с резултати включва и опция за готовност за изключване на AI ботове. robots.txt Предоставени са и примерни правила. Можете да го използвате и за проучване на политиката на който и да е сайт, ако не сте собственикът му. Всички заявки са от страна на сървъра; заявките се изпращат само до публични IP адреси, локалните и частните мрежови блокировки са блокирани от съображения за сигурност.

Как да го използвам?

Стъпка по стъпка

  1. Въведете името на домейна или пълния URL адрес (например) example.com или https://example.com).
  2. Проверете Кликнете върху бутона; инструментът ще бъде на сайта. robots.txt Той извлича файла.
  3. За всеки AI бот Упълномощен, За хора с увреждания или Неопределено Вижте състоянието си с цветни значки.
  4. Ако е необходимо, можете да копирате готовите правила в долната част на страницата на вашия сайт. robots.txt Добавете го към файла.
ЧЗВ

Често задавани въпроси

robots.txt е стандартен протокол, който казва на уеб роботите до кои страници могат да имат достъп. Компаниите, занимаващи се с изкуствен интелект, се ангажират да гарантират, че техните ботове за събиране на данни се придържат към този файл. Правилното конфигуриране на файла е най-бързият начин да предотвратите навлизането на вашето съдържание в набори от данни за обучение на изкуствен интелект или използването му в търсения с изкуствен интелект в реално време.

Ако вашият robots.txt файл няма специфично правило за този бот и блокът `User-agent: * (all bots)` не съдържа никакви ограничения, ботът се счита за такъв с разрешен достъп по подразбиране. Това означава, че ще трябва да добавите персонализирано правило, ако искате да блокирате бота.

Не, robots.txt е технически протокол за учтивост; не е законово изискване. Въпреки че сериозните ботове на компаниите за изкуствен интелект се ангажират да спазват тези правила, злонамерените роботи могат да ги игнорират. За чувствително съдържание се препоръчва да се предприемат допълнителни мерки, като например контрол на достъпа и удостоверяване.

Google-Extended е специален идентификатор на робот, който Google използва за разработване на продукти с изкуствен интелект, като Gemini и AI Overviews. Той е отделен от обикновения бот за търсене на Google (Googlebot); само ако този бот е блокиран, вашата уеб страница ще продължи да се показва в резултатите от търсенето с Google.

Common Crawl е проект с отворен код за уеб архивиране и много основни езикови модели (включително GPT-3/4) са използвали данни от CCBot за обучение. Блокирането на CCBot може да намали количеството на вашето съдържание, което ще влезе в бъдещи модели с изкуствен интелект с отворен код.