SEO i treść

Kontrola dostępu do botów AI

Przeanalizuj plik robots.txt swojej witryny; zobacz na bieżąco status dostępu GPTBot, ClaudeBot, Perplexity i 17 innych robotów AI.

Nazwa domeny lub adres URL

Informacje

W sprawie kontroli dostępu botów AI

Firmy zajmujące się sztuczną inteligencją (OpenAI, Anthropic, Google, Meta, Amazon i inne) używają wyspecjalizowanych botów do przeszukiwania sieci i trenowania modeli AI lub przeprowadzania wyszukiwań w czasie rzeczywistym. Te boty uzyskują dostęp do Twojej witryny, robots.txt Określają to reguły w pliku. Jednak sprawdzenie, które boty są dozwolone, a które zablokowane, w jednym miejscu jest dość uciążliwe.

Narzędzie AI Bot Access Control weryfikuje odwiedzaną witrynę. robots.txt Pobiera plik z serwera w czasie rzeczywistym i automatycznie analizuje stan 17 różnych robotów indeksujących AI: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot i Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent i FacebookBot (Meta); DuckAssistBot i cohere-ai. Dla każdego bota... Upoważniony, Wyłączony Lub Nieokreślono (uprawnienie domyślne) Ich status można sprawdzić za pomocą kolorowych odznak.

Ekran wyników zawiera również opcję umożliwiającą wyłączenie botów AI. robots.txt Dostępne są również przykładowe reguły. Możesz ich również użyć do sprawdzenia polityki dowolnej witryny, jeśli nie jesteś jej właścicielem. Wszystkie zapytania są realizowane po stronie serwera; żądania są wysyłane tylko na publiczne adresy IP, a lokalne i prywatne bloki sieciowe są blokowane ze względów bezpieczeństwa.

Jak używać?

Krok po kroku

Wprowadź nazwę domeny lub pełny adres URL (na przykład) example.com Lub https://example.com).
Sprawdzać Kliknij przycisk, a narzędzie pojawi się na stronie. robots.txt Pobiera plik.
Dla każdego bota AI Upoważniony, Wyłączony Lub Nieokreślony Zobacz swój status za pomocą kolorowych odznak.
Jeśli to konieczne, możesz skopiować gotowe zasady znajdujące się na dole strony na swoją witrynę. robots.txt Dodaj do pliku.

FAQ

Często zadawane pytania

Plik robots.txt to standardowy protokół, który informuje roboty indeksujące, do których stron mogą uzyskać dostęp. Firmy zajmujące się sztuczną inteligencją zobowiązują się do przestrzegania tego pliku przez swoje boty gromadzące dane. Prawidłowa konfiguracja pliku to najszybszy sposób, aby zapobiec przedostawaniu się treści do zbiorów danych szkoleniowych sztucznej inteligencji lub wykorzystywaniu ich w wyszukiwaniach AI w czasie rzeczywistym.

Jeśli plik robots.txt nie zawiera konkretnej reguły dla danego bota, a blok „User-agent: * (wszystkie boty)” nie zawiera żadnych ograniczeń, bot jest domyślnie uznawany za mającego dozwolony dostęp. Oznacza to, że musisz dodać niestandardową regułę, aby zablokować bota.

Nie, plik robots.txt to techniczny protokół grzecznościowy; nie jest to wymóg prawny. Chociaż boty poważnych firm zajmujących się sztuczną inteligencją zobowiązują się do przestrzegania tych zasad, złośliwe roboty mogą je zignorować. W przypadku treści wrażliwych zaleca się podjęcie dodatkowych środków, takich jak kontrola dostępu i uwierzytelnianie.

Google-Extended to specjalny identyfikator robota indeksującego, którego Google używa do tworzenia produktów opartych na sztucznej inteligencji, takich jak Gemini i AI Overviews. Jest on niezależny od zwykłego bota wyszukiwarki Google (Googlebota); Twoja strona internetowa będzie nadal wyświetlana w wynikach wyszukiwania Google tylko po zablokowaniu tego bota.

Common Crawl to projekt archiwum internetowego o otwartym kodzie źródłowym, a wiele głównych modeli językowych (w tym GPT-3/4) wykorzystało dane CCBot do trenowania. Zablokowanie CCBot może zmniejszyć ilość treści, które trafią do przyszłych modeli sztucznej inteligencji o otwartym kodzie źródłowym.

Powrót do wszystkich bezpłatnych narzędzi

Kontrola dostępu do botów AI

W sprawie kontroli dostępu botów AI

Krok po kroku

Często zadawane pytania

Dlaczego plik robots.txt jest ważny?

Co oznacza status „Nieokreślony”?

Czy zasady zawarte w pliku robots.txt są prawnie wiążące?

Czym jest Google-Extended?

Dlaczego CCBot (Common Crawl) znajduje się na tej liście?