SEO & Obsah

Kontrola prístupu AI botov

Analyzujte súbor robots.txt vašej stránky; pozrite si stav prístupu GPTBot, ClaudeBot, Perplexity a 17 ďalších prehľadávačov s umelou inteligenciou v reálnom čase.

Kontrola prístupu AI botov
Informácie

Ohľadom kontroly prístupu AI Bot

Spoločnosti zaoberajúce sa umelou inteligenciou (OpenAI, Anthropic, Google, Meta, Amazon a ďalšie) používajú špecializované boty na prehľadávanie webu a trénovanie modelov umelej inteligencie alebo na vykonávanie vyhľadávaní v reálnom čase. Tieto boty pristupujú k vašej stránke, súbor robots.txt Toto je určené pravidlami vo vašom súbore. Avšak sledovať, ktoré boty sú povolené a ktoré sú blokované na jednom mieste, je dosť zložité.

Nástroj na kontrolu prístupu botov s umelou inteligenciou overuje webovú stránku, ktorú navštevujete. súbor robots.txt Načítava súbor zo servera v reálnom čase a automaticky analyzuje stav 17 rôznych prehľadávačov s umelou inteligenciou: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot a Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent a FacebookBot (Meta); DuckAssistBot a cohere-ai. Pre každého bota... Autorizované, Zakázané alebo Nešpecifikované (predvolené povolenie) Ich stav môžete vidieť pomocou farebných odznakov.

Obrazovka s výsledkami obsahuje aj možnosť vypnutia pre robotov s umelou inteligenciou. súbor robots.txt Poskytnuté sú aj vzorové pravidlá. Môžete ich tiež použiť na preskúmanie pravidiel ľubovoľnej stránky, ak nie ste vlastníkom stránky. Všetky dotazy sú na strane servera; požiadavky sa odosielajú iba na verejné IP adresy, bloky lokálnych a súkromných sietí sú z bezpečnostných dôvodov blokované.

Ako ho používať?

Krok za krokom

  1. Zadajte názov domény alebo úplnú URL adresu (napríklad) example.com alebo https://example.com).
  2. Skontrolovať Kliknite na tlačidlo; nástroj bude na stránke. súbor robots.txt Načíta súbor.
  3. Pre každého bota s umelou inteligenciou Autorizované, Zakázané alebo Nešpecifikované Zobrazte si svoj stav pomocou farebných odznakov.
  4. V prípade potreby si môžete hotové pravidlá zo spodnej časti stránky skopírovať na svoju stránku. súbor robots.txt Pridajte ho do súboru.
FAQ

Často kladené otázky

Súbor robots.txt je štandardný protokol, ktorý informuje webové prehľadávače o tom, ku ktorým stránkam majú prístup. Spoločnosti zaoberajúce sa umelou inteligenciou sa zaväzujú zabezpečiť, aby ich roboty na zhromažďovanie údajov dodržiavali tento súbor. Správna konfigurácia súboru je najrýchlejší spôsob, ako zabrániť tomu, aby sa váš obsah dostal do trénovacích súborov údajov umelej inteligencie alebo aby sa použil pri vyhľadávaní umelej inteligencie v reálnom čase.

Ak váš súbor robots.txt neobsahuje pre daného bota špecifické pravidlo a blok `User-agent: * (všetky boty)` neobsahuje žiadne obmedzenia, bot sa štandardne považuje za používateľa s povoleným prístupom. To znamená, že ak chcete bota zablokovať, budete musieť pridať vlastné pravidlo.

Nie, súbor robots.txt je technický protokol zdvorilosti; nie je to zákonná požiadavka. Zatiaľ čo seriózne spoločnosti zaoberajúce sa umelou inteligenciou sa zaväzujú dodržiavať tieto pravidlá, škodlivé prehľadávače ich môžu ignorovať. V prípade citlivého obsahu sa odporúča prijať dodatočné opatrenia, ako je kontrola prístupu a overovanie.

Google-Extended je špeciálne ID prehľadávača, ktoré spoločnosť Google používa na vývoj produktov umelej inteligencie, ako sú Gemini a AI Overviews. Je oddelené od bežného vyhľadávacieho robota Google (Googlebot); vaša webová stránka sa bude naďalej zobrazovať vo výsledkoch vyhľadávania Google, iba ak je tento bot zablokovaný.

Common Crawl je projekt webového archívu s otvoreným zdrojovým kódom a mnoho hlavných jazykových modelov (vrátane GPT-3/4) použilo dáta CCBot na trénovanie. Blokovanie CCBot môže znížiť množstvo vášho obsahu, ktorý sa dostane do budúcich modelov umelej inteligencie s otvoreným zdrojovým kódom.