Hakukoneoptimointi ja sisältö

Tekoälybotin käyttöoikeuksien hallinta

Analysoi sivustosi robots.txt-tiedostoa; näe GPTBotin, ClaudeBotin, Perplexityn ja 17 muun tekoälyindeksoijan käyttöoikeudet reaaliajassa.

Verkkotunnus tai URL-osoite

Tieto

Tietoja tekoälybottien käyttöoikeuksien hallinnasta

Tekoälyyritykset (OpenAI, Anthropic, Google, Meta, Amazon ja muut) käyttävät erikoistuneita botteja verkon indeksointiin ja tekoälymallien kouluttamiseen tai reaaliaikaisten hakujen suorittamiseen. Nämä botit käyttävät sivustoasi, robots.txt Tämä määräytyy tiedostosi sääntöjen mukaan. Sallittujen ja estettyjen bottien näkeminen yhdestä paikasta on kuitenkin melko hankalaa.

AI Bot Access Control -työkalu tarkistaa vierailemasi verkkosivuston. robots.txt Se hakee tiedoston palvelimelta reaaliajassa ja analysoi automaattisesti 17 eri tekoälyindeksoijan tilan: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot ja Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagentti ja FacebookBot (Meta); DuckAssistBot ja cohere-ai. Jokaiselle botille... Valtuutettu, Liikuntarajoitteinen tai Ei määritetty (oletuslupa) Voit nähdä heidän tilansa värillisillä merkeillä.

Tulosnäytössä on myös asetus, jolla tekoälybotit voidaan poistaa kokonaan käytöstä. robots.txt Tarjolla on myös esimerkkisääntöjä. Voit käyttää sitä myös minkä tahansa sivuston käytäntöjen tutkimiseen, vaikka et olisi sivuston omistaja. Kaikki kyselyt ovat palvelinpuolen; pyynnöt lähetetään vain julkisiin IP-osoitteisiin, paikalliset ja yksityiset verkkolohkot on estetty turvallisuussyistä.

Kuinka sitä käytetään?

Askel askeleelta

Anna verkkotunnus tai koko URL-osoite (esimerkiksi) esimerkki.com tai https://example.com).
Tarkista Napsauta painiketta; työkalu on sivustolla. robots.txt Se noutaa tiedoston.
Jokaiselle tekoälybotille Valtuutettu, Liikuntarajoitteinen tai Määrittelemätön Tarkastele tilaasi värikkäillä merkeillä.
Tarvittaessa voit kopioida sivun alareunassa olevat valmiit säännöt sivustollesi. robots.txt Lisää se tiedostoon.

UKK

Usein kysytyt kysymykset

robots.txt on standardiprotokolla, joka kertoo verkkoindeksoijille, mille sivuille ne voivat päästä. Tekoälyyritykset sitoutuvat varmistamaan, että niiden tiedonkeruubotit noudattavat tätä tiedostoa. Tiedoston oikea määrittäminen on nopein tapa estää sisältöäsi pääsemästä tekoälyn koulutustietojoukkoihin tai käyttämästä sitä reaaliaikaisissa tekoälyhauissa.

Jos robots.txt-tiedostossasi ei ole tiettyä sääntöä kyseiselle botille ja `User-agent: * (all bots)` -lohko ei sisällä rajoituksia, botin käyttöoikeus katsotaan oletusarvoisesti sallituksi. Tämä tarkoittaa, että sinun on lisättävä mukautettu sääntö, jos haluat estää botin.

Ei, robots.txt on tekninen kohteliaisuusprotokolla; se ei ole lakisääteinen vaatimus. Vaikka vakavasti otettavien tekoälyyritysten botit sitoutuvat noudattamaan näitä sääntöjä, haitalliset hakurobotit saattavat jättää ne huomiotta. Arkaluonteisen sisällön osalta on suositeltavaa ryhtyä lisätoimenpiteisiin, kuten käyttöoikeuksien hallintaan ja todennukseen.

Google-Extended on erityinen indeksointirobotin tunnus, jota Google käyttää tekoälytuotteiden, kuten Gemini ja AI Overviews, kehittämiseen. Se on erillinen tavallisesta Googlen hakurobotista (Googlebot); verkkosivusi näkyy edelleen Googlen hakutuloksissa vain, jos tämä botti estetään.

Common Crawl on avoimen lähdekoodin verkkoarkistoprojekti, ja monet merkittävät kielimallit (mukaan lukien GPT-3/4) ovat käyttäneet CCBot-dataa koulutukseen. CCBotin estäminen voi vähentää tulevaisuuden avoimen lähdekoodin tekoälymalleihin päätyvän sisällön määrää.

Palaa kaikkiin ilmaisiin työkaluihin

Tekoälybotin käyttöoikeuksien hallinta

Tietoja tekoälybottien käyttöoikeuksien hallinnasta

Askel askeleelta

Usein kysytyt kysymykset

Miksi robots.txt-tiedosto on tärkeä?

Mitä tarkoittaa tila "Määrittelemätön"?

Ovatko robots.txt-tiedoston säännöt oikeudellisesti sitovia?

Mikä on Google-laajennettu?

Miksi CCBot (Common Crawl) on tällä listalla?