SEO & Kandungan

Kawalan Akses Bot AI

Analisis fail robots.txt tapak anda; lihat status akses GPTBot, ClaudeBot, Perplexity dan 17 perayap AI lain dalam masa nyata.

Kawalan Akses Bot AI
Maklumat

Berkenaan Kawalan Akses Bot AI

Syarikat AI (OpenAI, Anthropic, Google, Meta, Amazon dan banyak lagi) menggunakan bot khusus untuk merayapi web dan melatih model AI atau melakukan carian masa nyata. Bot ini mengakses laman web anda, robots.txt Ini ditentukan oleh peraturan dalam fail anda. Walau bagaimanapun, melihat bot mana yang dibenarkan dan yang disekat di satu tempat agak menyusahkan.

Alat Kawalan Akses Bot AI mengesahkan laman web yang anda lawati. robots.txt Ia mengambil fail daripada pelayan dalam masa nyata dan menganalisis status 17 perayap AI yang berbeza secara automatik: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot dan Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent dan FacebookBot (Meta); DuckAssistBot dan cohere-ai. Untuk setiap bot... Dibenarkan, Orang Kurang Upaya atau Tidak dinyatakan (kebenaran lalai) Anda boleh melihat status mereka dengan lencana berwarna.

Skrin hasil juga termasuk pilihan sedia untuk dimatikan untuk bot AI. robots.txt Contoh peraturan juga disediakan. Anda juga boleh menggunakannya untuk menyelidik dasar mana-mana laman web jika anda bukan pemilik laman web. Semua pertanyaan adalah di bahagian pelayan; permintaan hanya dihantar ke alamat IP awam, sekatan rangkaian tempatan dan persendirian disekat atas sebab keselamatan.

Bagaimana untuk menggunakannya?

Langkah demi langkah

  1. Masukkan nama domain atau URL penuh (contohnya) contoh.com atau https://example.com).
  2. Semak Klik butang; alat tersebut akan berada di laman web ini. robots.txt Ia mengambil semula fail tersebut.
  3. Untuk setiap bot AI Dibenarkan, Orang Kurang Upaya atau Tidak dinyatakan Lihat status anda dengan lencana berwarna-warni.
  4. Jika perlu, anda boleh menyalin peraturan sedia ada di bahagian bawah halaman ke laman web anda. robots.txt Tambahkannya ke fail.
FAQ

Soalan Lazim

robots.txt ialah protokol standard yang memberitahu perayap web halaman mana yang boleh mereka akses. Syarikat AI komited untuk memastikan bot pengumpulan data mereka mematuhi fail ini. Mengkonfigurasi fail dengan betul ialah cara terpantas untuk menghalang kandungan anda daripada memasuki set data latihan AI atau digunakan dalam carian AI masa nyata.

Jika fail robots.txt anda tidak mempunyai peraturan khusus untuk bot tersebut dan blok `User-agent: * (all bots)` tidak mengandungi sebarang sekatan, bot tersebut dianggap dibenarkan akses secara lalai. Ini bermakna anda perlu menambah peraturan tersuai jika anda ingin menyekat bot tersebut.

Tidak, robots.txt ialah protokol ihsan teknikal; ia bukan keperluan undang-undang. Walaupun bot syarikat AI yang serius komited untuk mematuhi peraturan ini, perayap berniat jahat mungkin mengabaikannya. Untuk kandungan sensitif, adalah disyorkan untuk mengambil langkah tambahan seperti kawalan akses dan pengesahan.

Google-Extended ialah ID perayap khas yang digunakan oleh Google untuk membangunkan produk AI seperti Gemini dan AI Overviews. Ia berasingan daripada bot carian Google biasa (Googlebot); hanya jika bot ini disekat, halaman web anda akan terus muncul dalam hasil carian Google.

Common Crawl ialah projek arkib web sumber terbuka dan banyak model bahasa utama (termasuk GPT-3/4) telah menggunakan data CCBot untuk latihan. Menyekat CCBot boleh mengurangkan jumlah kandungan anda yang akan memasuki model AI sumber terbuka pada masa hadapan.