SEO & Konten

Kontrol Akses Bot AI

Analisis file robots.txt situs Anda; lihat status akses GPTBot, ClaudeBot, Perplexity, dan 17 crawler AI lainnya secara real-time.

Kontrol Akses Bot AI
Informasi

Mengenai Kontrol Akses Bot AI

Perusahaan AI (OpenAI, Anthropic, Google, Meta, Amazon, dan lainnya) menggunakan bot khusus untuk menjelajahi web dan melatih model AI atau melakukan pencarian secara real-time. Bot ini mengakses situs Anda, robots.txt Hal ini ditentukan oleh aturan dalam file Anda. Namun, melihat bot mana yang diizinkan dan mana yang diblokir di satu tempat cukup merepotkan.

Alat Kontrol Akses Bot AI memverifikasi situs web yang Anda kunjungi. robots.txt Aplikasi ini mengambil file dari server secara real-time dan secara otomatis menganalisis status 17 crawler AI yang berbeda: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot dan Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent dan FacebookBot (Meta); DuckAssistBot dan cohere-ai. Untuk setiap bot... Diotorisasi, Dengan disabilitas atau Tidak ditentukan (izin default) Anda dapat melihat status mereka melalui lencana berwarna.

Layar hasil pencarian juga menyertakan opsi siap untuk menonaktifkan bot AI. robots.txt Contoh aturan juga disediakan. Anda juga dapat menggunakannya untuk meneliti kebijakan situs mana pun jika Anda bukan pemilik situs tersebut. Semua permintaan dilakukan di sisi server; permintaan hanya dikirim ke alamat IP publik, blok jaringan lokal dan pribadi diblokir karena alasan keamanan.

Bagaimana cara menggunakannya?

Langkah demi langkah

  1. Masukkan nama domain atau URL lengkap (misalnya) contoh.com atau https://example.com).
  2. Memeriksa Klik tombolnya; alat tersebut akan muncul di situs. robots.txt Ini mengambil file tersebut.
  3. Untuk setiap bot AI Diotorisasi, Dengan disabilitas atau Tidak ditentukan Lihat status Anda dengan lencana berwarna-warni.
  4. Jika perlu, Anda dapat menyalin aturan yang sudah jadi di bagian bawah halaman ke situs Anda. robots.txt Tambahkan ke dalam file tersebut.
FAQ

Pertanyaan yang Sering Diajukan

robots.txt adalah protokol standar yang memberi tahu perayap web halaman mana yang dapat mereka akses. Perusahaan AI berkomitmen untuk memastikan bot pengumpul data mereka mematuhi file ini. Mengkonfigurasi file dengan benar adalah cara tercepat untuk mencegah konten Anda masuk ke dalam kumpulan data pelatihan AI atau digunakan dalam pencarian AI secara real-time.

Jika file robots.txt Anda tidak memiliki aturan khusus untuk bot tersebut, dan blok `User-agent: * (all bots)` tidak berisi batasan apa pun, bot tersebut dianggap diizinkan akses secara default. Ini berarti Anda perlu menambahkan aturan khusus jika ingin memblokir bot tersebut.

Tidak, robots.txt adalah protokol kesopanan teknis; itu bukan persyaratan hukum. Meskipun bot dari perusahaan AI yang serius berkomitmen untuk mengikuti aturan ini, perayap jahat mungkin mengabaikannya. Untuk konten sensitif, disarankan untuk mengambil langkah-langkah tambahan seperti kontrol akses dan otentikasi.

Google-Extended adalah ID perayap khusus yang digunakan Google untuk mengembangkan produk AI seperti Gemini dan AI Overviews. ID ini terpisah dari bot pencarian Google biasa (Googlebot); halaman web Anda hanya akan terus muncul di hasil pencarian Google jika bot ini diblokir.

Common Crawl adalah proyek arsip web sumber terbuka, dan banyak model bahasa utama (termasuk GPT-3/4) telah menggunakan data CCBot untuk pelatihan. Memblokir CCBot dapat mengurangi jumlah konten Anda yang akan masuk ke model AI sumber terbuka di masa mendatang.