سئو و محتوا

کنترل دسترسی ربات‌های هوش مصنوعی

فایل robots.txt سایت خود را تجزیه و تحلیل کنید؛ وضعیت دسترسی GPTBot، ClaudeBot، Perplexity و ۱۷ خزنده هوش مصنوعی دیگر را به صورت بلادرنگ مشاهده کنید.

کنترل دسترسی ربات‌های هوش مصنوعی
اطلاعات

در مورد کنترل دسترسی ربات هوش مصنوعی

شرکت‌های هوش مصنوعی (OpenAI، Anthropic، Google، Meta، Amazon و موارد دیگر) از ربات‌های تخصصی برای خزیدن در وب و آموزش مدل‌های هوش مصنوعی یا انجام جستجوهای بلادرنگ استفاده می‌کنند. این ربات‌ها به سایت شما دسترسی پیدا می‌کنند، ربات‌ها.txt این توسط قوانین موجود در فایل شما تعیین می‌شود. با این حال، مشاهده اینکه کدام ربات‌ها مجاز و کدام‌ها مسدود شده‌اند، در یک مکان کاملاً دست و پا گیر است.

ابزار کنترل دسترسی ربات هوش مصنوعی، وب‌سایتی را که بازدید می‌کنید، تأیید می‌کند. ربات‌ها.txt این ابزار فایل را به صورت بلادرنگ از سرور بازیابی می‌کند و به طور خودکار وضعیت ۱۷ خزنده هوش مصنوعی مختلف را تجزیه و تحلیل می‌کند: GPTBot، ChatGPT-User، OAI-SearchBot (OpenAI)؛ ClaudeBot، anthropic-ai، Claude-Web (Anthropic)؛ PerplexityBot و Perplexity-User (Perplexity)؛ Google-Extended (Gemini/AI Overview)؛ Applebot-Extended؛ CCBot (Common Crawl)؛ Bytespider (TikTok)؛ Amazonbot؛ meta-externalagent و FacebookBot (Meta)؛ DuckAssistBot و cohere-ai. برای هر ربات... مجاز, معلول یا مشخص نشده است (مجوز پیش‌فرض) می‌توانید وضعیت آنها را با نشان‌های رنگی مشاهده کنید.

صفحه نتایج همچنین شامل گزینه آماده برای خاموش کردن برای ربات‌های هوش مصنوعی است. ربات‌ها.txt قوانین نمونه نیز ارائه شده است. اگر صاحب سایت نیستید، می‌توانید از آن برای تحقیق در مورد سیاست‌های هر سایتی استفاده کنید. همه پرس‌وجوها سمت سرور هستند؛ درخواست‌ها فقط به آدرس‌های IP عمومی ارسال می‌شوند، بلوک‌های شبکه محلی و خصوصی به دلایل امنیتی مسدود شده‌اند.

چگونه از آن استفاده کنیم؟

گام به گام

  1. نام دامنه یا آدرس کامل (به عنوان مثال) را وارد کنید example.com یا https://example.com).
  2. بررسی روی دکمه کلیک کنید؛ ابزار در سایت قرار خواهد گرفت. ربات‌ها.txt فایل را بازیابی می‌کند.
  3. برای هر ربات هوش مصنوعی مجاز, معلول یا نامشخص وضعیت خود را با نشان‌های رنگارنگ مشاهده کنید.
  4. در صورت لزوم، می‌توانید قوانین آماده در پایین صفحه را در سایت خود کپی کنید. ربات‌ها.txt آن را به فایل اضافه کنید.
سوالات متداول

سوالات متداول

robots.txt یک پروتکل استاندارد است که به خزنده‌های وب می‌گوید به کدام صفحات می‌توانند دسترسی داشته باشند. شرکت‌های هوش مصنوعی متعهد می‌شوند که ربات‌های جمع‌آوری‌کننده داده‌های خود را به این فایل پایبند نگه دارند. پیکربندی صحیح فایل، سریع‌ترین راه برای جلوگیری از ورود محتوای شما به مجموعه داده‌های آموزشی هوش مصنوعی یا استفاده از آن در جستجوهای هوش مصنوعی در لحظه است.

اگر فایل robots.txt شما قانون خاصی برای آن ربات نداشته باشد و بلوک `User-agent: * (all bots)` هیچ محدودیتی نداشته باشد، ربات به طور پیش‌فرض دسترسی مجاز در نظر گرفته می‌شود. این بدان معناست که اگر می‌خواهید ربات را مسدود کنید، باید یک قانون سفارشی اضافه کنید.

خیر، robots.txt یک پروتکل فنی و الزامی نیست. در حالی که ربات‌های شرکت‌های هوش مصنوعی متعهد به رعایت این قوانین هستند، خزنده‌های مخرب ممکن است آنها را نادیده بگیرند. برای محتوای حساس، توصیه می‌شود اقدامات اضافی مانند کنترل دسترسی و احراز هویت انجام شود.

Google-Extended یک شناسه خزنده ویژه است که گوگل برای توسعه محصولات هوش مصنوعی مانند Gemini و AI Overviews از آن استفاده می‌کند. این ربات جدا از ربات جستجوی معمولی گوگل (Googlebot) است؛ تنها در صورت مسدود شدن این ربات، صفحه وب شما همچنان در نتایج جستجوی گوگل ظاهر می‌شود.

Common Crawl یک پروژه آرشیو وب متن‌باز است و بسیاری از مدل‌های زبانی اصلی (از جمله GPT-3/4) از داده‌های CCBot برای آموزش استفاده کرده‌اند. مسدود کردن CCBot می‌تواند میزان محتوای شما را که وارد مدل‌های هوش مصنوعی متن‌باز آینده خواهد شد، کاهش دهد.