تحسين محركات البحث والمحتوى

نظام التحكم في الوصول بواسطة روبوتات الذكاء الاصطناعي

قم بتحليل ملف robots.txt الخاص بموقعك؛ واطلع على حالة الوصول لـ GPTBot و ClaudeBot و Perplexity و 17 برنامج زحف ذكاء اصطناعي آخر في الوقت الفعلي.

اسم النطاق أو عنوان URL

معلومات

فيما يتعلق بالتحكم في الوصول بواسطة روبوتات الذكاء الاصطناعي

تستخدم شركات الذكاء الاصطناعي (مثل OpenAI وAnthropic وGoogle وMeta وAmazon وغيرها) برامج روبوت متخصصة لزحف الويب وتدريب نماذج الذكاء الاصطناعي أو إجراء عمليات بحث فورية. تستطيع هذه البرامج الوصول إلى موقعك الإلكتروني. robots.txt يُحدد ذلك من خلال القواعد الموجودة في ملفك. مع ذلك، فإن معرفة البرامج الآلية المسموح بها والمحظورة في مكان واحد أمرٌ مُرهق للغاية.

تقوم أداة التحكم في الوصول بواسطة روبوت الذكاء الاصطناعي بالتحقق من الموقع الإلكتروني الذي تزوره. robots.txt يسترجع البرنامج الملف من الخادم في الوقت الفعلي ويحلل تلقائيًا حالة 17 برنامج زحف ذكاء اصطناعي مختلف: GPTBot، وChatGPT-User، وOAI-SearchBot (OpenAI)؛ وClaudeBot، وanthropic-ai، وClaude-Web (Anthropic)؛ وPerplexityBot، وPerplexity-User (Perplexity)؛ وGoogle-Extended (Gemini/AI Overview)؛ وApplebot-Extended؛ وCCBot (Common Crawl)؛ وBytespider (TikTok)؛ وAmazonbot؛ وmeta-externalagent، وFacebookBot (Meta)؛ وDuckAssistBot، وcohere-ai. لكل برنامج... مُصرَّح به, عاجز أو غير محدد (الصلاحية الافتراضية) يمكنك معرفة حالتهم من خلال الشارات الملونة.

تتضمن شاشة النتائج أيضًا خيارًا جاهزًا للإيقاف لروبوتات الذكاء الاصطناعي. robots.txt تُقدَّم أيضًا قواعد نموذجية. يمكنك استخدامها أيضًا للبحث في سياسة أي موقع إذا لم تكن مالكه. جميع الاستعلامات تتم من جانب الخادم؛ تُرسَل الطلبات فقط إلى عناوين IP العامة، ويتم حظر نطاقات الشبكات المحلية والخاصة لأسباب أمنية.

كيفية استخدامه؟

خطوة بخطوة

أدخل اسم النطاق أو عنوان URL الكامل (على سبيل المثال) example.com أو https://example.com).
يفحص انقر على الزر؛ ستظهر الأداة على الموقع. robots.txt يقوم باسترجاع الملف.
لكل روبوت ذكاء اصطناعي مُصرَّح به, عاجز أو غير محدد استعرض حالتك باستخدام شارات ملونة.
إذا لزم الأمر، يمكنك نسخ القواعد الجاهزة الموجودة أسفل الصفحة إلى موقعك. robots.txt أضفها إلى الملف.

الأسئلة الشائعة

ملف robots.txt هو بروتوكول قياسي يُحدد لبرامج زحف الويب الصفحات التي يُمكنها الوصول إليها. وتلتزم شركات الذكاء الاصطناعي بضمان توافق برامج جمع البيانات الخاصة بها مع هذا الملف. ويُعدّ ضبط الملف بشكل صحيح أسرع طريقة لمنع إدخال محتواك في مجموعات بيانات تدريب الذكاء الاصطناعي أو استخدامه في عمليات البحث التي تُجريها هذه البرامج في الوقت الفعلي.

إذا لم يتضمن ملف robots.txt الخاص بك قاعدةً محددةً لهذا البوت، ولم يحتوي قسم `User-agent: * (all bots)` على أي قيود، فسيتم اعتبار البوت مسموحًا له بالوصول افتراضيًا. هذا يعني أنك ستحتاج إلى إضافة قاعدة مخصصة إذا كنت ترغب في حظر البوت.

لا، ملف robots.txt هو بروتوكول تقني من باب المجاملة، وليس شرطًا قانونيًا. مع أن برامج الروبوت التابعة لشركات الذكاء الاصطناعي الجادة تلتزم بهذه القواعد، إلا أن برامج الزحف الخبيثة قد تتجاهلها. بالنسبة للمحتوى الحساس، يُنصح باتخاذ تدابير إضافية مثل التحكم في الوصول والمصادقة.

Google-Extended هو معرّف زحف خاص تستخدمه جوجل لتطوير منتجات الذكاء الاصطناعي مثل Gemini وAI Overviews. وهو منفصل عن روبوت بحث جوجل العادي (Googlebot)؛ ولن يظهر موقعك الإلكتروني في نتائج بحث جوجل إلا إذا تم حظر هذا الروبوت.

Common Crawl هو مشروع مفتوح المصدر لأرشفة الويب، وقد استخدمت العديد من نماذج اللغة الرئيسية (بما في ذلك GPT-3/4) بيانات CCBot للتدريب. يمكن أن يؤدي حظر CCBot إلى تقليل كمية المحتوى الخاص بك الذي سيُستخدم في نماذج الذكاء الاصطناعي مفتوحة المصدر المستقبلية.

العودة إلى جميع الأدوات المجانية

نظام التحكم في الوصول بواسطة روبوتات الذكاء الاصطناعي

فيما يتعلق بالتحكم في الوصول بواسطة روبوتات الذكاء الاصطناعي

خطوة بخطوة

الأسئلة الشائعة

لماذا يُعد ملف robots.txt مهمًا؟

ماذا تعني حالة "غير محدد"؟

هل قواعد ملف robots.txt ملزمة قانونياً؟

ما هو جوجل الموسع؟

لماذا تم إدراج CCBot (Common Crawl) في هذه القائمة؟