SEO & सामग्री

AI बॉट एक्सेस कंट्रोल

अपनी साइट की robots.txt फ़ाइल का विश्लेषण करें; GPTBot, ClaudeBot, Perplexity और 17 अन्य AI क्रॉलर की एक्सेस स्थिति को वास्तविक समय में देखें।

AI बॉट एक्सेस कंट्रोल
जानकारी

एआई बॉट एक्सेस कंट्रोल के संबंध में

एआई कंपनियां (ओपनएआई, एंथ्रोपिक, गूगल, मेटा, अमेज़ॅन, और अन्य) वेब को क्रॉल करने और एआई मॉडल को प्रशिक्षित करने या रीयल-टाइम खोज करने के लिए विशेष बॉट्स का उपयोग करती हैं। ये बॉट्स आपकी साइट तक पहुँचते हैं, robots.txt यह आपके फाइल में मौजूद नियमों द्वारा निर्धारित होता है। हालांकि, एक ही जगह पर यह देखना कि किन बॉट्स को अनुमति है और किनको ब्लॉक किया गया है, काफी मुश्किल काम है।

एआई बॉट एक्सेस कंट्रोल टूल आपके द्वारा देखी जा रही वेबसाइट को सत्यापित करता है। robots.txt यह सर्वर से फ़ाइल को वास्तविक समय में प्राप्त करता है और स्वचालित रूप से 17 विभिन्न एआई क्रॉलर की स्थिति का विश्लेषण करता है: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot और Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent और FacebookBot (Meta); DuckAssistBot और cohere-ai। प्रत्येक बॉट के लिए... अधिकृत, अक्षम या निर्दिष्ट नहीं (डिफ़ॉल्ट अनुमति) आप रंगीन बैज से उनकी स्थिति देख सकते हैं।

परिणाम स्क्रीन में एआई बॉट्स को बंद करने का विकल्प भी शामिल है। robots.txt उदाहरण के तौर पर नियम भी दिए गए हैं। यदि आप किसी साइट के मालिक नहीं हैं, तो भी आप इसका उपयोग किसी साइट की नीति की जानकारी प्राप्त करने के लिए कर सकते हैं। सभी क्वेरी सर्वर-साइड से की जाती हैं; अनुरोध केवल सार्वजनिक आईपी पतों पर भेजे जाते हैं, सुरक्षा कारणों से स्थानीय और निजी नेटवर्क ब्लॉकों को प्रतिबंधित किया गया है।

इसका उपयोग कैसे करना है?

क्रमशः

  1. डोमेन नाम या पूरा यूआरएल दर्ज करें (उदाहरण के लिए) example.com या https://example.com).
  2. जाँच करना बटन पर क्लिक करें; टूल साइट पर उपलब्ध हो जाएगा। robots.txt यह फ़ाइल को पुनः प्राप्त करता है।
  3. प्रत्येक एआई बॉट के लिए अधिकृत, अक्षम या अनिर्दिष्ट रंगीन बैज के साथ अपनी स्थिति देखें।
  4. यदि आवश्यक हो, तो आप पृष्ठ के निचले भाग में दिए गए तैयार नियमों को अपनी साइट पर कॉपी कर सकते हैं। robots.txt इसे फाइल में जोड़ें।
अक्सर पूछे जाने वाले प्रश्न

अक्सर पूछे जाने वाले प्रश्नों

robots.txt एक मानक प्रोटोकॉल है जो वेब क्रॉलर को बताता है कि वे किन पेजों तक पहुंच सकते हैं। AI कंपनियां यह सुनिश्चित करने के लिए प्रतिबद्ध हैं कि उनके डेटा-एकत्र करने वाले बॉट इस फ़ाइल का पालन करें। इस फ़ाइल को सही ढंग से कॉन्फ़िगर करना आपकी सामग्री को AI प्रशिक्षण डेटासेट में प्रवेश करने या वास्तविक समय AI खोजों में उपयोग होने से रोकने का सबसे तेज़ तरीका है।

यदि आपकी robots.txt फ़ाइल में उस बॉट के लिए कोई विशिष्ट नियम नहीं है, और `User-agent: * (सभी बॉट)` ब्लॉक में कोई प्रतिबंध नहीं है, तो बॉट को डिफ़ॉल्ट रूप से एक्सेस की अनुमति प्राप्त मानी जाती है। इसका मतलब है कि यदि आप बॉट को ब्लॉक करना चाहते हैं तो आपको एक कस्टम नियम जोड़ना होगा।

नहीं, robots.txt एक तकनीकी शिष्टाचार प्रोटोकॉल है; यह कोई कानूनी अनिवार्यता नहीं है। हालांकि गंभीर AI कंपनियों के बॉट इन नियमों का पालन करने के लिए प्रतिबद्ध हैं, लेकिन दुर्भावनापूर्ण क्रॉलर इन्हें अनदेखा कर सकते हैं। संवेदनशील सामग्री के लिए, एक्सेस कंट्रोल और प्रमाणीकरण जैसे अतिरिक्त उपाय करने की सलाह दी जाती है।

Google-Extended एक विशेष क्रॉलर आईडी है जिसका उपयोग Google, Gemini और AI Overviews जैसे AI उत्पादों को विकसित करने के लिए करता है। यह नियमित Google सर्च बॉट (Googlebot) से अलग है; केवल इस बॉट को ब्लॉक करने पर ही आपका वेबपेज Google खोज परिणामों में दिखाई देता रहेगा।

कॉमन क्रॉल एक ओपन-सोर्स वेब आर्काइव प्रोजेक्ट है, और कई प्रमुख भाषा मॉडल (जीपीटी-3/4 सहित) ने प्रशिक्षण के लिए सीसीबॉट डेटा का उपयोग किया है। सीसीबॉट को ब्लॉक करने से भविष्य के ओपन-सोर्स एआई मॉडल में प्रवेश करने वाली आपकी सामग्री की मात्रा कम हो सकती है।