SEO & आशय

AI बॉट प्रवेश नियंत्रण

तुमच्या साइटच्या robots.txt फाईलचे विश्लेषण करा; GPTBot, ClaudeBot, Perplexity आणि इतर १७ एआय क्रॉलर्सची ऍक्सेस स्थिती रिअल टाइममध्ये पहा.

AI बॉट प्रवेश नियंत्रण
माहिती

एआय बॉट प्रवेश नियंत्रणासंदर्भात

एआय कंपन्या (ओपनएआय, अँथ्रोपिक, गूगल, मेटा, ॲमेझॉन आणि इतर) वेब क्रॉल करण्यासाठी आणि एआय मॉडेल्सना प्रशिक्षित करण्यासाठी किंवा रिअल-टाइम शोध घेण्यासाठी विशेष बॉट्सचा वापर करतात. हे बॉट्स तुमच्या साइटवर प्रवेश करतात, robots.txt हे तुमच्या फाईलमधील नियमांनुसार ठरवले जाते. मात्र, कोणते बॉट्सना परवानगी आहे आणि कोणते ब्लॉक केले आहेत हे एकाच ठिकाणी पाहणे खूपच किचकट आहे.

एआय बॉट ऍक्सेस कंट्रोल टूल तुम्ही भेट देत असलेल्या वेबसाइटची पडताळणी करते. robots.txt हे सर्व्हरवरून फाईल रिअल-टाइममध्ये मिळवते आणि १७ वेगवेगळ्या एआय क्रॉलर्सच्या स्थितीचे आपोआप विश्लेषण करते: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot आणि Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent आणि FacebookBot (Meta); DuckAssistBot आणि cohere-ai. प्रत्येक बॉटसाठी... अधिकृत, अक्षम किंवा निर्दिष्ट नाही (डीफॉल्ट परवानगी) तुम्ही रंगीत बॅजच्या साहाय्याने त्यांची स्थिती पाहू शकता.

निकालांच्या स्क्रीनमध्ये एआय बॉट्सना बंद करण्याचा एक पर्याय देखील समाविष्ट आहे. robots.txt उदाहरणादाखल नियम देखील दिलेले आहेत. तुम्ही साइटचे मालक नसल्यास, कोणत्याही साइटच्या धोरणावर संशोधन करण्यासाठी देखील याचा वापर करू शकता. सर्व क्वेरी सर्व्हर-साइड आहेत; विनंत्या केवळ सार्वजनिक आयपी ॲड्रेसवर पाठवल्या जातात, सुरक्षेच्या कारणास्तव स्थानिक आणि खाजगी नेटवर्क ब्लॉक केले जातात.

त्याचा वापर कसा करायचा?

टप्प्याटप्प्याने

  1. डोमेनचे नाव किंवा संपूर्ण URL प्रविष्ट करा (उदाहरणार्थ) example.com किंवा https://example.com).
  2. तपासा बटणावर क्लिक करा; ते साधन साइटवर उपलब्ध होईल. robots.txt ते फाईल मिळवते.
  3. प्रत्येक एआय बॉटसाठी अधिकृत, अक्षम किंवा अनिर्दिष्ट रंगीत बॅजेसच्या साहाय्याने तुमची स्थिती पहा.
  4. आवश्यक असल्यास, तुम्ही पानाच्या तळाशी असलेले तयार नियम तुमच्या साइटवर कॉपी करू शकता. robots.txt ते फाईलमध्ये जोडा.
वारंवार विचारले जाणारे प्रश्न (FAQ)

वारंवार विचारले जाणारे प्रश्न

robots.txt हा एक मानक प्रोटोकॉल आहे जो वेब क्रॉलर्सना सांगतो की ते कोणत्या पानांवर प्रवेश करू शकतात. एआय कंपन्या त्यांचे डेटा-संकलन करणारे बॉट्स या फाईलचे पालन करतील याची खात्री करण्यासाठी वचनबद्ध असतात. तुमची सामग्री एआय प्रशिक्षण डेटासेटमध्ये प्रवेश करण्यापासून किंवा रिअल-टाइम एआय शोधांमध्ये वापरली जाण्यापासून रोखण्याचा सर्वात जलद मार्ग म्हणजे ही फाईल योग्यरित्या कॉन्फिगर करणे.

जर तुमच्या robots.txt फाईलमध्ये त्या बॉटसाठी कोणताही विशिष्ट नियम नसेल आणि `User-agent: * (all bots)` ब्लॉकमध्ये कोणतेही निर्बंध नसतील, तर डीफॉल्टनुसार बॉटला प्रवेशाची परवानगी असल्याचे मानले जाते. याचा अर्थ असा की, जर तुम्हाला बॉटला ब्लॉक करायचे असेल, तर तुम्हाला एक कस्टम नियम जोडावा लागेल.

नाही, robots.txt हा एक तांत्रिक सौजन्याचा प्रोटोकॉल आहे; ती कायदेशीर आवश्यकता नाही. जरी गंभीर एआय कंपन्यांचे बॉट्स हे नियम पाळण्याचे वचन देत असले तरी, दुर्भावनापूर्ण क्रॉलर्स त्याकडे दुर्लक्ष करू शकतात. संवेदनशील सामग्रीसाठी, प्रवेश नियंत्रण आणि प्रमाणीकरण यांसारख्या अतिरिक्त उपाययोजना करण्याची शिफारस केली जाते.

गूगल-एक्सटेंडेड हा एक विशेष क्रॉलर आयडी आहे, जो गूगल जेमिनी आणि एआय ओव्हरव्ह्यूज सारखी एआय उत्पादने विकसित करण्यासाठी वापरते. तो नियमित गूगल सर्च बॉट (गूगलबॉट) पेक्षा वेगळा आहे; केवळ या बॉटला ब्लॉक केल्यावरच तुमचे वेबपेज गूगल शोध परिणामांमध्ये दिसत राहील.

कॉमन क्रॉल हा एक ओपन-सोर्स वेब आर्काइव्ह प्रकल्प आहे, आणि अनेक प्रमुख भाषा मॉडेल्सनी (GPT-3/4 सह) प्रशिक्षणासाठी CCBot डेटा वापरला आहे. CCBot ला ब्लॉक केल्याने भविष्यातील ओपन-सोर्स AI मॉडेल्समध्ये जाणाऱ्या तुमच्या सामग्रीचे प्रमाण कमी होऊ शकते.