SEO اور مواد

AI بوٹ تک رسائی کا کنٹرول

اپنی سائٹ کی robots.txt فائل کا تجزیہ کریں۔ حقیقی وقت میں GPTBot، ClaudeBot، Perplexity، اور 17 دیگر AI کرالر تک رسائی کی صورتحال دیکھیں۔

AI بوٹ تک رسائی کا کنٹرول
معلومات

AI بوٹ ایکسیس کنٹرول کے بارے میں

AI کمپنیاں (OpenAI, Anthropic, Google, Meta, Amazon، اور مزید) ویب کو کرال کرنے اور AI ماڈلز کو تربیت دینے یا حقیقی وقت میں تلاش کرنے کے لیے خصوصی بوٹس استعمال کرتی ہیں۔ یہ بوٹس آپ کی سائٹ تک رسائی حاصل کرتے ہیں، robots.txt اس کا تعین آپ کی فائل کے قواعد سے ہوتا ہے۔ تاہم، یہ دیکھنا کہ کن بوٹس کی اجازت ہے اور کن کو ایک جگہ بلاک کر دیا گیا ہے کافی بوجھل ہے۔

اے آئی بوٹ ایکسیس کنٹرول ٹول اس ویب سائٹ کی تصدیق کرتا ہے جس پر آپ جا رہے ہیں۔ robots.txt یہ فائل کو حقیقی وقت میں سرور سے بازیافت کرتا ہے اور خود بخود 17 مختلف AI کرالرز کی حیثیت کا تجزیہ کرتا ہے: GPTBot، ChatGPT-User، OAI-SearchBot (OpenAI)؛ ClaudeBot، anthropic-ai، Claude-Web (Anthropic)؛ PerplexityBot اور Perplexity-User (Perplexity); Google-Extended (Gemini/AI جائزہ)؛ Applebot-Extended; CCBot (عام کرال)؛ Bytespider (TikTok)؛ ایمیزون بوٹ؛ meta-externalagent اور FacebookBot (Meta)؛ DuckAssistBot اور cohere-ai۔ ہر بوٹ کے لیے... مجاز, معذور یا متعین نہیں (پہلے سے طے شدہ اجازت) آپ رنگین بیجز کے ساتھ ان کی حیثیت دیکھ سکتے ہیں۔

نتائج کی اسکرین میں AI بوٹس کے لیے ایک ریڈی ٹو ٹرن آف آپشن بھی شامل ہے۔ robots.txt مثال کے اصول بھی فراہم کیے گئے ہیں۔ اگر آپ سائٹ کے مالک نہیں ہیں تو آپ اسے کسی بھی سائٹ کی پالیسی کی تحقیق کے لیے بھی استعمال کر سکتے ہیں۔ تمام سوالات سرور کی طرف ہیں؛ درخواستیں صرف عوامی IP پتوں پر بھیجی جاتی ہیں، مقامی اور نجی نیٹ ورک بلاکس سیکورٹی وجوہات کی بناء پر مسدود ہیں۔

اس کا استعمال کیسے کریں؟

قدم بہ قدم

  1. ڈومین کا نام یا مکمل URL درج کریں (مثال کے طور پر) example.com یا https://example.com).
  2. چیک کریں۔ بٹن پر کلک کریں؛ ٹول سائٹ پر ہوگا۔ robots.txt یہ فائل کو بازیافت کرتا ہے۔
  3. ہر اے آئی بوٹ کے لیے مجاز, معذور یا غیر متعین رنگین بیجز کے ساتھ اپنی حیثیت دیکھیں۔
  4. اگر ضروری ہو تو، آپ صفحہ کے نیچے دیے گئے ریڈی میڈ قوانین کو اپنی سائٹ پر کاپی کر سکتے ہیں۔ robots.txt اسے فائل میں شامل کریں۔
FAQ

اکثر پوچھے گئے سوالات

robots.txt ایک معیاری پروٹوکول ہے جو ویب کرالر کو بتاتا ہے کہ وہ کن صفحات تک رسائی حاصل کر سکتے ہیں۔ AI کمپنیاں اس بات کو یقینی بنانے کا عہد کرتی ہیں کہ ان کے ڈیٹا اکٹھا کرنے والے بوٹس اس فائل پر عمل پیرا ہوں۔ فائل کو درست طریقے سے ترتیب دینا آپ کے مواد کو AI ٹریننگ ڈیٹا سیٹس میں داخل ہونے یا ریئل ٹائم AI تلاشوں میں استعمال ہونے سے روکنے کا تیز ترین طریقہ ہے۔

اگر آپ کی robots.txt فائل میں اس بوٹ کے لیے کوئی خاص اصول نہیں ہے، اور `User-agent:* (تمام بوٹس)` بلاک میں کوئی پابندی نہیں ہے، تو بوٹ کو بطور ڈیفالٹ رسائی کی اجازت سمجھا جاتا ہے۔ اس کا مطلب ہے کہ اگر آپ بوٹ کو بلاک کرنا چاہتے ہیں تو آپ کو حسب ضرورت اصول شامل کرنے کی ضرورت ہوگی۔

نہیں، robots.txt ایک تکنیکی بشکریہ پروٹوکول ہے۔ یہ ایک قانونی ضرورت نہیں ہے. اگرچہ سنجیدہ AI کمپنیوں کے بوٹس ان اصولوں پر عمل کرنے کا عہد کرتے ہیں، لیکن بدنیتی پر مبنی کرالر انہیں نظر انداز کر سکتے ہیں۔ حساس مواد کے لیے، اضافی اقدامات کرنے کی سفارش کی جاتی ہے جیسے رسائی کنٹرول اور تصدیق۔

Google-Extended ایک خاص کرالر ID ہے جسے Google AI مصنوعات جیسے Gemini اور AI جائزہ تیار کرنے کے لیے استعمال کرتا ہے۔ یہ باقاعدہ گوگل سرچ بوٹ (گوگل بوٹ) سے الگ ہے۔ صرف اس صورت میں جب یہ بوٹ مسدود ہے آپ کا ویب صفحہ Google تلاش کے نتائج میں ظاہر ہوتا رہے گا۔

کامن کرول ایک اوپن سورس ویب آرکائیو پروجیکٹ ہے، اور بہت سے بڑے لینگوئج ماڈلز (بشمول GPT-3/4) نے تربیت کے لیے CCBot ڈیٹا استعمال کیا ہے۔ CCBot کو مسدود کرنے سے آپ کے مواد کی مقدار کم ہو سکتی ہے جو مستقبل کے اوپن سورس AI ماڈلز میں داخل ہو گی۔