ايس اي او ۽ مواد

اي آءِ بوٽ رسائي ڪنٽرول

پنهنجي سائيٽ جي robots.txt فائل جو تجزيو ڪريو؛ حقيقي وقت ۾ GPTBot، ClaudeBot، Perplexity، ۽ 17 ٻين AI ڪريلرز جي رسائي جي صورتحال ڏسو.

ڊومين جو نالو يا URL

ڄاڻ

AI بوٽ رسائي ڪنٽرول جي حوالي سان

اي آءِ ڪمپنيون (اوپن اي آءِ، اينٿروپڪ، گوگل، ميٽا، ايميزون، ۽ وڌيڪ) ويب کي ڪرول ڪرڻ ۽ اي آءِ ماڊلز کي تربيت ڏيڻ يا حقيقي وقت ۾ ڳولا ڪرڻ لاءِ خاص بوٽس استعمال ڪن ٿيون. اهي بوٽس توهان جي سائيٽ تائين رسائي ڪن ٿا، روبوٽس.ٽيڪسٽ اهو توهان جي فائل ۾ موجود قاعدن سان طئي ڪيو ويندو آهي. جڏهن ته، اهو ڏسڻ ته ڪهڙا بوٽ اجازت ڏنل آهن ۽ ڪهڙا هڪ جاءِ تي بلاڪ ٿيل آهن، ڪافي ڏکيو آهي.

اي آءِ بوٽ رسائي ڪنٽرول ٽول توهان جي ويب سائيٽ جي تصديق ڪري ٿو. روبوٽس.ٽيڪسٽ اهو سرور تان فائل کي حقيقي وقت ۾ حاصل ڪري ٿو ۽ خودڪار طريقي سان 17 مختلف AI ڪريلرز جي حيثيت جو تجزيو ڪري ٿو: GPTBot، ChatGPT-User، OAI-SearchBot (OpenAI)؛ ClaudeBot، anthropic-ai، Claude-Web (Anthropic)؛ PerplexityBot ۽ Perplexity-User (Perplexity)؛ Google-Extended (Gemini/AI Overview)؛ Applebot-Extended؛ CCBot (Common Crawl)؛ Bytespider (TikTok)؛ Amazonbot؛ meta-externalagent ۽ FacebookBot (Meta)؛ DuckAssistBot ۽ cohere-ai. هر بوٽ لاءِ... اختيار ڪيل, معذور يا بيان نه ڪيو ويو (ڊفالٽ اجازت) توهان رنگين بيجز سان انهن جي حيثيت ڏسي سگهو ٿا.

نتيجن جي اسڪرين ۾ AI بوٽس لاءِ بند ڪرڻ لاءِ تيار آپشن پڻ شامل آهي. روبوٽس.ٽيڪسٽ مثال طور ضابطا پڻ مهيا ڪيا ويا آهن. جيڪڏهن توهان سائيٽ جا مالڪ نه آهيو ته توهان ان کي ڪنهن به سائيٽ جي پاليسي جي تحقيق لاءِ پڻ استعمال ڪري سگهو ٿا. سڀئي سوال سرور طرف آهن؛ درخواستون صرف عوامي IP پتي تي موڪليون وينديون آهن، مقامي ۽ خانگي نيٽ ورڪ بلاڪ سيڪيورٽي سببن جي ڪري بلاڪ ڪيا ويا آهن.

ان کي ڪيئن استعمال ڪجي؟

قدم بہ قدم

ڊومين جو نالو يا پورو URL داخل ڪريو (مثال طور) مثال. ڪام يا https://example.com).
چيڪ ڪريو بٽڻ تي ڪلڪ ڪريو؛ اوزار سائيٽ تي هوندو. روبوٽس.ٽيڪسٽ اهو فائل واپس آڻيندو آهي.
هر AI بوٽ لاءِ اختيار ڪيل, معذور يا اڻ ڄاڻايل رنگين بيجز سان پنهنجي حيثيت ڏسو.
جيڪڏهن ضروري هجي ته، توهان صفحي جي تري ۾ تيار ڪيل قاعدن کي پنهنجي سائيٽ تي نقل ڪري سگهو ٿا. روبوٽس.ٽيڪسٽ ان کي فائل ۾ شامل ڪريو.

FAQ

وچان وچان سوال ڪرڻ

robots.txt هڪ معياري پروٽوڪول آهي جيڪو ويب ڪريلرز کي ٻڌائي ٿو ته اهي ڪهڙن صفحن تائين رسائي حاصل ڪري سگهن ٿا. AI ڪمپنيون اهو يقيني بڻائڻ لاءِ پرعزم آهن ته انهن جا ڊيٽا گڏ ڪندڙ بوٽ هن فائل سان عمل ڪن. فائل کي صحيح طريقي سان ترتيب ڏيڻ توهان جي مواد کي AI ٽريننگ ڊيٽاسيٽس ۾ داخل ٿيڻ يا حقيقي وقت AI ڳولا ۾ استعمال ٿيڻ کان روڪڻ جو تيز ترين طريقو آهي.

جيڪڏهن توهان جي robots.txt فائل ۾ ان بوٽ لاءِ ڪو خاص قاعدو ناهي، ۽ `User-agent: * (سڀ بوٽ)` بلاڪ ۾ ڪا به پابندي ناهي، ته پوءِ بوٽ کي ڊفالٽ طور تي اجازت ڏنل رسائي سمجهيو ويندو. ان جو مطلب آهي ته جيڪڏهن توهان بوٽ کي بلاڪ ڪرڻ چاهيو ٿا ته توهان کي هڪ ڪسٽم قاعدو شامل ڪرڻ جي ضرورت پوندي.

نه، robots.txt هڪ ٽيڪنيڪل ڪرسٽي پروٽوڪول آهي؛ اهو قانوني گهرج ناهي. جڏهن ته سنجيده AI ڪمپنين جا بوٽ انهن قاعدن تي عمل ڪرڻ جو عزم ڪن ٿا، خراب ڪندڙ ڪريلر انهن کي نظرانداز ڪري سگهن ٿا. حساس مواد لاءِ، رسائي ڪنٽرول ۽ تصديق جهڙا اضافي اپاءَ وٺڻ جي سفارش ڪئي وئي آهي.

گوگل-ايڪسٽينڊڊ هڪ خاص ڪرولر آئي ڊي آهي جيڪا گوگل جيميني ۽ اي آءِ اوور ويوز جهڙن اي آءِ پراڊڪٽس کي ترقي ڪرڻ لاءِ استعمال ڪندو آهي. اهو باقاعده گوگل سرچ بوٽ (گوگل بوٽ) کان الڳ آهي؛ صرف جيڪڏهن هي بوٽ بلاڪ ڪيو ويندو ته توهان جو ويب پيج گوگل سرچ نتيجن ۾ ظاهر ٿيندو.

ڪامن ڪرال هڪ اوپن سورس ويب آرڪائيو پروجيڪٽ آهي، ۽ ڪيترن ئي وڏن ٻولين جي ماڊلز (GPT-3/4 سميت) تربيت لاءِ CCBot ڊيٽا استعمال ڪيو آهي. CCBot کي بلاڪ ڪرڻ سان توهان جي مواد جي مقدار گهٽجي سگهي ٿي جيڪا مستقبل جي اوپن سورس AI ماڊلز ۾ داخل ٿيندي.

سڀني مفت اوزارن ڏانهن واپس وڃو

اي آءِ بوٽ رسائي ڪنٽرول

AI بوٽ رسائي ڪنٽرول جي حوالي سان

قدم بہ قدم

وچان وچان سوال ڪرڻ

robots.txt ڇو اهم آهي؟

'غير واضح' حيثيت جو مطلب ڇا آهي؟

ڇا robots.txt قاعدا قانوني طور تي پابند آهن؟

گوگل ايڪسٽينڊڊ ڇا آهي؟

هن لسٽ ۾ سي سي بوٽ (عام ڪرال) ڇو آهي؟