SEO & কন্টেন্ট

AI বট অ্যাক্সেস কন্ট্রোল

আপনার সাইটের robots.txt ফাইল বিশ্লেষণ করুন; রিয়েল টাইমে GPTBot, ClaudeBot, Perplexity এবং আরও ১৭টি এআই ক্রলারের অ্যাক্সেস স্ট্যাটাস দেখুন।

AI বট অ্যাক্সেস কন্ট্রোল
তথ্য

এআই বট অ্যাক্সেস কন্ট্রোল সংক্রান্ত

এআই কোম্পানিগুলো (ওপেনএআই, অ্যানথ্রোপিক, গুগল, মেটা, অ্যামাজন এবং আরও অনেক) ওয়েব ক্রল করতে এবং এআই মডেলকে প্রশিক্ষণ দিতে বা রিয়েল-টাইম সার্চ চালানোর জন্য বিশেষায়িত বট ব্যবহার করে। এই বটগুলো আপনার সাইটে প্রবেশ করে, robots.txt এটি আপনার ফাইলে থাকা নিয়ম দ্বারা নির্ধারিত হয়। তবে, কোন বটগুলোকে অনুমতি দেওয়া হয়েছে এবং কোনগুলোকে ব্লক করা হয়েছে, তা এক জায়গায় দেখা বেশ কষ্টসাধ্য।

এআই বট অ্যাক্সেস কন্ট্রোল টুলটি আপনার ভিজিট করা ওয়েবসাইটটি যাচাই করে। robots.txt এটি রিয়েল টাইমে সার্ভার থেকে ফাইলটি সংগ্রহ করে এবং স্বয়ংক্রিয়ভাবে ১৭টি ভিন্ন এআই ক্রলারের অবস্থা বিশ্লেষণ করে: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot এবং Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent এবং FacebookBot (Meta); DuckAssistBot এবং cohere-ai। প্রতিটি বটের জন্য... অনুমোদিত, প্রতিবন্ধী অথবা নির্দিষ্ট করা হয়নি (ডিফল্ট অনুমতি) আপনি রঙিন ব্যাজের মাধ্যমে তাদের অবস্থা দেখতে পারেন।

ফলাফলের স্ক্রিনে এআই বটগুলো বন্ধ করার একটি অপশনও রয়েছে। robots.txt উদাহরণস্বরূপ কিছু নিয়মও দেওয়া আছে। আপনি যদি কোনো সাইটের মালিক না হন, তবে সেই সাইটের নীতি সম্পর্কে জানতেও এটি ব্যবহার করতে পারেন। সমস্ত কোয়েরি সার্ভার-সাইডে পরিচালিত হয়; অনুরোধগুলি শুধুমাত্র পাবলিক আইপি অ্যাড্রেসে পাঠানো হয় এবং নিরাপত্তার কারণে লোকাল ও প্রাইভেট নেটওয়ার্ক ব্লক করা থাকে।

এটি কীভাবে ব্যবহার করবেন?

ধাপে ধাপে

  1. ডোমেইন নাম অথবা সম্পূর্ণ ইউআরএল লিখুন (উদাহরণস্বরূপ) example.com অথবা https://example.com).
  2. চেক বাটনটিতে ক্লিক করুন; টুলটি সাইটে পাওয়া যাবে। robots.txt এটি ফাইলটি পুনরুদ্ধার করে।
  3. প্রতিটি এআই বটের জন্য অনুমোদিত, প্রতিবন্ধী অথবা অনির্দিষ্ট রঙিন ব্যাজ দিয়ে আপনার স্ট্যাটাস দেখুন।
  4. প্রয়োজনে, আপনি পৃষ্ঠার নীচে থাকা তৈরি নিয়মগুলো আপনার সাইটে কপি করতে পারেন। robots.txt এটি ফাইলে যোগ করুন।
FAQ

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী

robots.txt হলো একটি স্ট্যান্ডার্ড প্রোটোকল যা ওয়েব ক্রলারদের বলে দেয় তারা কোন কোন পেজ অ্যাক্সেস করতে পারবে। এআই কোম্পানিগুলো তাদের ডেটা-সংগ্রহকারী বটগুলো যেন এই ফাইলটি মেনে চলে, তা নিশ্চিত করতে প্রতিশ্রুতিবদ্ধ। আপনার কন্টেন্ট যাতে এআই ট্রেনিং ডেটাসেটে প্রবেশ করতে না পারে বা রিয়েল-টাইম এআই সার্চে ব্যবহৃত না হয়, তা প্রতিরোধের সবচেয়ে দ্রুত উপায় হলো ফাইলটি সঠিকভাবে কনফিগার করা।

যদি আপনার robots.txt ফাইলে সেই বটটির জন্য কোনো নির্দিষ্ট নিয়ম না থাকে এবং `User-agent: * (all bots)` ব্লকে কোনো বিধিনিষেধ না থাকে, তাহলে বটটিকে ডিফল্টরূপে অ্যাক্সেসের অনুমতিপ্রাপ্ত বলে ধরে নেওয়া হয়। এর মানে হলো, আপনি যদি বটটিকে ব্লক করতে চান, তাহলে আপনাকে একটি কাস্টম নিয়ম যোগ করতে হবে।

না, robots.txt হলো একটি প্রযুক্তিগত সৌজন্যমূলক প্রোটোকল; এটি কোনো আইনি বাধ্যবাধকতা নয়। যদিও নামকরা এআই কোম্পানিগুলোর বটগুলো এই নিয়মগুলো মেনে চলতে প্রতিশ্রুতিবদ্ধ, ক্ষতিকারক ক্রলাররা এগুলো উপেক্ষা করতে পারে। সংবেদনশীল বিষয়বস্তুর জন্য, অ্যাক্সেস কন্ট্রোল এবং অথেনটিকেশনের মতো অতিরিক্ত ব্যবস্থা নেওয়ার পরামর্শ দেওয়া হয়।

গুগল-এক্সটেন্ডেড হলো একটি বিশেষ ক্রলার আইডি যা গুগল জেমিনি এবং এআই ওভারভিউসের মতো এআই পণ্য তৈরি করতে ব্যবহার করে। এটি সাধারণ গুগল সার্চ বট (গুগলবট) থেকে আলাদা; শুধুমাত্র এই বটটি ব্লক করা হলেই আপনার ওয়েবপেজটি গুগল সার্চ ফলাফলে প্রদর্শিত হতে থাকবে।

কমন ক্রল একটি ওপেন-সোর্স ওয়েব আর্কাইভ প্রকল্প, এবং অনেক প্রধান ল্যাঙ্গুয়েজ মডেল (GPT-3/4 সহ) প্রশিক্ষণের জন্য CCBot ডেটা ব্যবহার করেছে। CCBot ব্লক করলে ভবিষ্যতে ওপেন-সোর্স এআই মডেলগুলিতে আপনার কন্টেন্টের অন্তর্ভুক্ত হওয়ার পরিমাণ কমে যেতে পারে।