কিভাবে গাইড

রোবটস.txt এবং সাইটম্যাপ ফাইল কীভাবে তৈরি করবেন? (২০২৬ SEO গাইড)

রোবটস.txt এবং সাইটম্যাপ ফাইল কীভাবে তৈরি করবেন? (২০২৬ SEO গাইড)

Robots.txt এবং sitemap ফাইল হল দুটি গুরুত্বপূর্ণ টেকনিক্যাল SEO ফাইল যা একটি ওয়েবসাইটকে সার্চ ইঞ্জিনগুলো কীভাবে ক্রল করবে এবং কোন পেজগুলো খুঁজে পাবে তা নিয়ন্ত্রণ করে। Robots.txt বট যেমন Googlebot কে বলে কোন অংশে প্রবেশ করা যাবে এবং কোন অংশে যাবে না; আর sitemap অর্থাৎ সাইট ম্যাপ সার্চ ইঞ্জিনকে গুরুত্বপূর্ণ URL, আপডেটের তারিখ এবং পেজ স্ট্রাকচার জানায়। সহজ করে বললে: robots.txt ক্রলিং নিয়ন্ত্রণ করে, sitemap দ্রুত খোঁজকে সহজ করে। সঠিকভাবে তৈরি করা robots.txt এবং sitemap ফাইল বিশেষ করে নতুন ওয়েবসাইট, ই-কমার্স প্রজেক্ট, কর্পোরেট সাইট এবং বড় কনটেন্ট আর্কাইভে ইনডেক্সিং এর কার্যকারিতা অনেক বাড়িয়ে দেয়।

এই গাইডে আমরা ধাপে ধাপে দেখব কিভাবে robots.txt এবং sitemap ফাইল তৈরি করবেন, কোন নিয়মগুলো মানতে হবে, WordPress এবং কাস্টম সফটওয়্যার সাইটে কী খেয়াল রাখতে হবে, ভুলগুলো কিভাবে পরীক্ষা করবেন এবং কিভাবে ফাইলগুলো Google-এ রিকোয়েস্ট পাঠাবেন। Hostragons ব্লগের জন্য প্রস্তুত এই কনটেন্টটি ২০২৬ সালের SEO স্ট্যান্ডার্ড অনুসারে; ইউজার ইরাদা, টেকনিক্যাল সঠিকতা, ক্রলিং বাজেট, ইনডেক্সেবিলিটি এবং প্র্যাকটিক্যাল অ্যাপ্লিকেশন ফোকাস করে তৈরি করা হয়েছে।

Robots.txt কী?

Robots.txt হল আপনার ওয়েবসাইটের মূল ফোল্ডারে থাকা একটি সাধারণ টেক্সট ফাইল। সাধারণত এটি https://alanadiniz.com/robots.txt ঠিকানায় পাওয়া যায়। এই ফাইলটি সার্চ ইঞ্জিন বটগুলোকে নির্দেশ দেয় কোন ফোল্ডার বা পেজগুলো ক্রল করা যাবে এবং কোনগুলো ক্রল করা উচিত নয়। গুরুত্বপূর্ণ বিষয়টি হচ্ছে: robots.txt কোনো সিকিউরিটি টুল নয়। এটি শুধুমাত্র সদিচ্ছাসম্পন্ন বটদের জন্য একটি ক্রল নির্দেশিকা।

উদাহরণস্বরূপ, অ্যাডমিন প্যানেল, কার্ট স্টেপ, ফিল্টার প্যারামিটার, সার্চ রেজাল্ট পেজ বা টেস্ট ডিরেক্টরিগুলো সার্চ ইঞ্জিন ক্রল থেকে ব্লক করা যেতে পারে। কিন্তু গোপন তথ্য robots.txt দিয়ে সুরক্ষিত হয় না, কারণ এই ফাইল সবাই দেখতে পারে। প্রকৃত নিরাপত্তার জন্য পাসওয়ার্ড প্রোটেকশন, সার্ভার-সাইড এক্সেস রেস্ট্রিকশন, সুরক্ষিত হোস্টিং সেটআপ এবং SSL ব্যবহার প্রয়োজন। এই ক্ষেত্রে আপনার ওয়েবসাইটের বেসিক সুরক্ষার জন্য এসএসএল সার্টিফিকেট এবং পারফরম্যান্ট ইনফ্রাস্ট্রাকচারের জন্য ওয়েব হোস্টিং সমাধানগুলো বিবেচনা করতে পারেন।

Robots.txt ফাইলের কাজ কী?

  • সার্চ ইঞ্জিন বটগুলোর ক্রল আচরণ নিয়ন্ত্রণ করে।
  • অপ্রয়োজনীয় বা পুনরাবৃত্ত পেজের ক্রল কমায়।
  • ক্রল বাজেট গুরুত্বপূর্ণ পেজে বরাদ্দ করতে সাহায্য করে।
  • সাইটম্যাপ ফাইলের অবস্থান বটদের জানায়।
  • টেস্ট, প্যানেল, ইন্টারনাল সার্চ এবং প্যারামিটারযুক্ত URL এর মতো অংশের ক্রল বন্ধ করতে পারে।

বিশেষ করে হাজার হাজার পণ্য, ক্যাটেগরি, ট্যাগ বা ফিল্টার পেজ থাকা সাইটে যদি robots.txt ভুলভাবে তৈরি করা হয়, তাহলে Google গুরুত্বপূর্ণ পেজগুলো দেরিতে খুঁজে পেতে পারে। অন্যদিকে অতিরিক্ত সীমাবদ্ধ ফাইল ব্যবহার করলে CSS, JavaScript, ইমেজ ফাইল বা ক্যাটেগরি পেজ ব্লক হতে পারে এবং র‍্যাংকিংয়ে নেতিবাচক প্রভাব পড়তে পারে।

Sitemap কি?

Sitemap, বাংলায় সাইট ম্যাপ নামে পরিচিত, একটি XML ফরম্যাটের ফাইল যা সার্চ ইঞ্জিনকে আপনার ওয়েবসাইটের গুরুত্বপূর্ণ URL গুলো তালিকাভুক্ত করে। সাধারণত এটি https://alanadiniz.com/sitemap.xml ঠিকানায় পাওয়া যায়। Sitemap সার্চ ইঞ্জিনকে এই বার্তাটি দেয়: এই পেজগুলো আমার জন্য গুরুত্বপূর্ণ, দয়া করে এগুলো খুঁজে বের করো এবং প্রাসঙ্গিকগুলোকে ইনডেক্স প্রক্রিয়ায় অন্তর্ভুক্ত করো।

একটি sitemap ফাইলে URL, শেষ আপডেটের তারিখ, পরিবর্তনের ফ্রিকোয়েন্সি এবং অগ্রাধিকার মতো তথ্য থাকতে পারে। ২০২৬ সালের SEO কৌশলে বিশেষ করে শেষ আপডেটের তারিখের গুরুত্ব বেড়েছে। কারণ সার্চ ইঞ্জিনগুলো সর্বশেষ এবং মানসম্পন্ন কন্টেন্ট আরও কার্যকরভাবে খুঁজে পেতে চায়। তবে sitemap একাই ইনডেক্সের গ্যারান্টি দেয় না। একটি URL sitemap-এ থাকা মানে ওই পেজটি অবশ্যই Google-এ তালিকাভুক্ত হবে এমন নয়। পেজটি মানসম্পন্ন, সহজলভ্য, ইনডেক্সযোগ্য, সঠিক ক্যানোনিক্যাল এবং ব্যবহারকারীর উদ্দেশ্যের সাথে সঙ্গতিপূর্ণ হওয়া প্রয়োজন।

Sitemap ফাইল কখন প্রয়োজন?

  • আপনার নতুন একটি ওয়েবসাইট থাকলে।
  • আপনার কাছে প্রচুর পেজ, প্রোডাক্ট বা ব্লগ কন্টেন্ট থাকলে।
  • সাইটের ভিতরে লিংকিং দুর্বল হলে।
  • আপনার ছবি, ভিডিও বা নিউজ কন্টেন্ট বেশি হলে।
  • ই-কমার্স সাইটে প্রোডাক্ট আপডেট ঘনঘন হলে।
  • পুরনো কন্টেন্ট নিয়মিত আপডেট করলে।

একটি ছোট এবং সুশৃঙ্খল ইন্টারনাল লিঙ্কিং স্ট্রাকচারযুক্ত ওয়েবসাইটেও sitemap ব্যবহার করা ভালো অভ্যাস। কারণ সাইট ম্যাপ সার্চ ইঞ্জিনকে স্পষ্ট একটি URL তালিকা দেয় এবং সম্ভাব্য খোঁজার বিলম্ব কমায়।

Robots.txt এবং Sitemap-এর মধ্যে পার্থক্য

Robots.txt এবং sitemap ফাইল একসাথে কাজ করলেও তাদের ভূমিকা আলাদা। Robots.txt মূলত ক্রলারদের অনুমতি ও সীমাবদ্ধতা নির্ধারণ করে, যেখানে sitemap আপনি যেসব URL সার্চ ইঞ্জিনে খুঁজে পেতে চান সেগুলো তালিকাভুক্ত করে। নিচের টেবিলটি মূল পার্থক্যগুলো সংক্ষিপ্তভাবে তুলে ধরে।

Robots.txt এবং Sitemap-এর মধ্যে পার্থক্য
বৈশিষ্ট্যRobots.txtSitemap
মূল উদ্দেশ্যবটদের কোন অংশ স্ক্যান করতে হবে তা নির্দেশ দেওয়াগুরুত্বপূর্ণ URL সার্চ ইঞ্জিনকে জানানো
ফাইলের অবস্থানরুট ডিরেক্টরি: /robots.txtসাধারণত /sitemap.xml
ফরম্যাটসাধারণ টেক্সটXML
ইনডেক্স গ্যারান্টি দেয়?নানা
ভুল ব্যবহারের ঝুঁকিগুরুত্বপূর্ণ পেজগুলো স্ক্যান বন্ধ করতে পারেনিম্নমানের বা noindex পেজ পাঠাতে পারে
SEO প্রভাবক্রলিং বাজেট পরিচালনায় সাহায্য করেURL আবিষ্কার ও আপডেট সিগন্যাল শক্তিশালী করে

Robots.txt ফাইল কীভাবে তৈরি করবেন?

Robots.txt ফাইল তৈরি করা প্রযুক্তিগতভাবে সহজ; তবে SEO এর জন্য সতর্কতা প্রয়োজন। ফাইলের নাম অবশ্যই ছোট হাতের robots.txt হতে হবে এবং সাইটের মূল ডিরেক্টরিতে আপলোড করতে হবে। অর্থাৎ সঠিক ঠিকানা হবে https://alanadiniz.com/robots.txt। সাবফোল্ডারে আপলোড করা robots.txt ফাইল বৈধ হিসেবে গণ্য হবে না।

১. বেসিক Robots.txt স্ট্রাকচার তৈরি করুন

সবচেয়ে সাধারণ স্ট্রাকচারটি সব বটকে সাইট ক্রল করার অনুমতি দেয় এবং সাইটম্যাপের অবস্থান জানায়:

  • User-agent: *
  • Allow: /
  • Sitemap: https://alanadiniz.com/sitemap.xml

এখানে User-agent: * মানে সব বট। Allow: / পুরো সাইট ক্রল করার অনুমতি দেয়। Sitemap লাইনটি সাইটম্যাপের অবস্থান নির্দেশ করে। নতুন তৈরি ও ইন্ডেক্স করতে চাওয়া ওয়েবসাইটের জন্য এই স্ট্রাকচার সাধারণত নিরাপদ শুরু।

২. আপনি যেসব অংশ ক্রল করতে চান না সেগুলো নির্ধারণ করুন

প্রত্যেক পেজ ক্রল করা প্রয়োজন হয় না। বিশেষ করে ব্যবহারকারীর জন্য বিশেষ, অস্থায়ী, পুনরাবৃত্তি বা কম SEO মান সম্পন্ন পেজ robots.txt দিয়ে সীমাবদ্ধ করা যেতে পারে। উদাহরণস্বরূপ:

  • Disallow: /wp-admin/
  • Disallow: /sepet/
  • Disallow: /odeme/
  • Disallow: /arama/
  • Disallow: /test/

WordPress সাইটে /wp-admin/ ফোল্ডার ক্রল বন্ধ রাখা সাধারণ। তবে WordPress এর কিছু AJAX ফাইল কাজ করার জন্য /wp-admin/admin-ajax.php ফাইলে অনুমতি দিতে হয়। তাই WordPress এর জন্য উদাহরণ স্ট্রাকচার হতে পারে:

  • User-agent: *
  • Disallow: /wp-admin/
  • Allow: /wp-admin/admin-ajax.php
  • Sitemap: https://alanadiniz.com/sitemap.xml

এই উদাহরণে অ্যাডমিন প্যানেল ক্রল বন্ধ থাকলেও থিম এবং প্লাগইনগুলোর প্রয়োজনীয় AJAX কার্যক্রমের অনুমতি দেয়া হয়েছে। আপনার WordPress সাইট দ্রুত এবং স্থিতিশীল চালানোর জন্য WordPress হোস্টিং সার্ভিসগুলোও দেখতে পারেন।

৩. ই-কমার্স সাইটের জন্য প্যারামিটার ও ফিল্টারগুলো যাচাই করুন

ই-কমার্স সাইটে ফিল্টারিং, সাজানো, রং, সাইজ, মূল্য সীমা, স্টক অবস্থা এবং সার্চ প্যারামিটারগুলো হাজার হাজার URL তৈরি করতে পারে। যেমন একই ক্যাটাগরি বিভিন্ন ভ্যারিয়েশনে বাড়তে পারে: /ayakkabi?renk=siyah, /ayakkabi?beden=42, /ayakkabi?sort=price_asc। এই স্ট্রাকচার নিয়ন্ত্রণ না করলে Google বট অনেক কম মানের প্যারামিটারযুক্ত পেজ ক্রল করতে পারে।

এই ধরনের ক্ষেত্রের জন্য robots.txt, canonical ট্যাগ এবং Google Search Console ডেটা একসাথে বিবেচনা করা উচিত। শুধুমাত্র robots.txt দিয়ে সব প্যারামিটার বন্ধ করাই সর্বদা সঠিক সমাধান নয়। কারণ কিছু ফিল্টার পেজ বাণিজ্যিক অনুসন্ধান উদ্দেশ্যে থাকতে পারে। উদাহরণস্বরূপ কালো পুরুষ স্পোর্টস শু মত একটি ক্যাটাগরি SEO মান বহন করলে তা আলাদা ক্যাটাগরি পেজ হিসেবে পরিকল্পনা করা উচিত।

৪. CSS ও JavaScript ফাইল ব্লক করবেন না

আধুনিক SEO তে Google শুধু HTML নয়, রেন্ডার করা পেজের ওপর ভিত্তি করে মূল্যায়ন করে। তাই CSS ও JavaScript ফাইল ব্লক করলে Google পেজ লেআউট, মোবাইল ফ্রেন্ডলিনেস, মেনু বা কন্টেন্ট লোডিং প্যাটার্ন বুঝতে সমস্যা হতে পারে। অতীতে ব্যবহৃত Disallow: /assets/ বা Disallow: /js/ মত বিস্তৃত নিয়ম আজ ঝুঁকিপূর্ণ।

২০২৬ সালের জন্য নিরাপদ পন্থা হলো: ব্যবহারকারীর অভিজ্ঞতা তৈরি করে এমন CSS, JS, ইমেজ এবং ফন্ট ফাইলগুলো বটের জন্য উন্মুক্ত রাখা। শুধুমাত্র বাস্তবিক প্রয়োজনীয় অ্যাডমিন, অস্থায়ী বা ব্যক্তিগত ডিরেক্টরি সীমাবদ্ধ করা উচিত।

৫. Robots.txt ফাইল পরীক্ষা করুন

ফাইল আপলোড করার পর অবশ্যই পরীক্ষা করুন। যাচাই করার বিষয়গুলো:

  • https://alanadiniz.com/robots.txt ঠিকানা ২০০ স্ট্যাটাস কোড সহ খোলে কি?
  • ফাইল খালি, ভুল বা ভুল ডোমেইনের জন্য তো নয়?
  • Sitemap লাইন সঠিক URL দেখাচ্ছে কি?
  • গুরুত্বপূর্ণ ক্যাটাগরি, প্রোডাক্ট, সার্ভিস এবং ব্লগ পেজ ব্লক করা হয়েছে কি?
  • CSS, JS এবং ইমেজ রিসোর্স ভুলবশত বন্ধ হয়েছে কি?

Google Search Console এর URL Inspection টুল দিয়ে গুরুত্বপূর্ণ পেজ ক্রলযোগ্য কিনা পরীক্ষা করতে পারেন। সার্ভার লগ থেকে Googlebot কোন URL গুলো ভিজিট করেছে বিশ্লেষণ করাও উন্নত কিন্তু মূল্যবান পদ্ধতি। শক্তিশালী সার্ভার পারফরম্যান্স ও সঠিক কনফিগারেশনের জন্য ভিপিএস সার্ভার বা কর্পোরেট হোস্টিং অপশনগুলো বিবেচনা করতে পারেন।

সাইটম্যাপ ফাইল কীভাবে তৈরি করবেন?

সাইটম্যাপ তৈরি করার মূল উদ্দেশ্য হলো সার্চ ইঞ্জিনকে একটি পরিষ্কার ও মানসম্পন্ন URL তালিকা প্রদান করা, যেগুলো আপনি ইনডেক্স করাতে চান। প্রতিটি URL সাইটম্যাপে থাকা বাধ্যতামূলক নয়। এমনকি noindex, রিডাইরেক্টেড, এরর দেওয়া বা কপি পেজগুলো সাইটম্যাপে যোগ করলে SEO এর জন্য নেতিবাচক সঙ্কেত তৈরি হতে পারে।

১. শুধুমাত্র ইনডেক্সযোগ্য URL যোগ করুন

সাইটম্যাপে যে পেজগুলো যোগ করবেন সেগুলো নিম্নলিখিত শর্ত পূরণ করতে হবে:

  • ২০০ স্টেটাস কোড রিটার্ন করবে।
  • Noindex ট্যাগ থাকবে না।
  • Robots.txt দ্বারা ব্লক করা হবে না।
  • ক্যাননিকাল ট্যাগ নিজেই বা সঠিক টার্গেট দেখাবে।
  • ইউজারের জন্য মূল্যবান ইউনিক কন্টেন্ট থাকবে।
  • মোবাইল ফ্রেন্ডলি এবং দ্রুত লোড হবে।

উদাহরণস্বরূপ, মুছে ফেলা প্রোডাক্ট পেজ, স্টক শেষ এবং স্থায়ীভাবে সরানো পণ্য, ইন্টারনাল সার্চ রেজাল্ট, কার্ট এবং পেমেন্ট পেজ সাইটম্যাপে থাকা উচিত নয়। এর বিপরীতে মেইন ক্যাটাগরি পেজ, গুরুত্বপূর্ণ সাবক্যাটাগরি, সার্ভিস পেজ, ব্লগ পোস্ট এবং অ্যাক্টিভ প্রোডাক্ট সাইটম্যাপে অন্তর্ভুক্ত হওয়া উচিত।

২. XML সাইটম্যাপ ফরম্যাট সঠিকভাবে ব্যবহার করুন

সরল একটি XML সাইটম্যাপ গঠন নিম্নরূপ:

  • <urlset> প্রধান কন্টেনার।
  • <url> প্রতিটি পেজের জন্য আলাদা ব্লক।
  • <loc> পেজের পূর্ণ URL।
  • <lastmod> পেজের সর্বশেষ আপডেটের তারিখ।

একটি URL এন্ট্রি উদাহরণস্বরূপ হতে পারে: <loc>https://alanadiniz.com/hizmetler/</loc> এবং <lastmod>2026-01-15</lastmod>. এখানে তারিখের ফরম্যাট বছর-মাস-দিন হওয়া উচিত। lastmod ক্ষেত্রটি স্বয়ংক্রিয় এবং সঠিকভাবে আপডেট করা গুরুত্বপূর্ণ। কেবল Google কে ট্রিগার করার জন্য প্রতিদিন সব URL এর তারিখ আপডেট করা বিশ্বাসযোগ্য প্র্যাকটিস নয়।

৩. বড় সাইটে সাইটম্যাপ ভাগ করে নিন

একটি স্ট্যান্ডার্ড XML সাইটম্যাপ ফাইলে সর্বোচ্চ ৫০,০০০ URL থাকা উচিত এবং আনজিপ করা অবস্থায় ৫০ এমবি সাইজ অতিক্রম করা উচিত নয়। বড় সাইটে একক সাইটম্যাপের পরিবর্তে সাইটম্যাপ ইনডেক্স ব্যবহার করা বেশি কার্যকর। যেমন:

  • /post-sitemap.xml
  • /page-sitemap.xml
  • /product-sitemap.xml
  • /category-sitemap.xml
  • /image-sitemap.xml

এই স্ট্রাকচার সার্চ ইঞ্জিনকে ফাইলগুলো আরও দক্ষতার সাথে প্রসেস করতে সাহায্য করে এবং কোন কনটেন্ট টাইপে ইনডেক্সিং সমস্যা হচ্ছে তা বিশ্লেষণ করা সহজ হয়। উদাহরণস্বরূপ, প্রোডাক্ট সাইটম্যাপের ২০,০০০ URL থেকে মাত্র ৮,০০০ ইনডেক্স হচ্ছে, তাহলে প্রোডাক্ট ডেসক্রিপশন, স্টক স্টেটাস, কপি কন্টেন্ট, পেজ স্পিড বা ফিল্টার স্ট্রাকচার আলাদাভাবে পরীক্ষা করা উচিত।

৪. WordPress-এ সাইটম্যাপ তৈরি

WordPress ৫.৫ এবং পরবর্তী ভার্সনে বিল্ট-ইন XML সাইটম্যাপ ফিচার রয়েছে। ডিফল্টভাবে /wp-sitemap.xml থেকে অ্যাক্সেস করা যায়। তবে অনেক পেশাদার প্রজেক্টে Rank Math, Yoast SEO বা অনুরূপ SEO প্লাগইন ব্যবহার করা হয় কারণ এগুলো উন্নত সাইটম্যাপ কন্ট্রোল দেয়। এই প্লাগইনগুলো দিয়ে কোন কনটেন্ট টাইপ সাইটম্যাপে থাকবে, ট্যাগ আর্কাইভ দেখানো হবে কি না এবং লেখক আর্কাইভ কিভাবে ম্যানেজ করা হবে তা নির্ধারণ করা যায়।

WordPress সাইটে সাধারণ ভুল হচ্ছে কম মানের ট্যাগ পেজগুলো সাইটম্যাপে যোগ করা। যদি ট্যাগ পেজে ইউনিক ডিসক্রিপশন, শক্তিশালী ইন্টারনাল লিঙ্কিং এবং আসল সার্চ ডিমান্ড না থাকে, তবে সেগুলো সাইটম্যাপ থেকে বাদ দেওয়াই ভালো। আপনার কন্টেন্ট স্ট্র্যাটেজি শক্তিশালী করতে SEO উপযোগী ব্লগ পোস্ট কিভাবে লেখবেন বিষয়েও লিঙ্ক করতে পারেন।

৫. কাস্টম সফটওয়্যার সাইটে সাইটম্যাপ অটোমেশন সেটআপ করুন

কাস্টম সফটওয়্যার ব্যবহার করা সাইটে সাইটম্যাপ ম্যানুয়ালি তৈরি করা যেতে পারে; তবে ডায়নামিক প্রজেক্টে অটোমেটিক জেনারেশন অপরিহার্য। প্রোডাক্ট যোগ করা হলে, ব্লগ পোস্ট প্রকাশিত হলে, সার্ভিস পেজ আপডেট হলে সাইটম্যাপও স্বয়ংক্রিয়ভাবে আপডেট হতে হবে। ডেভেলপার টিমকে নিম্নলিখিত নিয়মগুলো মেনে চলার পরামর্শ দেওয়া হয়:

  • লাইভ পেজগুলো স্বয়ংক্রিয়ভাবে সাইটম্যাপে যোগ হবে।
  • মুছে ফেলা বা ৪০৪ রিটার্ন করা URL সাইটম্যাপ থেকে সরানো হবে।
  • Noindex দেয়া পেজ সাইটম্যাপে থাকবে না।
  • ক্যাননিকাল টার্গেট ভিন্ন পেজ সাবধানে ম্যানেজ করা হবে।
  • lastmod কেবলমাত্র আসল কন্টেন্ট পরিবর্তনে আপডেট হবে।

এই অটোমেশন বিশেষ করে দ্রুত আপডেট হওয়া নিউজ, বিজ্ঞাপন, রিজার্ভেশন, এডুকেশন এবং ই-কমার্স প্রজেক্টের টেকনিক্যাল SEO স্বাস্থ্য রক্ষায় অত্যন্ত গুরুত্বপূর্ণ।

Robots.txt ফাইলে Sitemap কীভাবে নির্ধারণ করবেন?

Robots.txt ফাইলের নিচে sitemap এর লিংক যোগ করা একটি ভালো অভ্যাস। এর ফলে বটগুলো সহজেই আপনার সাইটম্যাপ খুঁজে পেতে পারে। ব্যবহার উদাহরণ:

  • User-agent: *
  • Allow: /
  • Sitemap: https://alanadiniz.com/sitemap.xml

যদি আপনার একাধিক sitemap ফাইল থাকে, তাহলে প্রতিটিকে আলাদা লাইনে লিখতে পারেন:

  • Sitemap: https://alanadiniz.com/post-sitemap.xml
  • Sitemap: https://alanadiniz.com/product-sitemap.xml
  • Sitemap: https://alanadiniz.com/category-sitemap.xml

আপনার ডোমেইনে HTTPS ব্যবহার করলে sitemap URL গুলোও অবশ্যই HTTPS হতে হবে। HTTP, www এবং non-www এর ভ্যারিয়েশনগুলো মিশ্রিত হওয়া উচিত নয়। তাই ডোমেইন, SSL এবং রিডাইরেকশনের কাঠামো শুরু থেকেই সঠিকভাবে পরিকল্পনা করা জরুরি। নতুন কোনো প্রজেক্ট শুরু করলে ডোমেইন অনুসন্ধান এবং এসএসএল সার্টিফিকেট ধাপগুলোকে আপনার টেকনিক্যাল SEO পরিকল্পনার সঙ্গে বিবেচনা করুন।

Google Search Console-এ সাইটম্যাপ পাঠানো

Google Search Console-এ সাইটম্যাপ পাঠানো

সাইটম্যাপ তৈরি করার পর Google Search Console থেকে সেটি পাঠাতে হবে। ধাপগুলো হলো:

  • Google Search Console-এ লগইন করুন।
  • সঠিক প্রপার্টি (মালিকানা) নির্বাচন করুন। সাধারণত ডোমেইন প্রপার্টি ব্যবহার করা উত্তম।
  • বাম মেনু থেকে সাইটম্যাপস (Site Haritaları) বিভাগে যান।
  • সাইটম্যাপ URL লিখুন। যেমন sitemap.xml।
  • সেন্ড (Gönder) বাটনে ক্লিক করুন।
  • স্ট্যাটাস অংশে সফলতা (Başarılı) এবং আবিষ্কৃত URL-এর সংখ্যা যাচাই করুন।

সাইটম্যাপ পাঠানোর পর সব পেজ একসাথে ইনডেক্স হওয়ার আশা করবেন না। Google প্রথমে URL গুলো আবিষ্কার করে, ক্রল করে, প্রক্রিয়া করে এবং গুণগত মানের সংকেত অনুযায়ী ইনডেক্স করার সিদ্ধান্ত নেয়। নতুন সাইটের ক্ষেত্রে এই প্রক্রিয়া কয়েক দিন থেকে কয়েক সপ্তাহ পর্যন্ত সময় নিতে পারে। শক্তিশালী iç linkleme, মানসম্মত কন্টেন্ট এবং দ্রুত সার্ভার রেসপন্স সময় এই প্রক্রিয়াকে ইতিবাচকভাবে প্রভাবিত করে।

সর্বাধিক সাধারণ Robots.txt এবং Sitemap ভুলসমূহ

১. পুরো সাইট ভুলবশত ব্লক করা

সবচেয়ে গুরুতর ভুল হল Disallow: / নিয়মটি লাইভ সাইটে রেখে দেওয়া। এই নিয়মটি পুরো সাইটের ক্রলিং বন্ধ করে দেয়। ডেভেলপমেন্ট পরিবেশে ব্যবহৃত এই সেটিংসটি লাইভে নেওয়ার সময় সরানো না হলে Google নতুন পেজগুলো ক্রল করতে পারে না। লাইভ চালু করার চেকলিস্টে অবশ্যই robots.txt থাকা উচিত।

২. Noindex পেজগুলো Sitemap-এ যোগ করা

একই পেজে noindex নির্দেশ দেওয়া এবং সেটি sitemap-এ যুক্ত করা বিরোধপূর্ণ সংকেত তৈরি করে। Sitemap বলে পেজটি গুরুত্বপূর্ণ, তবে noindex বলে পেজটি ইনডেক্স না কর। তাই sitemap শুধুমাত্র সেই URLগুলো নিয়ে গঠিত হওয়া উচিত যেগুলো আপনি ইনডেক্স করতে চান।

৩. 301, 404 বা 500 স্ট্যাটাস কোড দেয় এমন URL Sitemap-এ রাখা

Sitemap-এ থাকা URL ideally ২০০ স্ট্যাটাস কোড রিটার্ন করা উচিত। রিডাইরেক্টেড, না পাওয়া বা সার্ভার এরর দেয় এমন URL গুলো নিয়মিত পরিস্কার করা প্রয়োজন। মাসিক টেকনিক্যাল SEO স্ক্যান করলে এই ভুলগুলো দ্রুত ধরতে পারবেন।

৪. ভুল ডোমেইন নাম বা প্রোটোকল ব্যবহার করা

যদি আপনি https://www.alanadiniz.com ব্যবহার করেন, তাহলে sitemap-এ থাকা URL গুলোর ফরম্যাটও একই হওয়া উচিত। ভিন্ন প্রোটোকল বা ডোমেইন ভ্যারিয়েশন Google এর সংকেত মিলিয়ে নেওয়া কঠিন করে তোলে। তাই canonical, sitemap, robots.txt এবং রিডাইরেকশন গঠন একই প্রধান URL ফরম্যাট নির্দেশ করা উচিত।

৫. প্রয়োজনের চেয়ে বেশি URL পাঠানো

Sitemap কোনো ঝুড়ি নয়। প্রতিটি URL যোগ করার পরিবর্তে, সত্যিই ইনডেক্স করাতে ইচ্ছুক গুণগতমানসম্পন্ন পেজগুলো যোগ করুন। নিম্নমানের, কপি বা দুর্বল পেজগুলো sitemap এর বাইরে রাখলে সার্চ ইঞ্জিনগুলোকে পরিষ্কার সংকেত পাঠানো যায়।

২০২৬ সালের জন্য টেকনিক্যাল SEO চেকলিস্ট

Robots.txt এবং সাইটম্যাপ ফাইল তৈরি করার সময় নিচের চেকলিস্টটি ব্যবহার করতে পারেন:

  • Robots.txt মূল ডিরেক্টরিতে এবং অ্যাক্সেসযোগ্য অবস্থায় আছে কি?
  • Sitemap এর ঠিকানা robots.txt-তে সঠিকভাবে উল্লেখ করা হয়েছে কি?
  • গুরুত্বপূর্ণ পেজগুলো robots.txt দ্বারা ব্লক করা হয়নি তো?
  • CSS, JavaScript এবং ইমেজ রিসোর্স গুলো ক্রল করা যায় কি?
  • Sitemap শুধু ২০০ স্ট্যাটাস কোড সহ ইনডেক্সযোগ্য URL গুলোই অন্তর্ভুক্ত করছে কি?
  • Noindex পেজগুলো sitemap থেকে বাদ দেওয়া হয়েছে কি?
  • Lastmod তারিখগুলো বাস্তব আপডেটের প্রতিফলন করছে কি?
  • বড় সাইটগুলিতে sitemap index ব্যবহার করা হচ্ছে কি?
  • Google Search Console-এ sitemap সফলভাবে প্রসেস হয়েছে কি?
  • সার্ভারের রেসপন্স সময় ক্রলিং এর কার্যকারিতা সমর্থন করছে কি?

টেকনিক্যাল SEO শুধুমাত্র ফাইল তৈরি করার মধ্যে সীমাবদ্ধ নয়। হোস্টিং পারফরম্যান্স, SSL কনফিগারেশন, DNS সঠিকতা, রিডাইরেকশন, মোবাইল ফ্রেন্ডলিনেস এবং কন্টেন্ট কোয়ালিটিও সরাসরি প্রভাব ফেলে। তাই আপনার প্রজেক্টের ইনফ্রাস্ট্রাকচার পরিকল্পনা করার সময় হোস্টিং প্যাকেজ, ডোমেইন স্থানান্তর এবং ওয়েবসাইট নিরাপত্তা বিষয়গুলো একসাথে বিবেচনা করা উপকারী।

উদাহরণ Robots.txt এবং Sitemap কৌশল

একটি সাধারণ কর্পোরেট ওয়েবসাইটের জন্য প্রস্তাবিত কাঠামো হতে পারে: হোমপেজ, সার্ভিস পেজ, আমাদের সম্পর্কে, যোগাযোগ এবং ব্লগ পোস্টগুলি sitemap-এ অন্তর্ভুক্ত থাকে। অ্যাডমিন প্যানেল, ফর্ম থ্যাঙ্ক ইউ পেজ, অস্থায়ী ক্যাম্পেইন টেস্ট এবং অভ্যন্তরীণ সার্চ রেজাল্টগুলি robots.txt বা noindex এর মাধ্যমে নিয়ন্ত্রণ করা হয়। এই ধরনের সাইটে সাধারণত sitemap-এ ২০-২০০ URL থাকে।

মাঝারি আকারের একটি ই-কমার্স সাইটে পণ্য, ক্যাটাগরি, ব্র্যান্ড এবং ব্লগের জন্য আলাদা আলাদা sitemap রাখা যেতে পারে। সক্রিয় পণ্যগুলি sitemap-এ যোগ করা হয়, স্থায়ীভাবে সরানো পণ্যগুলি বাদ দেওয়া হয়, এবং অনুরূপ পণ্যগুলিতে ৩০১ রিডাইরেকশন করা হয়। ফিল্টার URL গুলো এক এক করে বিশ্লেষণ করা হয়। সার্চ ভলিউম এবং কনভার্শন সম্ভাবনা থাকা ফিল্টারগুলি বিশেষ ক্যাটাগরির মতো গঠন করা হয়; বাকিগুলো robots.txt, canonical বা noindex কৌশলের মাধ্যমে নিয়ন্ত্রণ করা হয়।

বহু কনটেন্ট বিশিষ্ট একটি ব্লগ বা নিউজ সাইটে প্রকাশের তারিখ, আপডেটের তারিখ, ক্যাটাগরি স্ট্রাকচার এবং অভ্যন্তরীণ লিঙ্কিং অত্যন্ত গুরুত্বপূর্ণ। পুরনো কনটেন্ট আপডেট করলে lastmod সঠিকভাবে পরিবর্তন করতে হবে, কিন্তু কৃত্রিম আপডেট করা উচিত নয়। গুগলের বিশ্বাসযোগ্য সিগন্যাল হল আসল কনটেন্ট উন্নতি।

সাধারণ প্রশ্নাবলী

Robots.txt ফাইল কি সম্পূর্ণভাবে ইনডেক্সিং বন্ধ করে?

না। Robots.txt ক্রলিং বন্ধ করে; ইনডেক্সিং সবসময় সম্পূর্ণরূপে বন্ধ করে না। যদি কোনো URL অন্য সাইট থেকে লিঙ্ক পায়, তাহলে Google সেই URL ক্রল না করেও ইনডেক্সে দেখাতে পারে। ইনডেক্সিং বন্ধ করার জন্য সাধারণত noindex ট্যাগ বা যথাযথ অ্যাক্সেস নিয়ন্ত্রণ ব্যবহার করা উচিত।

Sitemap ফাইল কি Google-এ র‍্যাংকিং বাড়ায়?

Sitemap সরাসরি র‍্যাংকিং নিশ্চিত করে না। তবে এটি গুরুত্বপূর্ণ পেজগুলো দ্রুত আবিষ্কার হতে সাহায্য করে, আপডেটগুলো সার্চ ইঞ্জিনকে জানান দেয় এবং টেকনিক্যাল SEO এর স্বাস্থ্য বৃদ্ধি করে। র‍্যাংকিংয়ের জন্য কন্টেন্টের গুণগত মান, ব্যাকলিঙ্ক, ইউজার এক্সপেরিয়েন্স, গতি এবং বিশ্বাসযোগ্যতার সিগন্যালও প্রয়োজন।

Robots.txt ফাইলে sitemap উল্লেখ করা বাধ্যতামূলক কি?

আবশ্যক নয়, তবে সুপারিশ করা হয়। Robots.txt-তে sitemap এর ঠিকানা যুক্ত করা সার্চ ইঞ্জিনকে আপনার সাইটম্যাপ সহজে খুঁজে পেতে সাহায্য করে। পাশাপাশি Google Search Console থেকে sitemap সাবমিট করাও ভালো অভ্যাস।

WordPress sitemap এর ঠিকানা কী?

ডিফল্ট WordPress sitemap ঠিকানা সাধারণত /wp-sitemap.xml হয়। যদি SEO প্লাগইন ব্যবহার করেন, তবে sitemap ঠিকানা হতে পারে /sitemap_index.xml বা /sitemap.xml। আপনি কোন প্লাগইন ব্যবহার করছেন তার উপর ভিত্তি করে ঠিকানা চেক করা প্রয়োজন।

Sitemap-এ সর্বোচ্চ কত URL থাকতে পারে?

একটি XML sitemap ফাইলে সর্বোচ্চ ৫০,০০০ URL থাকতে পারে এবং ৫০ MB সাইজ ছাড়িয়ে যাওয়া যাবে না। বড় সাইটের জন্য sitemap index ব্যবহার করে পেজ, পোস্ট, প্রোডাক্ট, ক্যাটাগরি বা ইমেজের মতো আলাদা আলাদা ফাইলে ভাগ করা সবচেয়ে ভালো পদ্ধতি।

ফলাফল

Robots.txt এবং sitemap ফাইল হল প্রযুক্তিগত SEO-এর দুটি ছোট মনে হলেও বড় প্রভাব ফেলার মূল উপাদান। Robots.txt বটদের ক্রলিং আচরণ নিয়ন্ত্রণ করে, আর sitemap গুরুত্বপূর্ণ URL গুলোর আবিষ্কার সহজ করে তোলে। সঠিক কনফিগারেশনের জন্য গুরুত্বপূর্ণ পেজগুলো খোলা রাখা উচিত, অপ্রয়োজনীয় অংশগুলি নিয়ন্ত্রণ করে সীমাবদ্ধ করা উচিত, শুধুমাত্র ইনডেক্সযোগ্য URL গুলো sitemap-এ যোগ করা উচিত এবং Google Search Console থেকে নিয়মিত মনিটরিং করা উচিত।

আপনার ওয়েবসাইটের প্রযুক্তিগত ভিত্তি মজবুত করতে চাইলে নির্ভরযোগ্য হোস্টিং, সঠিক ডোমেইন ব্যবস্থাপনা এবং SSL কনফিগারেশন দিয়ে শুরু করা ভালো। Hostragons-এর ওয়েব হোস্টিং, ডোমেইন এবং এসএসএল সার্টিফিকেট সমাধানগুলো দেখে আপনার সাইটের জন্য দ্রুত, নিরাপদ এবং SEO-বান্ধব একটি অবকাঠামো গড়ে তুলতে পারেন।

এই নিবন্ধটি শেয়ার করুন:
Alihan Yıldırım

ওয়েব পারফরম্যান্স বিশেষজ্ঞ

ওয়েব পারফরম্যান্স বিশ্লেষণ এবং গতি অপ্টিমাইজেশনে ১০+ বছরের অভিজ্ঞতা রয়েছে। CDN এবং ক্যাশ সিস্টেম নিয়ে কাজ করেন।

সমস্ত লেখা →