নিরাপত্তা

ওয়েব স্ক্র্যাপিং কী? বট দিয়ে সাইটের ডেটা চুরি ও শোষণ রোধ করুন

  • 14 পড়তে মিনিট
ওয়েব স্ক্র্যাপিং কী? বট দিয়ে সাইটের ডেটা চুরি ও শোষণ রোধ করুন

ওয়েব স্ক্র্যাপিং বা ডেটা কাজিমা হলো কোনো ওয়েবসাইটের কনটেন্ট বট বা অটোমেশন টুল দিয়ে নিয়মিতভাবে সংগ্রহ করা। সার্চ ইঞ্জিনের ক্রলারের মতো বৈধ বট ওয়েব ইকোসিস্টেমের জন্য উপকারী হলেও; দাম, পণ্য, স্টক, কনটেন্ট, ইমেইল, ছবি, বিজ্ঞাপন বা ব্যবহারকারীর তথ্য অনুমতি ছাড়া চুরি করা ক্ষতিকর বট সাইটের ব্যান্ডউইথ নষ্ট করে, এসইও পারফরম্যান্স কমিয়ে দেয়, সার্ভার খরচ বাড়ায় এবং বাণিজ্যিক তথ্য প্রতিযোগীদের হাতে তুলে দেয়। তাই ওয়েব স্ক্র্যাপিং শুধু প্রযুক্তিগত বিষয় নয়, নিরাপত্তা, পারফরম্যান্স, আইন, ব্র্যান্ড ইমেজ ও আয় রক্ষার বিষয়।

২০২৬ সালের দিকে বট ট্রাফিক আর শুধু সাধারণ স্ক্রিপ্ট নয়। হেডলেস ব্রাউজার, এআই চালিত ডেটা সংগ্রহ টুল, ঘুরে বেড়ানো প্রক্সি নেটওয়ার্ক, মোবাইল ইউজার এজেন্ট নকল এবং আসল ব্যবহারকারীর আচরণ অনুকরণ করা অটোমেশন এখন সাধারণ। তাই একটা robots.txt নিয়ম বা সাধারণ CAPTCHA প্রায়ই যথেষ্ট হয় না। কার্যকর সুরক্ষা তৈরি হয় লগ বিশ্লেষণ, গতি সীমা, WAF, আচরণগত সনাক্তকরণ, ক্যাশিং, API নিরাপত্তা, অ্যাক্সেস নীতি ও শক্তিশালী হোস্টিং অবকাঠামো একসাথে ব্যবহার করে।

এই গাইডে ওয়েব স্ক্র্যাপিংয়ের ধারণা, বৈধ ও ক্ষতিকর ব্যবহারের পার্থক্য, সাইট কাজিমা হচ্ছে এমন লক্ষণ এবং Hostragons অবকাঠামোতে ব্যবহারযোগ্য বাস্তব পদক্ষেপ নিয়ে আলোচনা করব। উদ্দেশ্য কনটেন্টকে সম্পূর্ণ অদৃশ্য করা নয়, বরং আসল ব্যবহারকারী ও সার্চ ইঞ্জিনকে বাধা না দিয়ে ক্ষতিকর বটের খরচ বাড়ানো এবং সাইটের সম্পদ রক্ষা করা।

ওয়েব স্ক্র্যাপিং কীভাবে কাজ করে?

ওয়েব স্ক্র্যাপিং প্রক্রিয়া সাধারণত তিন ধাপে হয়: লক্ষ্য পেজ খুঁজে বের করা, HTML বা API রেসপন্স ডাউনলোড করা এবং প্রয়োজনীয় ডেটা আলাদা করা। সাধারণ স্ক্র্যাপার প্রোডাক্ট পেজের শিরোনাম, দাম ও স্টক তথ্য CSS সিলেক্টর দিয়ে নিতে পারে। উন্নত বট জাভাস্ক্রিপ্ট লোড হওয়া ডেটার জন্য অপেক্ষা করে, পেজে ঘোরাফেরা করে, কুকি সংরক্ষণ করে, লগইন করে এবং ভিন্ন আইপি দিয়ে স্ক্যান করে।

একটা উদাহরণ দেখি: আপনার ই-কমার্স সাইটে ২৫,০০০ প্রোডাক্ট আছে এবং প্রতি পেজ গড়ে ৯০০ কেবি ডেটা তৈরি করে। ক্ষতিকর একটা বট যদি প্রতিদিন ৬ বার ক্যাটালগ স্ক্যান করে তাহলে প্রায় ১৩৫ জিবি অতিরিক্ত ট্রাফিক তৈরি হয়। এই ট্রাফিক শুধু ব্যান্ডউইথ খায় না, ডাটাবেস কোয়েরি, PHP প্রসেসিং, CPU ব্যবহার ও ক্যাশ রিফ্রেশ প্রক্রিয়াকেও প্রভাবিত করে। শেয়ার্ড হোস্টিংয়ে এতে রিসোর্স লিমিট ছাড়িয়ে যেতে পারেন, VPS বা ডেডিকেটেড সার্ভারে অপ্রয়োজনীয় খরচ বাড়ে। সঠিক রিসোর্স প্ল্যানিংয়ের জন্য হোস্টিং প্যাকেজ এবং উচ্চতর নিয়ন্ত্রণের জন্য ভিপিএস সার্ভার সমাধান দেখতে পারেন।

বৈধ বট ও ক্ষতিকর স্ক্র্যাপার বটের মধ্যে পার্থক্য

সব বটই খারাপ নয়। Googlebot, Bingbot বা সোশ্যাল মিডিয়ার প্রিভিউ বট সাইটের খোঁজ ও শেয়ার বাড়ায়। অন্যদিকে ডেটা কাজিমা বট প্রায়ই সোর্স উল্লেখ করে না, গতি সীমা মানে না, বাণিজ্যিক ডেটা কপি করে এবং অ্যাক্সেস নিয়ম মানে না। পার্থক্য সঠিকভাবে বোঝা জরুরি; ভুল নিরাপত্তা নিয়ম সার্চ ইঞ্জিন বটকেও আটকে দিয়ে অর্গানিক ট্রাফিক কমিয়ে দিতে পারে।

বৈধ বট ও ক্ষতিকর স্ক্র্যাপার বটের মধ্যে পার্থক্য
বৈশিষ্ট্যবৈধ বটক্ষতিকর স্ক্র্যাপার বট
পরিচয়নিজেকে স্পষ্টভাবে পরিচয় দেয়, যাচাইযোগ্য আইপি রেঞ্জ ব্যবহার করেইউজার এজেন্ট ঘন ঘন বদলায় বা নকল Googlebot সেজে থাকে
স্ক্যান গতিসাধারণত যুক্তিসঙ্গত ও নিয়ন্ত্রিত গতিতে চলেস্বল্প সময়ে শত শত বা হাজার হাজার রিকোয়েস্ট পাঠায়
নিয়ম মান্যতাrobots.txt ও crawl-delay মেনে চলতে পারেrobots.txt ফাইল উপেক্ষা করে
উদ্দেশ্যইনডেক্সিং, প্রিভিউ, মনিটরিং বা ইন্টিগ্রেশনকনটেন্ট, দাম, স্টক, ইমেইল বা ডেটা কপি করা
আচরণপেজ স্বাভাবিক আবিষ্কার প্রবাহে স্ক্যান করেশুধু ডেটা থাকা URL প্যাটার্নে ফোকাস করে

ওয়েব স্ক্র্যাপিং কেন ঝুঁকিপূর্ণ?

১. সার্ভার রিসোর্স নষ্ট করে

বট আসল ভিজিটরের মতো HTTP রিকোয়েস্ট তৈরি করে। কিন্তু একজন মানুষ মিনিটে কয়েকটা পেজ দেখে যখন ক্ষতিকর বট সেকেন্ডে ডজন ডজন পেজ চায়। বিশেষ করে সার্চ, ফিল্টার, ক্যাটাগরি, প্রোডাক্ট ভ্যারিয়েশন ও ডাইনামিক রিপোর্ট পেজ ডাটাবেসে চাপ ফেলে। CPU ব্যবহার বাড়ে, PHP-FPM কিউ লম্বা হয়, TTFB বাড়ে এবং আসল ব্যবহারকারী ধীরগতির অভিজ্ঞতা পায়। Core Web Vitals খারাপ হলে এসইও দৃশ্যমানতা পরোক্ষভাবে ক্ষতিগ্রস্ত হয়।

২. মৌলিক কনটেন্ট কপি হয়ে যায়

ব্লগ পোস্ট, ক্যাটাগরি বর্ণনা, টেকনিক্যাল ডকুমেন্ট ও ছবি অনুমতি ছাড়া কপি হলে কনটেন্টের মূল্য কমে। Google প্রায়ই অরিজিনাল সোর্স বোঝার চেষ্টা করে, কিন্তু দ্রুত প্রকাশ করা স্ক্র্যাপার সাইট কিছু কোয়েরিতে অস্থায়ীভাবে দৃশ্যমান হতে পারে। নতুন প্রকাশিত কনটেন্ট মিনিটের মধ্যে কপি হলে sitemap জমা, ইন্টারনাল লিংক স্ট্রাকচার ও দ্রুত ইনডেক্সিং সিগন্যাল আরও গুরুত্বপূর্ণ হয়ে ওঠে। কনটেন্ট স্ট্র্যাটেজির জন্য SEO উপযোগী ওয়েবসাইট তৈরি গাইড সহায়ক হতে পারে।

৩. দাম ও স্টক তথ্য প্রতিযোগীরা দেখে

ই-কমার্স প্রজেক্টে ডেটা কাজিমা প্রায়ই দাম ট্র্যাকিংয়ের জন্য করা হয়। প্রতিযোগীরা আপনার পণ্যের নাম, স্টক অবস্থা, ক্যাম্পেইনের তারিখ ও শিপিং শর্ত স্বয়ংক্রিয়ভাবে মনিটর করতে পারে। এই তথ্য তাৎক্ষণিক দাম কমানোর কৌশলে ব্যবহার করা হয়। বিশেষ করে কম মার্জিনের সেক্টরে এতে সরাসরি আয় ক্ষতি হয়।

৪. নিরাপত্তা দুর্বলতা খুঁজে পাওয়া যায়

স্ক্র্যাপার বট শুধু ডেটা চায় না; কখনো URL স্ট্রাকচার, প্যারামিটার, এরর মেসেজ ও অ্যাডমিন প্যানেলের চিহ্নও ম্যাপ করে। অনেক 404, 403, 500 বা ভিন্ন প্যারামিটার কম্বিনেশন দেখলে এই আচরণ রেকনেসাঁস পর্যায় নির্দেশ করে। এখানে SSL, আপডেটেড সফটওয়্যার, নিরাপদ প্যানেল অ্যাক্সেস ও নিয়মিত ব্যাকআপ মৌলিক প্রয়োজন। সাইট নিরাপত্তার প্রথম ধাপে এসএসএল সার্টিফিকেটওয়েবসাইট ব্যাকআপ কনটেন্ট দেখতে পারেন।

সাইট স্ক্র্যাপিং বট দ্বারা শোষিত হচ্ছে এমন লক্ষণ

বট ট্রাফিক বোঝার সবচেয়ে নির্ভরযোগ্য উপায় অ্যাক্সেস লগ পরীক্ষা করা। শুধু Google Analytics দেখা যথেষ্ট নয়; কারণ অনেক বট জাভাস্ক্রিপ্ট চালায় না এবং অ্যানালিটিক্স কোড ট্রিগার করে না। হোস্টিং প্যানেলের অ্যাক্সেস লগ, এরর লগ ও রিসোর্স ব্যবহার গ্রাফ নিয়মিত চেক করতে হবে।

  • স্বল্প সময়ে একই আইপি বা আইপি ব্লক থেকে শত শত রিকোয়েস্ট আসা।
  • প্রোডাক্ট, ক্যাটাগরি, সার্চ বা ফিল্টার URL-এ অস্বাভাবিক ঘনত্ব।
  • স্বাভাবিক ব্যবহারকারী প্রবাহ ছাড়াই সরাসরি গভীর পেজে অ্যাক্সেস।
  • ইউজার এজেন্ট খালি, খুব পুরনো বা সন্দেহজনক হওয়া।
  • রাতের দিকে ট্রাফিক ও CPU ব্যবহার হঠাৎ বেড়ে যাওয়া।
  • অনেক 404, 403 বা 429 স্ট্যাটাস কোড তৈরি হওয়া।
  • কার্টে যোগ, ফর্ম জমা বা অ্যাকাউন্ট খোলার মতো অ্যাকশন ছাড়াই ঘন পেজ ভিউ।
  • ভিন্ন আইপি থেকে একই URL সিকোয়েন্স একই ক্রমে ভিজিট হওয়া।

বাস্তব উদাহরণ: গড় ভিজিটর সেশনে ৪টা পেজ দেখে, কিন্তু নির্দিষ্ট একটা আইপি ১০ মিনিটে ৩০০টা প্রোডাক্ট পেজ কল করলে এটা মানুষের আচরণ নয়। একইভাবে একটা ইউজার এজেন্ট দিনে সব sitemap URL কয়েকবার ঘুরে দেখলে স্ক্যান লিমিট দিতে হবে।

বট দিয়ে সাইট শোষণ রোধে ১২টি ব্যবহারযোগ্য পদ্ধতি

১. লগ বিশ্লেষণ দিয়ে শুরু করুন

আগে মাপুন, তারপর আটকান। অ্যাক্সেস লগ ফাইলে আইপি, সময়, রিকোয়েস্ট পাথ, স্ট্যাটাস কোড, রেফারার ও ইউজার-এজেন্ট ফিল্ড দেখুন। সবচেয়ে বেশি রিকোয়েস্ট করা আইপি, সবচেয়ে বেশি কল হওয়া URL ও এরর কোড লিস্ট করুন। লিনাক্সে awk, grep ও sort কমান্ড দিয়ে দ্রুত বিশ্লেষণ করা যায়। হোস্টিং কন্ট্রোল প্যানেল ব্যবহার করলে ট্রাফিক স্ট্যাটিসটিক্স ও র' লগ সক্রিয় রাখুন। Hostragons-এ রিসোর্স ব্যবহার মনিটর করতে হোস্টিং কন্ট্রোল প্যানেল ব্যবহারের দেখুন।

২. robots.txt সঠিকভাবে ব্যবহার করুন

robots.txt ভালো উদ্দেশ্যের বটকে দিকনির্দেশনা দেয়; এটা নিরাপত্তা ফায়ারওয়াল নয়। গোপন পেজ রক্ষা করে না, ক্ষতিকর স্ক্র্যাপার আটকায় না। তবুও সার্চ রেজাল্ট, ফিল্টার প্যারামিটার, প্যানেলের বাইরের অস্থায়ী ডিরেক্টরি ও কম মূল্যের পেজের জন্য ক্রল বাজেট ম্যানেজ করতে সাহায্য করে।

উদাহরণস্বরূপ ফিল্টার কম্বিনেশন সীমিত করতে Disallow নিয়ম ব্যবহার করা যায়। তবে সংবেদনশীল পাথ robots.txt-এ স্পষ্টভাবে লিখলে কখনো আক্রমণকারীকে ইঙ্গিত দিতে পারে। তাই robots.txt-কে নিরাপত্তা টুল না বানিয়ে ক্রল ম্যানেজমেন্ট টুল হিসেবে রাখুন।

৩. রেট লিমিটিং প্রয়োগ করুন

রেট লিমিটিং নির্দিষ্ট আইপি, সেশন, ইউজার অ্যাকাউন্ট বা API কী নির্দিষ্ট সময়ে কতগুলো রিকোয়েস্ট করতে পারবে তা সীমিত করে। উদাহরণ: অ্যানোনিমাস ভিজিটরের জন্য মিনিটে ৬০টা পেজ, সার্চ এন্ডপয়েন্টে মিনিটে ২০টা রিকোয়েস্ট, লগইন চেষ্টায় ৫ মিনিটে ৫টা চেষ্টা। সীমা ছাড়ালে ৪২৯ Too Many Requests রেসপন্স দেওয়া সাধারণ পদ্ধতি।

এই পদ্ধতি বিশেষ করে প্রোডাক্ট লিস্টিং, সার্চ, ফিল্টার ও API এন্ডপয়েন্টে কার্যকর। থ্রেশহোল্ড আপনার সেক্টর অনুযায়ী ঠিক করতে হবে। নিউজ সাইটে Google Discover ট্রাফিকে হঠাৎ বাড়তে পারে; ই-কমার্সে ক্যাম্পেইন চলাকালে আসল ব্যবহারকারীর আচরণ বদলাতে পারে। তাই নিয়ম দেওয়ার আগে অন্তত ৭ দিনের স্বাভাবিক ট্রাফিক স্যাম্পল দেখুন।

৪. ওয়েব অ্যাপ্লিকেশন ফায়ারওয়াল ব্যবহার করুন

WAF সন্দেহজনক রিকোয়েস্ট অ্যাপ্লিকেশনে পৌঁছানোর আগেই ফিল্টার করে। SQL ইনজেকশন, XSS, খারাপ ইউজার এজেন্ট, অস্বাভাবিক রিকোয়েস্ট রেট, পরিচিত খারাপ আইপি লিস্ট ও অটোমেশন সিগনেচার WAF দিয়ে আটকানো যায়। ২০২৬-এ কার্যকর WAF শুধু সিগনেচার ভিত্তিক নয়, আচরণগত বিশ্লেষণ ও রিস্ক স্কোরিং পদ্ধতিতে কাজ করে।

WordPress, WooCommerce, Laravel, OpenCart বা কাস্টম সফটওয়্যার যাই ব্যবহার করুন না কেন, WAF লেয়ার বট মোকাবেলায় গুরুত্বপূর্ণ ঢাল দেয়। অ্যাপ্লিকেশন লেভেলে প্লাগইন ব্যবহার করলে সার্ভার লেভেলেও অতিরিক্ত সুরক্ষা পরিকল্পনা করুন। নিরাপত্তা অবকাঠামো বেছে নেওয়ার সময় নিরাপদ হোস্টিংWordPress হোস্টিং পেজে স্বাভাবিক লিংক দেওয়া যেতে পারে।

৫. CDN ও ক্যাশিং দিয়ে ডাইনামিক লোড কমান

স্ক্র্যাপিং বট পুরোপুরি আটকাতে না পারলেও তাদের প্রভাব কমানো যায়। CDN স্ট্যাটিক ফাইল ও উপযুক্ত পেজ এজ সার্ভার থেকে সার্ভ করায় অরিজিন সার্ভারের লোড কমে। ক্যাশিং ক্যাটাগরি, ব্লগ ও প্রোডাক্ট ডিটেইল পেজে ডাটাবেস কোয়েরি কমায়। তবে কার্টে যোগ, পেমেন্ট, মেম্বারশিপ প্যানেল ও পার্সোনালাইজড এরিয়া সাবধানে বাদ দিতে হবে।

একটা ব্লগ পোস্ট বট ১০,০০০ বার কল করলে প্রতিবার PHP ও ডাটাবেস চালানোর বদলে ক্যাশ থেকে রেসপন্স দিলে রিসোর্স খরচ অনেক কমে। এই পদ্ধতি শুধু নিরাপত্তা নয়, পারফরম্যান্স অপটিমাইজেশনও। দ্রুত সাইট ব্যবহারকারীর অভিজ্ঞতা ও এসইও-তে সুবিধা দেয়।

৬. শুধু ঝুঁকিপূর্ণ জায়গায় CAPTCHA ব্যবহার করুন

প্রতিটি পেজে CAPTCHA দিলে আসল ব্যবহারকারীর অভিজ্ঞতা নষ্ট হয়। তাই শুধু ঝুঁকিপূর্ণ জায়গায় ব্যবহার করুন: ঘন সার্চ করা ভিজিটর, অনেক ফর্ম জমা দেওয়া আইপি, ব্যর্থ লগইন চেষ্টা, কুপন ট্রায়াল স্ক্রিন বা স্টক চেক এন্ডপয়েন্ট। আধুনিক পদ্ধতি অদৃশ্য CAPTCHA, আচরণ বিশ্লেষণ ও রিস্ক স্কোর তৈরি করে।

উদাহরণ: প্রথম ২০টা প্রোডাক্ট পেজ দেখলে CAPTCHA দেখানো ভুল হতে পারে; কিন্তু ২ মিনিটে ১৫০টা প্রোডাক্ট ডিটেইল দেখা অ্যানোনিমাস ভিজিটরকে অতিরিক্ত যাচাই দেওয়া যৌক্তিক।

৭. হানিপট ও ফাঁদ এরিয়া যোগ করুন

হানিপট হলো আসল ব্যবহারকারী দেখে না কিন্তু বট পূরণ করতে পারে এমন লুকানো ফর্ম ফিল্ড বা অনুসরণযোগ্য অদৃশ্য লিংক। বট এই ফাঁদ পূরণ করলে বা লুকানো লিংক অনুসরণ করলে রিস্ক স্কোর বাড়ানো হয়। এই পদ্ধতি ব্যবহারকারীর অভিজ্ঞতা নষ্ট না করে অটোমেশন সনাক্ত করার বাস্তব উপায়।

তবে অ্যাক্সেসিবিলিটি নিয়ম মাথায় রাখতে হবে। স্ক্রিন রিডার ব্যবহারকারী আসল মানুষ যেন ভুল করে ফাঁদে না পড়ে সেজন্য ফিল্ড সঠিকভাবে লেবেল করা ও সার্ভার সাইডে সতর্ক চেক করা দরকার।

৮. API এন্ডপয়েন্ট আইডেন্টিটি ভেরিফিকেশন দিয়ে রক্ষা করুন

অনেক আধুনিক ওয়েবসাইট ডেটা HTML-এর বদলে API রেসপন্স দিয়ে লোড করে। স্ক্র্যাপার বট ব্রাউজার ডেভেলপার টুল থেকে এই API এন্ডপয়েন্ট খুঁজে সরাসরি কল করতে পারে। তাই API রিকোয়েস্টে টোকেন, সিগনেচার, টাইমস্ট্যাম্প, রেট লিমিট ও অথরাইজেশন চেক ব্যবহার করতে হবে। সবার জন্য উন্মুক্ত রাখার দরকার নেই এমন স্টক, দাম, ইউজার বা রিপোর্ট এন্ডপয়েন্ট অ্যানোনিমাস অ্যাক্সেস বন্ধ করুন।

মোবাইল অ্যাপ বা থার্ড পার্টি ইন্টিগ্রেশন থাকলে আলাদা API কী তৈরি করুন, প্রতি কীতে কোটা দিন এবং অস্বাভাবিক ব্যবহারে স্বয়ংক্রিয় সাসপেন্ড করুন। ইন্টিগ্রেশন আর্কিটেকচারের জন্য API এবং ইন্টিগ্রেশন গাইড স্বাভাবিক অভ্যন্তরীণ লিংক হতে পারে।

৯. শুধু ইউজার-এজেন্ট ব্লক করবেন না

ইউজার-এজেন্ট ব্লক করা সহজ কিন্তু নির্ভরযোগ্য নয়। ক্ষতিকর বট নিজেকে Chrome, Safari বা Googlebot সাজাতে পারে। এমনকি নকল Googlebot শনাক্ত করতে রিভার্স DNS ভেরিফিকেশন ছাড়া শুধু ইউজার এজেন্টের উপর নির্ভর করা বিপজ্জনক। ইউজার এজেন্ট তথ্য সিদ্ধান্ত প্রক্রিয়ায় একটা সিগন্যাল হিসেবে ব্যবহার করুন, এককভাবে চূড়ান্ত রায় হিসেবে নয়।

আরও সঠিক পদ্ধতি: আইপি রেপুটেশন, রিকোয়েস্ট গতি, URL সিকোয়েন্স, কুকি আচরণ, জাভাস্ক্রিপ্ট চালানোর অবস্থা ও সেশন পারসিস্টেন্সের মতো সিগন্যাল একসাথে মূল্যায়ন করা।

১০. ডাইনামিক কনটেন্ট ও ডেটা মাস্কিং ব্যবহার করুন

সবার জন্য উন্মুক্ত পেজে যে ডেটা দেখানো বাধ্যতামূলক নয় তা সীমিত রাখুন। উদাহরণ: B2B দাম শুধু লগইন করা ইউজারদের দেখানো যায়। ইমেইল অ্যাড্রেস সরাসরি টেক্সটের বদলে ফর্মের মাধ্যমে যোগাযোগের দিকে নির্দেশ করুন। বড় ক্যাটালগে সব ভ্যারিয়েশন ডেটা একটা HTML-এ না দিয়ে প্রয়োজনমতো ও নিয়ন্ত্রিত এন্ডপয়েন্ট দিয়ে দেওয়া নিরাপদ।

ডেটা মাস্কিং আসল ব্যবহারকারীর অভিজ্ঞতা নষ্ট না করে সংবেদনশীল বাণিজ্যিক তথ্য স্বয়ংক্রিয়ভাবে চুরি করা কঠিন করে। তবে অতিরিক্ত গোপন করলে এসইও ও কনভার্শন পারফরম্যান্সে প্রভাব পড়তে পারে; তাই ভারসাম্যপূর্ণভাবে ডিজাইন করুন।

১১. আইনি টেক্সট ও ব্যবহারের শর্ত স্পষ্ট করুন

টেকনিক্যাল ব্যবস্থার পাশাপাশি আইনি ভিত্তিও জরুরি। ব্যবহারের শর্তে স্বয়ংক্রিয় ডেটা সংগ্রহ, কনটেন্ট কপি, দাম মনিটরিং, ডাটাবেস রেপ্লিকেশন ও বাণিজ্যিক ব্যবহারের বিষয়ে স্পষ্ট ধারা যোগ করুন। কপিরাইট, ব্র্যান্ড ব্যবহার ও ডাটাবেস অধিকারের জন্য পেশাদার আইনি সহায়তা নিন। এই টেক্সট বটকে টেকনিক্যালি আটকায় না; তবে লঙ্ঘনের ক্ষেত্রে প্রমাণ ও শাস্তি প্রক্রিয়া শক্তিশালী করে।

১২. হোস্টিং অবকাঠামো বট ট্রাফিকের জন্য প্রস্তুত করুন

দুর্বল অবকাঠামো কম পরিমাণ বট ট্রাফিকেও সমস্যা তৈরি করে। আপডেটেড PHP ভার্সন, HTTP/2 বা HTTP/3 সাপোর্ট, শক্তিশালী ক্যাশিং, নিরাপদ আইসোলেশন, নিয়মিত ব্যাকআপ, DDoS সচেতনতা ও স্কেলেবল রিসোর্স বটের প্রভাব কমায়। ছোট কর্পোরেট সাইটের জন্য শেয়ার্ড হোস্টিং যথেষ্ট হতে পারে; ঘন ক্যাটালগ, ক্যাম্পেইন বা মেম্বারশিপ ট্রাফিক থাকলে VPS বা ডেডিকেটেড সার্ভার ভালো। ডোমেইন ও DNS নিরাপত্তাও সম্পূর্ণ অংশ; শুরুতে ডোমেইন অনুসন্ধাননিরাপদ DNS পরিচালনা লিংক ব্যবহার করা যায়।

WordPress সাইটে ওয়েব স্ক্র্যাপিংয়ের বিরুদ্ধে অতিরিক্ত ব্যবস্থা

WordPress সাইটে ওয়েব স্ক্র্যাপিংয়ের বিরুদ্ধে অতিরিক্ত ব্যবস্থা

WordPress সাইট জনপ্রিয় হওয়ায় বটের ঘন টার্গেট। XML-RPC, REST API, সার্চ পেজ, অথর আর্কাইভ, কমেন্ট ফর্ম ও লগইন স্ক্রিন বিশেষভাবে নজরদারি করতে হবে। প্রয়োজন না থাকলে XML-RPC বন্ধ করা যায়, REST API-এর সংবেদনশীল এন্ডপয়েন্ট সীমিত করা যায়, লগইন পেজে চেষ্টা লিমিট দেওয়া যায় এবং নির্ভরযোগ্য নিরাপত্তা প্লাগইন ব্যবহার করা যায়।

  • অ্যাডমিন ইউজারনেম admin রেখে দেবেন না।
  • লগইন চেষ্টা আইপি ও ইউজার অনুযায়ী সীমিত করুন।
  • কমেন্ট ফর্মে হানিপট ও স্প্যাম সুরক্ষা ব্যবহার করুন।
  • wp-json এন্ডপয়েন্ট অপ্রয়োজনীয় ডেটা ফাঁস না করার মতো কনফিগার করুন।
  • ইমেজ হটলিংক সুরক্ষা সক্রিয় করুন।
  • ক্যাশ প্লাগইন ও সার্ভার সাইড ক্যাশ একসাথে পরিকল্পনা করুন।

ঘন বট ট্রাফিক পাওয়া WordPress প্রজেক্টে অপটিমাইজড সার্ভার কনফিগারেশন সাধারণ ইনস্টলেশনের চেয়ে বেশি গুরুত্বপূর্ণ। তাই WordPress হোস্টিং বেছে নেওয়ার সময় শুধু ডিস্ক স্পেস নয়, নিরাপত্তা লেয়ার, ব্যাকআপ, রিসোর্স লিমিট ও টেকনিক্যাল সাপোর্টের মানও দেখুন।

ই-কমার্স সাইটের জন্য বিশেষ বট সুরক্ষা স্ট্র্যাটেজি

ই-কমার্স সাইটে বট সুরক্ষা আরও সূক্ষ্মভাবে সেট করতে হবে; কারণ আসল ব্যবহারকারীরাও অনেক প্রোডাক্ট পেজ দেখতে পারেন। ভুল পজিটিভ ব্লক বিক্রি ক্ষতির কারণ হতে পারে। তাই প্রোডাক্ট ডিটেইল, ক্যাটাগরি, সার্চ, স্টক চেক, কুপন ট্রায়াল, কার্ট ও চেকআউট ধাপ আলাদা রিস্ক প্রোফাইল দিয়ে দেখতে হবে।

উদাহরণ স্ট্র্যাটেজি: প্রোডাক্ট ডিটেইল পেজ ক্যাশ থেকে সার্ভ করুন, সার্চ এন্ডপয়েন্ট মিনিটে ২০টা রিকোয়েস্টে সীমিত রাখুন, স্টক তথ্য শুধু পেজের ভিতরে নিয়ন্ত্রিত কল দিয়ে দিন, কুপন ট্রায়াল অ্যাকাউন্ট প্রতি সীমিত করুন, পেমেন্ট ধাপে শক্তিশালী বট সুরক্ষা দিন। একই আইপি থেকে ৫ মিনিটে ৫০০টা প্রোডাক্ট পেজ দেখলে প্রথমে ৪২৯ রেসপন্স, পরে অস্থায়ী আইপি ব্লক করুন। এই নিয়ম ক্যাম্পেইন চলাকালে শিথিল করা যায় বা উচ্চতর থ্রেশহোল্ডে চালানো যায়।

ভুল করে ব্লক না করার জন্য যা খেয়াল রাখবেন

বট ব্লক করার সময় সবচেয়ে বড় ঝুঁকি আসল ব্যবহারকারী ও বৈধ সার্চ ইঞ্জিন আটকে ফেলা। Googlebot ভুল করে ব্লক করলে ইনডেক্স হারানো যায়; সোশ্যাল মিডিয়া বট ব্লক করলে শেয়ার প্রিভিউ নষ্ট হয়; পেমেন্ট প্রোভাইডার কলব্যাক ব্লক করলে অর্ডার সমস্যা হয়। তাই প্রতিটি নিয়ম প্রথমে মনিটরিং মোডে টেস্ট করুন, তারপর ধাপে ধাপে প্রয়োগ করুন।

  • Googlebot যাচাইয়ে শুধু ইউজার এজেন্ট নয়, আইপি ও রিভার্স DNS চেক ব্যবহার করুন।
  • সরাসরি ব্লকের বদলে প্রথমে গতি সীমা ও অতিরিক্ত যাচাই প্রয়োগ করুন।
  • নতুন নিয়ম কম ট্রাফিকের সময় চালু করুন।
  • ৪০৩ ও ৪২৯ রেসপন্স প্রতিদিন মনিটর করুন।
  • পেমেন্ট, শিপিং, মার্কেটপ্লেস ও অ্যাকাউন্টিং ইন্টিগ্রেশন আইপি হোয়াইটলিস্টে রাখুন।
  • Search Console ক্রল স্ট্যাটিসটিক্স নিয়মিত চেক করুন।

ধাপে ধাপে দ্রুত বাস্তবায়ন পরিকল্পনা

বট সুরক্ষাকে জটিল প্রজেক্টের মতো না দেখে ধাপে ধাপে এগোনো স্বাস্থ্যকর। নিচের পরিকল্পনা ছোট টেকনিক্যাল টিমের ব্যবসায়ের জন্য বাস্তব শুরু দেয়।

  • ১ম দিন: অ্যাক্সেস লগ ডাউনলোড করুন, সবচেয়ে বেশি রিকোয়েস্ট করা আইপি ও URL লিস্ট করুন।
  • ২য় দিন: robots.txt ফাইল রিভিউ করুন, অপ্রয়োজনীয় ক্রল এরিয়া সাজান।
  • ৩য় দিন: সার্চ, ফিল্টার, লগইন ও ফর্ম এন্ডপয়েন্টে রেট লিমিটিং ঠিক করুন।
  • ৪র্থ দিন: WAF বা নিরাপত্তা প্লাগইন নিয়ম মনিটরিং মোডে চালু করুন।
  • ৫ম দিন: ক্যাশ ও CDN সেটিং চেক করুন, ডাইনামিক পেজ বাদ দিন।
  • ৬ষ্ঠ দিন: সন্দেহজনক আইপি ও ইউজার এজেন্ট প্যাটার্নে অস্থায়ী ব্লক নিয়ম যোগ করুন।
  • ৭ম দিন: ৪০৩, ৪২৯, অর্গানিক ট্রাফিক ও কনভার্শন ডেটা তুলনা করে থ্রেশহোল্ড উন্নত করুন।

এই পরিকল্পনা শেষ করলে সাইট পুরোপুরি কাজিমা-মুক্ত হবে না; তবে স্বয়ংক্রিয় ডেটা চুরির খরচ অনেক বেড়ে যাবে। বট সাধারণত সহজ টার্গেট পছন্দ করে। রিসোর্স রক্ষাকারী, নিয়ম স্পষ্ট, ভালো ক্যাশ করা ও মনিটর করা সাইট অরক্ষিত প্রতিযোগীদের তুলনায় কম আকর্ষণীয় হয়।

উপসংহার: ওয়েব স্ক্র্যাপিং মোকাবেলায় লেয়ার্ড সিকিউরিটি দরকার

ওয়েব স্ক্র্যাপিং আধুনিক ওয়েবসাইটের জন্য অনিবার্য বাস্তবতা। গুরুত্বপূর্ণ হলো সব বট আটকানোর চেষ্টা না করে বৈধ ক্রলার রক্ষা করা এবং ক্ষতিকর বটকে সাইট শোষণ করা কঠিন করে তোলা। লগ বিশ্লেষণ, রেট লিমিটিং, WAF, CDN, API নিরাপত্তা, সঠিক robots.txt ব্যবহার, আইনি টেক্সট ও শক্তিশালী হোস্টিং অবকাঠামো একসাথে কাজ করলে পারফরম্যান্স ও বাণিজ্যিক ডেটা উভয়ই ভালোভাবে রক্ষা করা যায়।

Hostragons-এ সাইট বাড়ানোর সময় নিরাপত্তা, গতি ও স্কেলেবিলিটি চাহিদা একসাথে পরিকল্পনা করতে চাইলে বর্তমান হোস্টিং স্ট্রাকচার রিভিউ করতে পারেন এবং প্রজেক্টের জন্য উপযুক্ত ওয়েব হোস্টিং বা ভিপিএস সার্ভার অপশন দেখতে পারেন। সঠিক অবকাঠামো বট মোকাবেলায় নীরব কিন্তু শক্তিশালী প্রতিরক্ষা স্তর।

সচরাচর জিজ্ঞাসিত প্রশ্ন

ওয়েব স্ক্র্যাপিং কি আইনি?

ওয়েব স্ক্র্যাপিং সব ক্ষেত্রে স্বয়ংক্রিয়ভাবে আইনি বা অবৈধ নয়। ডেটার ধরন, ব্যবহারের উদ্দেশ্য, সাইটের ব্যবহারের শর্ত, ব্যক্তিগত ডেটা আছে কি না এবং কপিরাইট অধিকার নির্ধারক। সবার জন্য উন্মুক্ত পেজ থেকে সীমিত টেকনিক্যাল বিশ্লেষণ করা এবং ডাটাবেস অনুমতি ছাড়া কপি করা একইভাবে দেখা হয় না। কোম্পানির জন্য স্পষ্ট নীতি তৈরি করতে আইনি পরামর্শ নেওয়া উচিত।

robots.txt ফাইল স্ক্র্যাপার বট আটকায়?

না। robots.txt ভালো উদ্দেশ্যের বটকে কোন এরিয়া স্ক্যান না করতে বলে; এটা টেকনিক্যাল নিরাপত্তা ব্যারিয়ার নয়। ক্ষতিকর বট এই ফাইল উপেক্ষা করতে পারে। আসল সুরক্ষার জন্য WAF, রেট লিমিটিং, অ্যাক্সেস কন্ট্রোল ও লগ মনিটরিংয়ের মতো অতিরিক্ত ব্যবস্থা দরকার।

Googlebot ও নকল বট কীভাবে আলাদা করব?

শুধু ইউজার এজেন্টের উপর নির্ভর করবেন না। নকল বট নিজেকে Googlebot সাজাতে পারে। যাচাইয়ের জন্য আইপি অ্যাড্রেস Google-এর কিনা রিভার্স DNS ও ফরোয়ার্ড DNS চেক দিয়ে নিশ্চিত করতে হবে। এছাড়া স্ক্যান গতি, URL আচরণ ও Search Console ক্রল ডেটাও তুলনা করতে হবে।

CAPTCHA কি বট সম্পূর্ণ আটকায়?

CAPTCHA কিছু অটোমেশন ধীর করে কিন্তু একা নিশ্চিত সমাধান নয়। উন্নত বট CAPTCHA সলভিং সার্ভিস, সেশন নকল বা আসল ব্রাউজার অটোমেশন ব্যবহার করতে পারে। CAPTCHA সবচেয়ে ভালো ফল দেয় রেট লিমিটিং, WAF, আচরণ বিশ্লেষণ ও রিস্ক ভিত্তিক যাচাইয়ের সাথে ব্যবহার করলে।

বট ট্রাফিক কি হোস্টিং পারফরম্যান্সে প্রভাব ফেলে?

হ্যাঁ। ঘন বট ট্রাফিক CPU, RAM, ডাটাবেস, ব্যান্ডউইথ ও PHP প্রসেসিং লিমিট নষ্ট করতে পারে। এতে আসল ব্যবহারকারীর জন্য ধীরগতি, এরর পেজ ও কনভার্শন হারানো হতে পারে। ক্যাশিং, CDN, গতি সীমা ও সঠিক হোস্টিং প্যাকেজ বেছে নিলে বট ট্রাফিকের প্রভাব কমানো যায়।

এই নিবন্ধটি শেয়ার করুন:
Ahmed El-Farouki

সাইবার হুমকি বিশ্লেষক

১১+ বছরের হুমকি বিশ্লেষণ এবং নিরাপত্তা মূল্যায়ন অভিজ্ঞতা রয়েছে। সাইবার হুমকি সনাক্তকরণে গভীর জ্ঞান রয়েছে।

সমস্ত লেখা →