SEO & เนื้อหา

การควบคุมการเข้าถึง AI Bot

วิเคราะห์ไฟล์ robots.txt ของเว็บไซต์ของคุณ ดูสถานะการเข้าถึงของ GPTBot, ClaudeBot, Perplexity และโปรแกรมรวบรวมข้อมูล AI อื่นๆ อีก 17 รายการแบบเรียลไทม์

การควบคุมการเข้าถึง AI Bot
ข้อมูล

เกี่ยวกับการควบคุมการเข้าถึงบอท AI

บริษัท AI (เช่น OpenAI, Anthropic, Google, Meta, Amazon และอื่นๆ) ใช้บอทเฉพาะทางในการสำรวจเว็บและฝึกฝนโมเดล AI หรือทำการค้นหาแบบเรียลไทม์ บอทเหล่านี้จะเข้าถึงเว็บไซต์ของคุณ robots.txt สิ่งนี้ถูกกำหนดโดยกฎในไฟล์ของคุณ อย่างไรก็ตาม การดูว่าบอทใดได้รับอนุญาตและบอทใดถูกบล็อกในที่เดียวค่อนข้างยุ่งยาก

เครื่องมือควบคุมการเข้าถึงด้วย AI Bot จะตรวจสอบเว็บไซต์ที่คุณกำลังเยี่ยมชม robots.txt โปรแกรมนี้ดึงไฟล์จากเซิร์ฟเวอร์แบบเรียลไทม์และวิเคราะห์สถานะของ AI crawler 17 ตัวโดยอัตโนมัติ ได้แก่ GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot และ Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent และ FacebookBot (Meta); DuckAssistBot และ cohere-ai สำหรับแต่ละบอท... ได้รับอนุญาต, พิการ หรือ ไม่ได้ระบุ (สิทธิ์เริ่มต้น) คุณสามารถดูสถานะของพวกเขาได้จากป้ายสีต่างๆ

หน้าจอแสดงผลลัพธ์ยังมีตัวเลือกที่พร้อมให้ปิดใช้งานสำหรับบอท AI อีกด้วย robots.txt มีตัวอย่างกฎให้ดูด้วย คุณยังสามารถใช้มันเพื่อค้นคว้าเกี่ยวกับนโยบายของเว็บไซต์ใดๆ ก็ได้ แม้ว่าคุณจะไม่ใช่เจ้าของเว็บไซต์ก็ตาม การสอบถามทั้งหมดจะดำเนินการฝั่งเซิร์ฟเวอร์ คำขอจะถูกส่งไปยังที่อยู่ IP สาธารณะเท่านั้น การบล็อกเครือข่ายภายในและเครือข่ายส่วนตัวจะถูกบล็อกด้วยเหตุผลด้านความปลอดภัย

วิธีใช้งาน?

ทีละขั้นตอน

  1. ป้อนชื่อโดเมนหรือ URL แบบเต็ม (ตัวอย่างเช่น) ตัวอย่าง.com หรือ https://example.com).
  2. ตรวจสอบ คลิกปุ่มนั้น เครื่องมือจะปรากฏบนเว็บไซต์ robots.txt มันดึงไฟล์ออกมา
  3. สำหรับบอท AI แต่ละตัว ได้รับอนุญาต, พิการ หรือ ไม่ระบุ ดูสถานะของคุณด้วยป้ายสัญลักษณ์หลากสีสัน
  4. หากจำเป็น คุณสามารถคัดลอกกฎสำเร็จรูปที่อยู่ด้านล่างของหน้านี้ไปยังเว็บไซต์ของคุณได้ robots.txt เพิ่มลงในไฟล์
คำถามที่พบบ่อย

คำถามที่พบบ่อย

robots.txt เป็นโปรโตคอลมาตรฐานที่บอกเว็บครอว์เลอร์ว่าสามารถเข้าถึงหน้าเว็บใดได้บ้าง บริษัท AI ต่างให้คำมั่นว่าบอทเก็บข้อมูลของตนปฏิบัติตามไฟล์นี้ การกำหนดค่าไฟล์อย่างถูกต้องเป็นวิธีที่เร็วที่สุดในการป้องกันไม่ให้เนื้อหาของคุณเข้าสู่ชุดข้อมูลฝึกฝน AI หรือถูกนำไปใช้ในการค้นหา AI แบบเรียลไทม์

หากไฟล์ robots.txt ของคุณไม่มีกฎเฉพาะสำหรับบอทนั้น และบล็อก `User-agent: * (บอททั้งหมด)` ไม่มีข้อจำกัดใดๆ บอทนั้นจะถือว่าได้รับอนุญาตให้เข้าถึงโดยค่าเริ่มต้น ซึ่งหมายความว่าคุณจะต้องเพิ่มกฎที่กำหนดเองหากต้องการบล็อกบอทนั้น

ไม่ robots.txt เป็นเพียงโปรโตคอลทางเทคนิคเพื่อแสดงความสุภาพ ไม่ใช่ข้อกำหนดทางกฎหมาย แม้ว่าบอทของบริษัท AI ที่จริงจังจะปฏิบัติตามกฎเหล่านี้ แต่โปรแกรมรวบรวมข้อมูลที่เป็นอันตรายอาจเพิกเฉยต่อกฎเหล่านั้น สำหรับเนื้อหาที่ละเอียดอ่อน แนะนำให้ใช้มาตรการเพิ่มเติม เช่น การควบคุมการเข้าถึงและการตรวจสอบสิทธิ์

Google-Extended เป็นรหัสประจำตัวของโปรแกรมรวบรวมข้อมูล (crawler ID) พิเศษที่ Google ใช้ในการพัฒนาผลิตภัณฑ์ AI เช่น Gemini และ AI Overviews รหัสนี้แยกต่างหากจากบอทค้นหาของ Google ทั่วไป (Googlebot) เว็บไซต์ของคุณจะยังคงปรากฏในผลการค้นหาของ Google ได้ก็ต่อเมื่อบอทนี้ถูกบล็อกเท่านั้น

Common Crawl เป็นโครงการเก็บข้อมูลเว็บแบบโอเพนซอร์ส และโมเดลภาษาหลักๆ หลายตัว (รวมถึง GPT-3/4) ใช้ข้อมูลจาก CCBot ในการฝึกฝน การบล็อก CCBot จะช่วยลดปริมาณเนื้อหาของคุณที่จะเข้าสู่โมเดล AI แบบโอเพนซอร์สในอนาคตได้