SEO & Nội dung

Kiểm soát truy cập bằng AI Bot

Phân tích tệp robots.txt của trang web; xem trạng thái truy cập của GPTBot, ClaudeBot, Perplexity và 17 trình thu thập dữ liệu AI khác trong thời gian thực.

Tên miền hoặc URL

Thông tin

Về quyền truy cập của AI Bot

Các công ty AI (OpenAI, Anthropic, Google, Meta, Amazon, và nhiều công ty khác) sử dụng các bot chuyên dụng để thu thập dữ liệu trên web và huấn luyện các mô hình AI hoặc thực hiện tìm kiếm theo thời gian thực. Các bot này truy cập vào trang web của bạn, robots.txt Điều này được xác định bởi các quy tắc trong tệp của bạn. Tuy nhiên, việc xem bot nào được phép và bot nào bị chặn ở cùng một nơi khá rắc rối.

Công cụ Kiểm soát truy cập AI Bot sẽ xác minh trang web bạn đang truy cập. robots.txt Nó truy xuất tệp từ máy chủ theo thời gian thực và tự động phân tích trạng thái của 17 trình thu thập dữ liệu AI khác nhau: GPTBot, ChatGPT-User, OAI-SearchBot (OpenAI); ClaudeBot, anthropic-ai, Claude-Web (Anthropic); PerplexityBot và Perplexity-User (Perplexity); Google-Extended (Gemini/AI Overview); Applebot-Extended; CCBot (Common Crawl); Bytespider (TikTok); Amazonbot; meta-externalagent và FacebookBot (Meta); DuckAssistBot và cohere-ai. Đối với mỗi bot... Được ủy quyền, Tàn tật hoặc Không được chỉ định (quyền mặc định) Bạn có thể xem trạng thái của họ thông qua các huy hiệu màu sắc.

Màn hình kết quả cũng bao gồm tùy chọn sẵn sàng tắt cho các bot AI. robots.txt Các ví dụ về quy tắc cũng được cung cấp. Bạn cũng có thể sử dụng nó để nghiên cứu chính sách của bất kỳ trang web nào nếu bạn không phải là chủ sở hữu trang web đó. Tất cả các truy vấn đều được thực hiện ở phía máy chủ; các yêu cầu chỉ được gửi đến các địa chỉ IP công cộng, các khối mạng cục bộ và mạng riêng tư bị chặn vì lý do bảo mật.

Cách sử dụng như thế nào?

Từng bước một

Nhập tên miền hoặc URL đầy đủ (ví dụ:) ví dụ.com hoặc https://example.com).
Kiểm tra Nhấp vào nút; công cụ sẽ hiển thị trên trang web. robots.txt Nó truy xuất tập tin.
Đối với mỗi bot AI Được ủy quyền, Tàn tật hoặc Không xác định Xem trạng thái của bạn với các huy hiệu đầy màu sắc.
Nếu cần, bạn có thể sao chép các quy tắc đã được soạn sẵn ở cuối trang vào trang web của mình. robots.txt Thêm nó vào tệp.

FAQ

Câu hỏi thường gặp

robots.txt là một giao thức tiêu chuẩn cho biết trình thu thập dữ liệu web được phép truy cập vào những trang nào. Các công ty AI cam kết đảm bảo các bot thu thập dữ liệu của họ tuân thủ tệp này. Cấu hình tệp đúng cách là cách nhanh nhất để ngăn nội dung của bạn bị đưa vào tập dữ liệu huấn luyện AI hoặc được sử dụng trong các tìm kiếm AI thời gian thực.

Nếu tệp robots.txt của bạn không có quy tắc cụ thể nào cho bot đó và khối `User-agent: * (all bots)` không chứa bất kỳ hạn chế nào, thì bot đó được coi là được phép truy cập theo mặc định. Điều này có nghĩa là bạn cần thêm một quy tắc tùy chỉnh nếu muốn chặn bot đó.

Không, robots.txt là một giao thức kỹ thuật mang tính lịch sự; nó không phải là một yêu cầu pháp lý. Mặc dù các bot của các công ty AI nghiêm túc cam kết tuân thủ các quy tắc này, nhưng các trình thu thập dữ liệu độc hại có thể bỏ qua chúng. Đối với nội dung nhạy cảm, nên thực hiện các biện pháp bổ sung như kiểm soát truy cập và xác thực.

Google-Extended là một ID trình thu thập dữ liệu đặc biệt mà Google sử dụng để phát triển các sản phẩm trí tuệ nhân tạo như Gemini và AI Overview. Nó tách biệt với bot tìm kiếm thông thường của Google (Googlebot); chỉ khi bot này bị chặn thì trang web của bạn mới tiếp tục xuất hiện trong kết quả tìm kiếm của Google.

Common Crawl là một dự án lưu trữ web mã nguồn mở, và nhiều mô hình ngôn ngữ chính (bao gồm GPT-3/4) đã sử dụng dữ liệu của CCBot để huấn luyện. Chặn CCBot có thể giảm lượng nội dung của bạn được đưa vào các mô hình AI mã nguồn mở trong tương lai.

Quay lại tất cả các công cụ miễn phí

Kiểm soát truy cập bằng AI Bot

Về quyền truy cập của AI Bot

Từng bước một

Câu hỏi thường gặp

Tại sao tệp robots.txt lại quan trọng?

Trạng thái 'Không xác định' có nghĩa là gì?

Các quy tắc trong robots.txt có ràng buộc pháp lý không?

Google-Extended là gì?

Tại sao CCBot (Common Crawl) lại có trong danh sách này?