SEO & 内容

AI 机器人访问控制

分析您网站的 robots.txt 文件;实时查看 GPTBot、ClaudeBot、Perplexity 和其他 17 个 AI 爬虫的访问状态。

AI 机器人访问控制
信息

关于人工智能机器人访问控制

人工智能公司(OpenAI、Anthropic、Google、Meta、Amazon 等)使用专门的机器人程序抓取网络,训练人工智能模型或执行实时搜索。这些机器人程序会访问您的网站, robots.txt 这取决于您文件中的规则。但是,要在一个地方查看哪些机器人被允许、哪些被阻止,相当麻烦。

AI机器人访问控制工具会验证您正在访问的网站。 robots.txt 它实时从服务器检索文件,并自动分析 17 种不同的 AI 爬虫的状态:GPTBot、ChatGPT-User、OAI-SearchBot(OpenAI);ClaudeBot、anthropic-ai、Claude-Web(Anthropic);PerplexityBot 和 Perplexity-User(Perplexity);Google-Extended(Gemini/AI Overview);Applebot-Extended;CCBot(Common Crawl);Bytespider(TikTok);Amazonbot;meta-externalagent 和 FacebookBot(Meta);DuckAssistBot 和 cohere-ai。对于每个机器人…… 授权, 已禁用 或者 未指定(默认权限) 你可以通过彩色徽章查看他们的状态。

结果屏幕还包含一个用于关闭人工智能机器人的选项。 robots.txt 我们还提供了示例规则。如果您不是网站所有者,也可以使用它来查询任何网站的政策。所有查询都在服务器端进行;请求仅发送到公共 IP 地址,出于安全考虑,本地和私有网络地址将被屏蔽。

如何使用?

步步

  1. 请输入域名或完整网址(例如) example.com 或者 https://example.com).
  2. 查看 点击按钮;该工具就会出现在网站上。 robots.txt 它检索文件。
  3. 对于每个人工智能机器人 授权, 已禁用 或者 未指定 通过彩色徽章查看您的状态。
  4. 如有需要,您可以将页面底部的现成规则复制到您的网站。 robots.txt 将其添加到文件中。
常见问题解答

常见问题解答

robots.txt 是一个标准协议,用于告知网络爬虫哪些页面可以访问。人工智能公司承诺确保其数据收集机器人遵守此文件。正确配置该文件是防止您的内容被纳入人工智能训练数据集或用于实时人工智能搜索的最快捷方式。

如果您的 robots.txt 文件中没有针对该机器人的特定规则,并且 `User-agent: * (all bots)` 代码块中没有任何限制,则默认情况下该机器人被视为允许访问。这意味着如果您想阻止该机器人,则需要添加自定义规则。

不,robots.txt 是一种技术上的礼貌性协议,并非法律强制要求。虽然正规的人工智能公司会承诺遵守这些规则,但恶意爬虫可能会无视它们。对于敏感内容,建议采取额外的措施,例如访问控制和身份验证。

Google-Extended 是 Google 用于开发 Gemini 和 AI Overview 等 AI 产品的一种特殊爬虫 ID。它独立于常规的 Google 搜索机器人(Googlebot);只有当 Googlebot 被屏蔽时,您的网页才会继续出现在 Google 搜索结果中。

Common Crawl 是一个开源的网络存档项目,许多主流语言模型(包括 GPT-3/4)都使用 CCBot 的数据进行训练。屏蔽 CCBot 可能会减少未来开源 AI 模型会抓取到您网站内容的数量。