使用robots.txt阻止AI机器人

• 2025年3月8日上午11:53 • 运维日志 • 7 views

搜索引擎抓取网站内容可以给网站带来流量，而目前AI爬取内容后能给网站带来什么好处还未知。

一些与AI相关的机器人爬取内容用于训练语言模型或聚合数据等目的，如果你不希望你的数据用于这些目的，阻止此类机器人有助于保护你的内容。

robots.txt文件是网站用来与爬虫和机器人进行通信的标准。此文件位于网站的根目录中，其中包含指示这些自动代理允许或禁止它们爬取哪部分内容的指令。

通过使用robots.txt文件，可以阻止机器人访问部分内容，或完全阻止某些机器人。但需要注意的是，虽然大多数行为良好的机器人都遵守robots.txt中设置的规则，一些恶意机器人可能会忽略这些指令。

阻止爬虫的指令如下：

User-agent: 代理名称
Disallow: /

一份阻止AI机器人的robots.txt清单：

User-agent: AI2Bot
User-agent: Ai2Bot-Dolma
User-agent: Amazonbot
User-agent: Applebot
User-agent: Applebot-Extended
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: Diffbot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: GPTBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GoogleOther-Image
User-agent: GoogleOther-Video
User-agent: ICC-Crawler
User-agent: ISSCyberRiskCrawler
User-agent: ImagesiftBot
User-agent: Kangaroo Bot
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: OAI-SearchBot
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: Scrapy
User-agent: Sidetrade indexer bot
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: Webzio-Extended
User-agent: YouBot
User-agent: anthropic-ai
User-agent: cohere-ai
User-agent: facebookexternalhit
User-agent: iaskspider/2.0
User-agent: img2dataset
User-agent: omgili
User-agent: omgilibot
Disallow: /

以上机器人列表来自GitHub ai-robots-txt项目

原创文章，作者：，如若转载，请注明出处：https://ce.771633.xyz/2107.html

使用robots.txt阻止AI机器人

相关推荐

发表回复