搜索引擎抓取网站内容可以给网站带来流量,而目前AI爬取内容后能给网站带来什么好处还未知。
一些与AI相关的机器人爬取内容用于训练语言模型或聚合数据等目的,如果你不希望你的数据用于这些目的,阻止此类机器人有助于保护你的内容。
robots.txt文件是网站用来与爬虫和机器人进行通信的标准。此文件位于网站的根目录中,其中包含指示这些自动代理允许或禁止它们爬取哪部分内容的指令。
通过使用robots.txt文件,可以阻止机器人访问部分内容,或完全阻止某些机器人。但需要注意的是,虽然大多数行为良好的机器人都遵守robots.txt中设置的规则,一些恶意机器人可能会忽略这些指令。
阻止爬虫的指令如下:
User-agent: 代理名称
Disallow: /
一份阻止AI机器人的robots.txt清单:
User-agent: AI2Bot
User-agent: Ai2Bot-Dolma
User-agent: Amazonbot
User-agent: Applebot
User-agent: Applebot-Extended
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: Diffbot
User-agent: FacebookBot
User-agent: FriendlyCrawler
User-agent: GPTBot
User-agent: Google-Extended
User-agent: GoogleOther
User-agent: GoogleOther-Image
User-agent: GoogleOther-Video
User-agent: ICC-Crawler
User-agent: ISSCyberRiskCrawler
User-agent: ImagesiftBot
User-agent: Kangaroo Bot
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: OAI-SearchBot
User-agent: PerplexityBot
User-agent: PetalBot
User-agent: Scrapy
User-agent: Sidetrade indexer bot
User-agent: Timpibot
User-agent: VelenPublicWebCrawler
User-agent: Webzio-Extended
User-agent: YouBot
User-agent: anthropic-ai
User-agent: cohere-ai
User-agent: facebookexternalhit
User-agent: iaskspider/2.0
User-agent: img2dataset
User-agent: omgili
User-agent: omgilibot
Disallow: /
以上机器人列表来自GitHub ai-robots-txt项目
原创文章,作者:,如若转载,请注明出处:https://ce.771633.xyz/2107.html