Anna’s Archive用llms.txt反封锁AI爬虫：网站主如何控制AI训练数据抓取

1个月前发布

03913

知名电子书搜索引擎Anna’s Archive最近在其博客上发布了一篇文章，详细介绍了他们如何利用llms.txt标准来控制AI爬虫对网站内容的抓取行为。这篇文章在Hacker News上获得了747个赞，引发了网站主和AI开发者之间的激烈讨论。

什么是llms.txt

llms.txt是一个新兴的网站标准，类似于robots.txt对搜索引擎爬虫的控制作用。它允许网站主明确声明哪些内容可以被AI模型用于训练，哪些不可以。

基本用法很简单，在网站根目录放置一个llms.txt文件：

# llms.txt
# 网站：example.com

## 允许AI训练的内容
Allow: /blog/
Allow: /docs/

## 禁止AI训练的内容  
Disallow: /premium/
Disallow: /user-data/

Anna’s Archive的做法

Anna’s Archive的做法很有意思。作为一个电子书搜索引擎，他们面临着来自出版商的持续压力。通过llms.txt，他们试图建立一个明确的规则框架：

一方面，他们希望自己的技术文档和公开信息能够被AI模型学习，这样AI助手在回答用户关于电子书搜索的问题时能更准确；另一方面，他们不希望爬虫过度消耗服务器资源，也不希望用户数据被用于训练。

这种”选择性开放”的策略，代表了一种新的网站运营思路。

站长该如何看待这个趋势

对于普通站长来说，llms.txt的兴起带来几个需要思考的问题：

你的网站内容正在被AI爬取：不管你是否知情，你的网站内容很可能已经被各大AI公司的爬虫抓取用于模型训练。Common Crawl、C4数据集等公开数据集包含了大量的网页内容。

控制权在你手上：通过配置robots.txt和llms.txt，你可以明确告诉AI爬虫哪些可以抓取、哪些不行。虽然这不是法律强制的，但遵守规则的爬虫会尊重这些声明。

平衡开放与保护：完全封锁AI爬虫可能影响你在AI搜索结果中的曝光度；完全开放则可能让你的优质内容被无偿用于训练。找到适合自己的平衡点很重要。

实际操作建议

如果你想开始控制AI爬虫对网站的访问，可以按以下步骤操作：

第一步：检查现有的robots.txt

访问你的网站根目录下的robots.txt文件，看看现有的爬虫规则。很多站长从未配置过这个文件。

第二步：识别AI爬虫

常见的AI爬虫User-Agent包括：

GPTBot（OpenAI）
Google-Extended（Google）
anthropic-ai（Anthropic）
CCBot（Common Crawl）
FacebookBot（Meta）

第三步：配置robots.txt

User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

第四步：考虑添加llms.txt

如果你希望更细粒度的控制，可以在网站根目录添加llms.txt文件，明确声明哪些内容允许AI训练使用。

法律与伦理的灰色地带

目前，AI训练数据的合法性在全球范围内仍是一个灰色地带。欧盟的AI法案要求模型开发者披露训练数据来源；美国的版权诉讼（如纽约时报诉OpenAI案）仍在进行中。

作为站长，你能做的就是在技术层面设置好防护，同时关注相关法律进展。如果未来法律明确要求AI公司必须遵守robots.txt和llms.txt的声明，那么提前配置好这些文件就显得尤为重要。

本文参考来源：Anna’s Archive – llms.txt Blog Post | llms.txt Official Site

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END