Anna’s Archive用llms.txt反封锁AI爬虫:网站主如何控制AI训练数据抓取

知名电子书搜索引擎Anna’s Archive最近在其博客上发布了一篇文章,详细介绍了他们如何利用llms.txt标准来控制AI爬虫对网站内容的抓取行为。这篇文章在Hacker News上获得了747个赞,引发了网站主和AI开发者之间的激烈讨论。

什么是llms.txt

llms.txt是一个新兴的网站标准,类似于robots.txt对搜索引擎爬虫的控制作用。它允许网站主明确声明哪些内容可以被AI模型用于训练,哪些不可以。

基本用法很简单,在网站根目录放置一个llms.txt文件:

# llms.txt
# 网站:example.com

## 允许AI训练的内容
Allow: /blog/
Allow: /docs/

## 禁止AI训练的内容  
Disallow: /premium/
Disallow: /user-data/

Anna’s Archive的做法

Anna’s Archive的做法很有意思。作为一个电子书搜索引擎,他们面临着来自出版商的持续压力。通过llms.txt,他们试图建立一个明确的规则框架:

一方面,他们希望自己的技术文档和公开信息能够被AI模型学习,这样AI助手在回答用户关于电子书搜索的问题时能更准确;另一方面,他们不希望爬虫过度消耗服务器资源,也不希望用户数据被用于训练。

这种”选择性开放”的策略,代表了一种新的网站运营思路。

站长该如何看待这个趋势

对于普通站长来说,llms.txt的兴起带来几个需要思考的问题:

你的网站内容正在被AI爬取:不管你是否知情,你的网站内容很可能已经被各大AI公司的爬虫抓取用于模型训练。Common Crawl、C4数据集等公开数据集包含了大量的网页内容。

控制权在你手上:通过配置robots.txt和llms.txt,你可以明确告诉AI爬虫哪些可以抓取、哪些不行。虽然这不是法律强制的,但遵守规则的爬虫会尊重这些声明。

平衡开放与保护:完全封锁AI爬虫可能影响你在AI搜索结果中的曝光度;完全开放则可能让你的优质内容被无偿用于训练。找到适合自己的平衡点很重要。

实际操作建议

如果你想开始控制AI爬虫对网站的访问,可以按以下步骤操作:

第一步:检查现有的robots.txt

访问你的网站根目录下的robots.txt文件,看看现有的爬虫规则。很多站长从未配置过这个文件。

第二步:识别AI爬虫

常见的AI爬虫User-Agent包括:

  • GPTBot(OpenAI)
  • Google-Extended(Google)
  • anthropic-ai(Anthropic)
  • CCBot(Common Crawl)
  • FacebookBot(Meta)

第三步:配置robots.txt

User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

第四步:考虑添加llms.txt

如果你希望更细粒度的控制,可以在网站根目录添加llms.txt文件,明确声明哪些内容允许AI训练使用。

法律与伦理的灰色地带

目前,AI训练数据的合法性在全球范围内仍是一个灰色地带。欧盟的AI法案要求模型开发者披露训练数据来源;美国的版权诉讼(如纽约时报诉OpenAI案)仍在进行中。

作为站长,你能做的就是在技术层面设置好防护,同时关注相关法律进展。如果未来法律明确要求AI公司必须遵守robots.txt和llms.txt的声明,那么提前配置好这些文件就显得尤为重要。

本文参考来源:Anna’s Archive – llms.txt Blog Post | llms.txt Official Site

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
相关推荐
<p>菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。</p>

<h2>菲尔兹奖得主的实测</h2>

<p>Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。</p>

<p>据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:</p>

<ul>
<li>对问题的准确理解</li>
<li>合理的解题策略选择</li>
<li>严密的逻辑推导链</li>
<li>对特殊情况的处理</li>
</ul>

<h2>与前代模型的对比</h2>

<p>Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:</p>

<ul>
<li>推理链中途断裂,得出错误结论</li>
<li>混淆不同数学概念</li>
<li>在计算步骤中出错</li>
<li>无法识别问题的关键约束条件</li>
</ul>

<p>而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。</p>

<h2>对普通用户意味着什么</h2>

<p>虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:</p>

<ul>
<li><strong>编程辅助</strong>:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。</li>
<li><strong>数据分析</strong>:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。</li>
<li><strong>技术文档</strong>:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。</li>
<li><strong>教育辅导</strong>:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。</li>
</ul>

<h2>AI数学能力的里程碑</h2>

<p>ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:</p>

<ul>
<li>单一数学家的主观测试不能替代系统性基准评估</li>
<li>模型可能在训练数据中见过类似题目</li>
<li>真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板</li>
</ul>

<p>无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。</p>

<blockquote>
<p><strong>来源:</strong></p>
<ul>
<li><a href=Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro
  • OSCHINA – ChatGPT 5.5 Pro一小时攻克博士级数学难题
  • -枫选">

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。

    菲尔兹奖得主的实测

    Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。

    据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:

    • 对问题的准确理解
    • 合理的解题策略选择
    • 严密的逻辑推导链
    • 对特殊情况的处理

    与前代模型的对比

    Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:

    • 推理链中途断裂,得出错误结论
    • 混淆不同数学概念
    • 在计算步骤中出错
    • 无法识别问题的关键约束条件

    而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。

    对普通用户意味着什么

    虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:

    • 编程辅助:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。
    • 数据分析:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。
    • 技术文档:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。
    • 教育辅导:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。

    AI数学能力的里程碑

    ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:

    • 单一数学家的主观测试不能替代系统性基准评估
    • 模型可能在训练数据中见过类似题目
    • 真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板

    无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。

    来源:

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的...

    29天前 59
    评论 抢沙发

    请登录后发表评论

      暂无评论内容