Internet Archive 的 Wayback Machine 一直是站长和研究者的重要工具——它保存了互联网的历史快照,让我们能回溯任何网站的过去版本。但从 2026 年初开始,越来越多的新闻网站开始封锁 Internet Archive 的爬虫。
发生了什么
据 Nieman Lab 报道,截至 2026 年 5 月,超过 340 家美国地方新闻网站已经限制了 Internet Archive 的访问权限。这些网站背后是美国最大的几家地方新闻出版商:USA Today Co.、McClatchy、Advance Local、MediaNews Group 和 Tribune Publishing。后两者都是 Alden Global Capital 的子公司——这家对冲基金因大幅削减新闻编辑室而被称为”秃鹫基金”。
出版商封锁 Internet Archive 的理由是担心 AI 公司会从 Wayback Machine 抓取内容用于训练模型。但到目前为止,没有任何出版商确认 AI 公司已经这样做了。
为什么这对站长很重要
这场风波的影响远超新闻行业:
- 内容保存受到威胁:地方新闻是社区历史记录的重要组成部分。一旦这些内容从 Wayback Machine 消失,可能永久丢失
- SEO 参考受限:很多站长用 Wayback Machine 查看竞争对手或行业网站的历史变化,这个功能正在缩水
- 法律和合规风险:如果你的网站引用了被删除的新闻内容作为证据,Wayback Machine 可能不再有备份
- 爬虫封锁趋势蔓延:今天是新闻网站,明天可能是其他类型的网站。AI 恐慌正在推动整个互联网的封闭化
出版商的真实动机
表面上是 AI 训练数据的担忧,但更深层的驱动力可能是:
- 控制内容的分发渠道,迫使用户直接访问原站(看广告)
- 为未来与 AI 公司的付费授权谈判保留筹码
- Alden Global Capital 等对冲基金一贯的成本削减策略
Internet Archive 的困境
密苏里大学新闻图书馆馆长 Edward McCain 警告说:”封锁 Internet Archive 的网络爬虫,威胁到了我们长期捕获和存储新闻内容最有效的方式之一。在当下,我们可能拥有这些信息,但未来几代人可能就没有了。”
Internet Archive 作为非营利组织,其使命就是保存互联网的历史。但面对越来越多网站的封锁,它的能力正在被削弱。
站长可以做什么
- 做好自己的内容备份:不要依赖 Wayback Machine 作为唯一备份方案,定期导出网站数据
- 关注 robots.txt 配置:如果你不希望自己的内容被 AI 训练,可以通过 robots.txt 精确控制,而不是一刀切封锁所有爬虫
- 支持开放互联网:如果你认为内容保存很重要,可以向 Internet Archive 捐款支持
- 多元化内容引用来源:不要只依赖 Wayback Machine 链接作为证据,同时保留本地截图和存档
本文参考来源:Nieman Lab | HN 讨论 (166pts)











Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro


暂无评论内容