2026年2月5日,Anthropic发布了Claude Opus 4.6,这是其最智能模型的最新升级版本。新模型在编程、推理、搜索和金融分析等多个领域都取得了领先成绩,并首次在Opus级别模型中引入了100万token的上下文窗口(测试版)。
核心升级
Opus 4.6相比前代的主要改进包括:
- 编程能力:在Terminal-Bench 2.0评测中取得最高分,能够处理更大规模的代码库
- 推理能力:在Humanity’s Last Exam(复杂多学科推理测试)中领先所有其他前沿模型
- 知识工作:在GDPval-AA评测(金融、法律等领域的知识工作任务)中,比OpenAI GPT-5.2高出约144个Elo分
- 搜索能力:在BrowseComp评测中表现最佳,能够找到难以定位的在线信息
- 上下文窗口:100万token上下文窗口(测试版),大幅提升了处理长文档的能力
Claude Code的新功能
在Claude Code中,用户现在可以组建Agent团队协作完成任务。在API层面,Claude可以使用compaction功能总结自己的上下文,执行更长时间的任务而不会撞到限制。
Anthropic还引入了自适应思考功能,模型可以根据上下文线索自动决定使用多少扩展思考,并提供新的控制选项让开发者在智能、速度和成本之间做出权衡。
办公应用升级
Claude in Excel获得了大幅升级,同时推出了Claude in PowerPoint的研究预览版。这让Claude在日常办公场景中的能力显著增强。
安全表现
根据Anthropic发布的系统卡,Opus 4.6在安全评估中表现出与行业其他前沿模型相当或更好的安全特性,失调行为的比率较低。
定价和可用性
Claude Opus 4.6已在claude.ai、API和所有主要云平台上线。定价与前代相同:输入$5/百万token,输出$25/百万token。
站长和开发者需要注意什么
- 如果你在使用Claude API进行开发,建议测试Opus 4.6在你的场景中的表现提升
- 100万token上下文窗口意味着可以处理更长的代码库和文档
- Agent团队功能对于复杂的代码审查和重构任务非常有价值
- 自适应思考功能可以帮助优化API调用成本
简评
Opus 4.6的发布标志着AI模型在实际工作场景中的能力再次跃升。特别是100万token上下文窗口和Agent团队功能,让Claude在处理复杂项目时更加得心应手。对于站长来说,这意味着可以用Claude处理更大规模的代码审查、文档分析和数据处理任务。











Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro


暂无评论内容