阿里千问3.7编程能力超越GPT-5.5和Gemini,Code Arena榜单全球第二

2026年5月26日,全球三方编程评测榜单Code Arena最新放榜,阿里最新旗舰模型Qwen3.7-Max以1541分的成绩,超越了GPT-5.5和Gemini-3.5-Flash等主流模型,在大模型厂商中排名全球第二,仅次于Claude系列。

这个结果让不少人大跌眼镜。千问系列从一个”国产追赶者”,到现在在编程能力上和国际顶级模型平起平坐,进步速度确实惊人。

Code Arena榜单是什么?

Code Arena是目前比较权威的第三方编程能力评测平台,不同于厂商自己公布的benchmark数据,Code Arena的测试更接近真实的开发场景。评测内容包括:

  • 代码生成准确率
  • 复杂逻辑推理能力
  • 多语言编程支持
  • 代码调试和修复能力
  • 大型项目的上下文理解

千问3.7-Max能在这样的评测中拿到1541分、超越GPT-5.5,说明它在实际编程场景中的表现已经相当强。

千问3.7的技术亮点

千问3.7-Max相比前代模型有几个明显提升:

编程能力大幅增强

在Python、JavaScript、Go、Rust等主流语言上的代码生成质量显著提升,特别是对复杂业务逻辑的理解能力。不少开发者反馈,用千问3.7写代码的”第一次通过率”比之前高了不少。

中文编程理解更准

用中文描述需求时,千问3.7的理解准确率明显高于国外模型。对于中文开发者来说,这个优势很实际——不用再费劲把需求翻译成英文。

长上下文支持

千问3.7支持超长上下文窗口,可以一次性处理大型代码文件,在代码审查、重构、迁移等场景下特别有用。

对站长和开发者的实际意义

1. 国产模型终于能打了

过去大家选编程AI助手,基本就是Claude和GPT二选一。现在千问3.7的编程能力已经能和它们正面竞争,多了一个靠谱的选择。

2. 成本优势明显

千问系列的API定价一直比较亲民。编程能力接近的情况下,成本可能只有Claude的几分之一。对于需要大量API调用的站长来说,这个差价很可观。

3. 开源版本可本地部署

千问系列有开源版本,如果你有自己的GPU服务器,可以本地部署。数据不出服务器,隐私有保障,而且没有API调用限制。

4. 实际使用建议

  • 复杂架构设计:还是优先用Claude,综合能力最强
  • 日常代码生成:千问3.7完全够用,性价比最高
  • 中文需求理解:千问3.7有天然优势
  • 代码审查:千问3.7的长上下文能力很适合

如何使用千问3.7

目前可以通过以下方式使用千问3.7-Max:

  • 通义千问官网:qianwen.aliyun.com,免费使用基础版
  • 阿里云API:通过阿里云百炼平台调用API
  • 第三方平台:OpenRouter等平台也支持千问3.7的调用
  • 本地部署:开源版本支持vLLM、Ollama等推理框架

国产大模型的编程能力追上来了,对开发者来说是好事——竞争越激烈,工具越好用,价格越便宜。

本文参考来源:36氪:阿里千问3.7编程能力超越GPT和Gemini | 通义千问官网

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
相关推荐
<p>菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。</p>

<h2>菲尔兹奖得主的实测</h2>

<p>Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。</p>

<p>据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:</p>

<ul>
<li>对问题的准确理解</li>
<li>合理的解题策略选择</li>
<li>严密的逻辑推导链</li>
<li>对特殊情况的处理</li>
</ul>

<h2>与前代模型的对比</h2>

<p>Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:</p>

<ul>
<li>推理链中途断裂,得出错误结论</li>
<li>混淆不同数学概念</li>
<li>在计算步骤中出错</li>
<li>无法识别问题的关键约束条件</li>
</ul>

<p>而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。</p>

<h2>对普通用户意味着什么</h2>

<p>虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:</p>

<ul>
<li><strong>编程辅助</strong>:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。</li>
<li><strong>数据分析</strong>:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。</li>
<li><strong>技术文档</strong>:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。</li>
<li><strong>教育辅导</strong>:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。</li>
</ul>

<h2>AI数学能力的里程碑</h2>

<p>ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:</p>

<ul>
<li>单一数学家的主观测试不能替代系统性基准评估</li>
<li>模型可能在训练数据中见过类似题目</li>
<li>真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板</li>
</ul>

<p>无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。</p>

<blockquote>
<p><strong>来源:</strong></p>
<ul>
<li><a href=Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro
  • OSCHINA – ChatGPT 5.5 Pro一小时攻克博士级数学难题
  • -枫选">

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。

    菲尔兹奖得主的实测

    Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。

    据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:

    • 对问题的准确理解
    • 合理的解题策略选择
    • 严密的逻辑推导链
    • 对特殊情况的处理

    与前代模型的对比

    Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:

    • 推理链中途断裂,得出错误结论
    • 混淆不同数学概念
    • 在计算步骤中出错
    • 无法识别问题的关键约束条件

    而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。

    对普通用户意味着什么

    虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:

    • 编程辅助:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。
    • 数据分析:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。
    • 技术文档:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。
    • 教育辅导:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。

    AI数学能力的里程碑

    ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:

    • 单一数学家的主观测试不能替代系统性基准评估
    • 模型可能在训练数据中见过类似题目
    • 真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板

    无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。

    来源:

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的...

    16天前 56
    评论 抢沙发

    请登录后发表评论

      暂无评论内容