阿里千问3.7编程能力超越GPT-5.5和Gemini，Code Arena榜单全球第二

1个月前发布

0357

2026年5月26日，全球三方编程评测榜单Code Arena最新放榜，阿里最新旗舰模型Qwen3.7-Max以1541分的成绩，超越了GPT-5.5和Gemini-3.5-Flash等主流模型，在大模型厂商中排名全球第二，仅次于Claude系列。

这个结果让不少人大跌眼镜。千问系列从一个”国产追赶者”，到现在在编程能力上和国际顶级模型平起平坐，进步速度确实惊人。

Code Arena榜单是什么？

Code Arena是目前比较权威的第三方编程能力评测平台，不同于厂商自己公布的benchmark数据，Code Arena的测试更接近真实的开发场景。评测内容包括：

代码生成准确率
复杂逻辑推理能力
多语言编程支持
代码调试和修复能力
大型项目的上下文理解

千问3.7-Max能在这样的评测中拿到1541分、超越GPT-5.5，说明它在实际编程场景中的表现已经相当强。

千问3.7的技术亮点

千问3.7-Max相比前代模型有几个明显提升：

编程能力大幅增强

在Python、JavaScript、Go、Rust等主流语言上的代码生成质量显著提升，特别是对复杂业务逻辑的理解能力。不少开发者反馈，用千问3.7写代码的”第一次通过率”比之前高了不少。

中文编程理解更准

用中文描述需求时，千问3.7的理解准确率明显高于国外模型。对于中文开发者来说，这个优势很实际——不用再费劲把需求翻译成英文。

长上下文支持

千问3.7支持超长上下文窗口，可以一次性处理大型代码文件，在代码审查、重构、迁移等场景下特别有用。

对站长和开发者的实际意义

1. 国产模型终于能打了

过去大家选编程AI助手，基本就是Claude和GPT二选一。现在千问3.7的编程能力已经能和它们正面竞争，多了一个靠谱的选择。

2. 成本优势明显

千问系列的API定价一直比较亲民。编程能力接近的情况下，成本可能只有Claude的几分之一。对于需要大量API调用的站长来说，这个差价很可观。

3. 开源版本可本地部署

千问系列有开源版本，如果你有自己的GPU服务器，可以本地部署。数据不出服务器，隐私有保障，而且没有API调用限制。

4. 实际使用建议

复杂架构设计：还是优先用Claude，综合能力最强
日常代码生成：千问3.7完全够用，性价比最高
中文需求理解：千问3.7有天然优势
代码审查：千问3.7的长上下文能力很适合

如何使用千问3.7

目前可以通过以下方式使用千问3.7-Max：

通义千问官网：qianwen.aliyun.com，免费使用基础版
阿里云API：通过阿里云百炼平台调用API
第三方平台：OpenRouter等平台也支持千问3.7的调用
本地部署：开源版本支持vLLM、Ollama等推理框架

国产大模型的编程能力追上来了，对开发者来说是好事——竞争越激烈，工具越好用，价格越便宜。

本文参考来源：36氪：阿里千问3.7编程能力超越GPT和Gemini | 通义千问官网

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END