2026年5月26日,全球三方编程评测榜单Code Arena最新放榜,阿里最新旗舰模型Qwen3.7-Max以1541分的成绩,超越了GPT-5.5和Gemini-3.5-Flash等主流模型,在大模型厂商中排名全球第二,仅次于Claude系列。
这个结果让不少人大跌眼镜。千问系列从一个”国产追赶者”,到现在在编程能力上和国际顶级模型平起平坐,进步速度确实惊人。
Code Arena榜单是什么?
Code Arena是目前比较权威的第三方编程能力评测平台,不同于厂商自己公布的benchmark数据,Code Arena的测试更接近真实的开发场景。评测内容包括:
- 代码生成准确率
- 复杂逻辑推理能力
- 多语言编程支持
- 代码调试和修复能力
- 大型项目的上下文理解
千问3.7-Max能在这样的评测中拿到1541分、超越GPT-5.5,说明它在实际编程场景中的表现已经相当强。
千问3.7的技术亮点
千问3.7-Max相比前代模型有几个明显提升:
编程能力大幅增强
在Python、JavaScript、Go、Rust等主流语言上的代码生成质量显著提升,特别是对复杂业务逻辑的理解能力。不少开发者反馈,用千问3.7写代码的”第一次通过率”比之前高了不少。
中文编程理解更准
用中文描述需求时,千问3.7的理解准确率明显高于国外模型。对于中文开发者来说,这个优势很实际——不用再费劲把需求翻译成英文。
长上下文支持
千问3.7支持超长上下文窗口,可以一次性处理大型代码文件,在代码审查、重构、迁移等场景下特别有用。
对站长和开发者的实际意义
1. 国产模型终于能打了
过去大家选编程AI助手,基本就是Claude和GPT二选一。现在千问3.7的编程能力已经能和它们正面竞争,多了一个靠谱的选择。
2. 成本优势明显
千问系列的API定价一直比较亲民。编程能力接近的情况下,成本可能只有Claude的几分之一。对于需要大量API调用的站长来说,这个差价很可观。
3. 开源版本可本地部署
千问系列有开源版本,如果你有自己的GPU服务器,可以本地部署。数据不出服务器,隐私有保障,而且没有API调用限制。
4. 实际使用建议
- 复杂架构设计:还是优先用Claude,综合能力最强
- 日常代码生成:千问3.7完全够用,性价比最高
- 中文需求理解:千问3.7有天然优势
- 代码审查:千问3.7的长上下文能力很适合
如何使用千问3.7
目前可以通过以下方式使用千问3.7-Max:
- 通义千问官网:qianwen.aliyun.com,免费使用基础版
- 阿里云API:通过阿里云百炼平台调用API
- 第三方平台:OpenRouter等平台也支持千问3.7的调用
- 本地部署:开源版本支持vLLM、Ollama等推理框架
国产大模型的编程能力追上来了,对开发者来说是好事——竞争越激烈,工具越好用,价格越便宜。
本文参考来源:36氪:阿里千问3.7编程能力超越GPT和Gemini | 通义千问官网











Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro


暂无评论内容