ZAYA1-8B：不到 1B 活跃参数，数学能力匹敌 DeepSeek-R1 的开源模型

AI 模型领域又出了一个让人眼前一亮的项目。Zyphra 公司在 2026 年 5 月 6 日发布了 ZAYA1-8B——一个总参数 8B、但活跃参数不到 1B 的混合专家（MoE）模型。更令人惊讶的是，它在数学推理能力上声称匹敌甚至超越 DeepSeek-R1 和 Claude 4.5 Sonnet。

核心亮点

ZAYA1-8B 有几个值得关注的点：

极致的参数效率：8B 总参数，但每次推理只激活不到 1B 参数，意味着推理成本极低
全部在 AMD 硬件训练：使用 1024 个 MI300x 节点，由 AMD Pensando Pollara 互联，与 IBM 合作搭建训练集群
Apache 2.0 开源：完全开源，可以商用
数学推理能力突出：在 HMMT’25 基准上达到 89.6 分，超越 Claude 4.5 Sonnet 的 88.3 分

三大架构创新

1. 压缩卷积注意力（CCA）

这是 ZAYA1 的核心创新之一。CCA 是一种更高效的注意力变体，相关论文在 2025 年 10 月发表（arXiv:2510.04476）。它通过压缩注意力计算来降低计算成本，同时保持模型的表达能力。

2. MLP 路由器

传统的 MoE 模型使用线性层来决定哪些专家被激活。ZAYA1 改用 MLP（多层感知机）作为路由器，提高了路由的稳定性。这对于小模型尤其重要——路由不稳定会导致输出质量波动。

3. 学习残差缩放

通过学习的方式控制残差和归一化在深度方向上的增长，参数和计算成本几乎为零。这让模型能够更好地利用深度，而不会出现梯度消失或爆炸的问题。

训练流程

ZAYA1-8B 的训练分为 5 个阶段：

SFT 阶段：基础对话、指令遵循、代码、数学能力
推理预热：数学任务、逻辑、谜题求解、TTC（测试时计算）提示
大规模 RLVE-Gym：动态调整谜题难度，强化核心推理电路
大规模数学和代码 RL：强化学习提升数学和编程能力
轻量 RLHF/RLAIF：对话能力、指令遵循、写作风格微调

Markovian RSA：创新的测试时计算方法

ZAYA1 引入了一种叫 Markovian RSA 的测试时计算（Test-Time Compute）方法。简单来说：

并行生成多条推理链（trace）
提取每条链的固定长度尾部片段
对这些片段进行子采样，作为下一轮的聚合提示
重复这个过程

关键优势：上下文长度保持有界，不随推理长度增长。在 40k token 预算下，只转发最后 4K token，就能接近 DeepSeek-V3.2 和 Qwen3-A22B 的水平。

如何使用

方式一：Zyphra Cloud 在线体验

访问 cloud.zyphra.com，注册后可以在线体验 ZAYA1-8B。

方式二：本地部署

模型权重在 HuggingFace 上开源：Zyphra/Zaya1-8B

pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Zyphra/Zaya1-8B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zaya1-8B")

prompt = "计算积分 ∫x²dx"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

注意：MLX 版本（Apple Silicon 本地推理）正在开发中，但尚未完成。

基准测试成绩

基准	ZAYA1-8B	对比模型
HMMT’25（数学竞赛）	89.6	Claude 4.5 Sonnet: 88.3
APEX-shortlist（高 TTC）	超越 DeepSeek-V3.2	需 5.5M tokens/题
数学/编码综合	匹敌 Mistral-Small-4-119B	—

适合谁

资源有限的开发者：不到 1B 活跃参数意味着推理成本极低
数学/科学计算场景：数学推理能力突出
AMD 硬件用户：模型在 AMD 硬件上训练和优化
研究者：Apache 2.0 开源，可以自由研究和修改

注意事项

这是 Zyphra 自己的基准测试，独立第三方验证尚不充分
MLX 版本尚未完成，Apple Silicon 用户暂时无法本地运行
MoE 模型的实际推理速度取决于路由器效率和硬件
Markovian RSA 是专门为 ZAYA1 设计的，不能直接迁移到其他模型

同时发布的还有 ZAYA1-74B-Preview（74B 总参数、4B 活跃参数），是一个更大的预览版本，同样 Apache 2.0 开源。

本文参考来源：

Zyphra 官方博客

HuggingFace 模型页面

技术报告

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END