AI 模型领域又出了一个让人眼前一亮的项目。Zyphra 公司在 2026 年 5 月 6 日发布了 ZAYA1-8B——一个总参数 8B、但活跃参数不到 1B 的混合专家(MoE)模型。更令人惊讶的是,它在数学推理能力上声称匹敌甚至超越 DeepSeek-R1 和 Claude 4.5 Sonnet。
核心亮点
ZAYA1-8B 有几个值得关注的点:
- 极致的参数效率:8B 总参数,但每次推理只激活不到 1B 参数,意味着推理成本极低
- 全部在 AMD 硬件训练:使用 1024 个 MI300x 节点,由 AMD Pensando Pollara 互联,与 IBM 合作搭建训练集群
- Apache 2.0 开源:完全开源,可以商用
- 数学推理能力突出:在 HMMT’25 基准上达到 89.6 分,超越 Claude 4.5 Sonnet 的 88.3 分
三大架构创新
1. 压缩卷积注意力(CCA)
这是 ZAYA1 的核心创新之一。CCA 是一种更高效的注意力变体,相关论文在 2025 年 10 月发表(arXiv:2510.04476)。它通过压缩注意力计算来降低计算成本,同时保持模型的表达能力。
2. MLP 路由器
传统的 MoE 模型使用线性层来决定哪些专家被激活。ZAYA1 改用 MLP(多层感知机)作为路由器,提高了路由的稳定性。这对于小模型尤其重要——路由不稳定会导致输出质量波动。
3. 学习残差缩放
通过学习的方式控制残差和归一化在深度方向上的增长,参数和计算成本几乎为零。这让模型能够更好地利用深度,而不会出现梯度消失或爆炸的问题。
训练流程
ZAYA1-8B 的训练分为 5 个阶段:
- SFT 阶段:基础对话、指令遵循、代码、数学能力
- 推理预热:数学任务、逻辑、谜题求解、TTC(测试时计算)提示
- 大规模 RLVE-Gym:动态调整谜题难度,强化核心推理电路
- 大规模数学和代码 RL:强化学习提升数学和编程能力
- 轻量 RLHF/RLAIF:对话能力、指令遵循、写作风格微调
Markovian RSA:创新的测试时计算方法
ZAYA1 引入了一种叫 Markovian RSA 的测试时计算(Test-Time Compute)方法。简单来说:
- 并行生成多条推理链(trace)
- 提取每条链的固定长度尾部片段
- 对这些片段进行子采样,作为下一轮的聚合提示
- 重复这个过程
关键优势:上下文长度保持有界,不随推理长度增长。在 40k token 预算下,只转发最后 4K token,就能接近 DeepSeek-V3.2 和 Qwen3-A22B 的水平。
如何使用
方式一:Zyphra Cloud 在线体验
访问 cloud.zyphra.com,注册后可以在线体验 ZAYA1-8B。
方式二:本地部署
模型权重在 HuggingFace 上开源:Zyphra/Zaya1-8B
pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zaya1-8B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zaya1-8B")
prompt = "计算积分 ∫x²dx"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
注意:MLX 版本(Apple Silicon 本地推理)正在开发中,但尚未完成。
基准测试成绩
| 基准 | ZAYA1-8B | 对比模型 |
|---|---|---|
| HMMT’25(数学竞赛) | 89.6 | Claude 4.5 Sonnet: 88.3 |
| APEX-shortlist(高 TTC) | 超越 DeepSeek-V3.2 | 需 5.5M tokens/题 |
| 数学/编码综合 | 匹敌 Mistral-Small-4-119B | — |
适合谁
- 资源有限的开发者:不到 1B 活跃参数意味着推理成本极低
- 数学/科学计算场景:数学推理能力突出
- AMD 硬件用户:模型在 AMD 硬件上训练和优化
- 研究者:Apache 2.0 开源,可以自由研究和修改
注意事项
- 这是 Zyphra 自己的基准测试,独立第三方验证尚不充分
- MLX 版本尚未完成,Apple Silicon 用户暂时无法本地运行
- MoE 模型的实际推理速度取决于路由器效率和硬件
- Markovian RSA 是专门为 ZAYA1 设计的,不能直接迁移到其他模型
同时发布的还有 ZAYA1-74B-Preview(74B 总参数、4B 活跃参数),是一个更大的预览版本,同样 Apache 2.0 开源。
本文参考来源:















暂无评论内容