ZAYA1-8B:不到 1B 活跃参数,数学能力匹敌 DeepSeek-R1 的开源模型

AI 模型领域又出了一个让人眼前一亮的项目。Zyphra 公司在 2026 年 5 月 6 日发布了 ZAYA1-8B——一个总参数 8B、但活跃参数不到 1B 的混合专家(MoE)模型。更令人惊讶的是,它在数学推理能力上声称匹敌甚至超越 DeepSeek-R1 和 Claude 4.5 Sonnet。

核心亮点

ZAYA1-8B 有几个值得关注的点:

  • 极致的参数效率:8B 总参数,但每次推理只激活不到 1B 参数,意味着推理成本极低
  • 全部在 AMD 硬件训练:使用 1024 个 MI300x 节点,由 AMD Pensando Pollara 互联,与 IBM 合作搭建训练集群
  • Apache 2.0 开源:完全开源,可以商用
  • 数学推理能力突出:在 HMMT’25 基准上达到 89.6 分,超越 Claude 4.5 Sonnet 的 88.3 分

三大架构创新

1. 压缩卷积注意力(CCA)

这是 ZAYA1 的核心创新之一。CCA 是一种更高效的注意力变体,相关论文在 2025 年 10 月发表(arXiv:2510.04476)。它通过压缩注意力计算来降低计算成本,同时保持模型的表达能力。

2. MLP 路由器

传统的 MoE 模型使用线性层来决定哪些专家被激活。ZAYA1 改用 MLP(多层感知机)作为路由器,提高了路由的稳定性。这对于小模型尤其重要——路由不稳定会导致输出质量波动。

3. 学习残差缩放

通过学习的方式控制残差和归一化在深度方向上的增长,参数和计算成本几乎为零。这让模型能够更好地利用深度,而不会出现梯度消失或爆炸的问题。

训练流程

ZAYA1-8B 的训练分为 5 个阶段:

  1. SFT 阶段:基础对话、指令遵循、代码、数学能力
  2. 推理预热:数学任务、逻辑、谜题求解、TTC(测试时计算)提示
  3. 大规模 RLVE-Gym:动态调整谜题难度,强化核心推理电路
  4. 大规模数学和代码 RL:强化学习提升数学和编程能力
  5. 轻量 RLHF/RLAIF:对话能力、指令遵循、写作风格微调

Markovian RSA:创新的测试时计算方法

ZAYA1 引入了一种叫 Markovian RSA 的测试时计算(Test-Time Compute)方法。简单来说:

  • 并行生成多条推理链(trace)
  • 提取每条链的固定长度尾部片段
  • 对这些片段进行子采样,作为下一轮的聚合提示
  • 重复这个过程

关键优势:上下文长度保持有界,不随推理长度增长。在 40k token 预算下,只转发最后 4K token,就能接近 DeepSeek-V3.2 和 Qwen3-A22B 的水平。

如何使用

方式一:Zyphra Cloud 在线体验

访问 cloud.zyphra.com,注册后可以在线体验 ZAYA1-8B。

方式二:本地部署

模型权重在 HuggingFace 上开源:Zyphra/Zaya1-8B

pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Zyphra/Zaya1-8B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zaya1-8B")

prompt = "计算积分 ∫x²dx"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

注意:MLX 版本(Apple Silicon 本地推理)正在开发中,但尚未完成。

基准测试成绩

基准 ZAYA1-8B 对比模型
HMMT’25(数学竞赛) 89.6 Claude 4.5 Sonnet: 88.3
APEX-shortlist(高 TTC) 超越 DeepSeek-V3.2 需 5.5M tokens/题
数学/编码综合 匹敌 Mistral-Small-4-119B

适合谁

  • 资源有限的开发者:不到 1B 活跃参数意味着推理成本极低
  • 数学/科学计算场景:数学推理能力突出
  • AMD 硬件用户:模型在 AMD 硬件上训练和优化
  • 研究者:Apache 2.0 开源,可以自由研究和修改

注意事项

  • 这是 Zyphra 自己的基准测试,独立第三方验证尚不充分
  • MLX 版本尚未完成,Apple Silicon 用户暂时无法本地运行
  • MoE 模型的实际推理速度取决于路由器效率和硬件
  • Markovian RSA 是专门为 ZAYA1 设计的,不能直接迁移到其他模型

同时发布的还有 ZAYA1-74B-Preview(74B 总参数、4B 活跃参数),是一个更大的预览版本,同样 Apache 2.0 开源。

本文参考来源:

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容