如果你关注开源 AI 领域,一定知道 antirez(Salvatore Sanfilippo)——他是 Redis 的创始人。最近他又搞了一个新项目:ds4,一个专为 DeepSeek V4 Flash 打造的本地推理引擎,针对 Apple Silicon 的 Metal 加速做了深度优化。
为什么需要一个专门的推理引擎
你可能会问:不是有 llama.cpp、Ollama 这些通用推理工具吗?为什么 DeepSeek V4 Flash 需要一个专门的引擎?antirez 给出了几个理由:
- 更快:DeepSeek V4 Flash 采用 MoE(混合专家)架构,总参数 284B 但活跃参数很少,专门优化的引擎能更好地利用这个特点
- 思维模式更高效:V4 Flash 的思考部分长度只有其他模型的 1/5,与问题复杂度成正比
- 100 万 token 上下文:超长上下文需要特殊的 KV 缓存管理
- 磁盘 KV 缓存:KV 缓存可以直接存储到 SSD,而不只是占用内存
- 2-bit 量化支持:128GB 内存的 MacBook 就能跑
环境要求
ds4 目前只支持 macOS + Apple Silicon(Metal 后端),CPU 路径仅用于调试。
- macOS:需要 Apple Silicon(M1/M2/M3/M4 系列)
- 内存:128GB 以上(q2 模型约 128GB),256GB 以上可用 q4 模型
- 磁盘:模型文件较大,建议 SSD
- 开发工具:Xcode Command Line Tools、git
安装步骤
1. 克隆仓库
git clone https://github.com/antirez/ds4.git
cd ds4
2. 下载模型
ds4 提供了两个量化版本的模型下载脚本:
# q2 版本(适合 128GB 内存的机器,约 128GB 模型文件)
./download_model.sh q2
# q4 版本(适合 256GB 以上内存的机器)
./download_model.sh q4
# 可选:下载 MTP 推测解码模型(实验性功能)
./download_model.sh mtp
模型文件来自 antirez 在 HuggingFace 上的自定义 GGUF 格式,不是标准的 llama.cpp GGUF。
3. 编译
make
编译完成后会生成 ds4(命令行工具)和 ds4-server(API 服务器)两个可执行文件。
使用方法
命令行模式
# 单次提问
./ds4 -p "用一段话解释 Redis Streams"
# 交互模式
./ds4
交互模式下支持以下命令:
/help— 显示帮助/think— 启用思考模式/think-max— 最大思考模式/nothink— 关闭思考模式/ctx N— 设置上下文长度/read FILE— 读取文件作为输入/quit— 退出
API 服务器模式
这是 ds4 最实用的功能——启动一个兼容 OpenAI 和 Anthropic API 的服务器:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192
启动后,ds4-server 提供以下 API 端点:
/v1/chat/completions— OpenAI 兼容/v1/completions— OpenAI 兼容/v1/messages— Anthropic 兼容(可以配合 Claude Code 使用)
这意味着你可以用 ds4 作为后端,配合 opencode、Pi agent、Claude Code 等工具使用。
性能基准
以下是 antirez 提供的基准测试数据(q2 GGUF,ctx 32768,nothink 模式):
| 设备 | 输入长度 | 预填充速度 | 生成速度 |
|---|---|---|---|
| MacBook Pro M3 Max 128GB | 短输入 | 58.52 t/s | 26.68 t/s |
| MacBook Pro M3 Max 128GB | 11709 tokens | 250.11 t/s | 21.47 t/s |
| Mac Studio M3 Ultra 512GB | 短输入 | 84.43 t/s | 36.86 t/s |
| Mac Studio M3 Ultra 512GB | 11709 tokens | 468.03 t/s | 27.39 t/s |
26-37 token/s 的生成速度对于本地推理来说相当不错,特别是考虑到这是一个 284B 参数的模型。
技术亮点
非对称 2-bit 量化
ds4 的量化方案很巧妙——只对 MoE 的路由专家做重度量化(IQ2_XXS/Q2_K),共享专家、投影层、路由层保持原始精度。这样在大幅减小模型体积的同时,尽量保持输出质量。
磁盘 KV 缓存
KV 缓存是大模型推理中最大的内存消耗者之一。ds4 把 KV 缓存设计为「磁盘一等公民」——可以直接存储到 SSD,用 SHA1 作为键值索引,支持冷启动、继续、驱逐、关闭四种保存时机。
适合谁
- 有 Apple Silicon Mac 且内存 128GB 以上的开发者
- 想在本地跑 DeepSeek V4 Flash 的用户
- 需要 OpenAI/Anthropic 兼容 API 的场景
- 对 AI 推理引擎技术感兴趣的工程师
注意事项
- 目前只支持 macOS + Metal,不支持 Linux/Windows
- 模型文件很大(128GB+),下载需要时间和磁盘空间
- 这是 antirez 的个人项目,目前还在早期阶段
- MTP 推测解码是实验性功能,可能不稳定
本文参考来源:















暂无评论内容