ds4：Redis 作者 antirez 开发的 DeepSeek V4 Flash 本地推理引擎，Mac Metal 加速

如果你关注开源 AI 领域，一定知道 antirez（Salvatore Sanfilippo）——他是 Redis 的创始人。最近他又搞了一个新项目：ds4，一个专为 DeepSeek V4 Flash 打造的本地推理引擎，针对 Apple Silicon 的 Metal 加速做了深度优化。

为什么需要一个专门的推理引擎

你可能会问：不是有 llama.cpp、Ollama 这些通用推理工具吗？为什么 DeepSeek V4 Flash 需要一个专门的引擎？antirez 给出了几个理由：

更快：DeepSeek V4 Flash 采用 MoE（混合专家）架构，总参数 284B 但活跃参数很少，专门优化的引擎能更好地利用这个特点
思维模式更高效：V4 Flash 的思考部分长度只有其他模型的 1/5，与问题复杂度成正比
100 万 token 上下文：超长上下文需要特殊的 KV 缓存管理
磁盘 KV 缓存：KV 缓存可以直接存储到 SSD，而不只是占用内存
2-bit 量化支持：128GB 内存的 MacBook 就能跑

环境要求

ds4 目前只支持 macOS + Apple Silicon（Metal 后端），CPU 路径仅用于调试。

macOS：需要 Apple Silicon（M1/M2/M3/M4 系列）
内存：128GB 以上（q2 模型约 128GB），256GB 以上可用 q4 模型
磁盘：模型文件较大，建议 SSD
开发工具：Xcode Command Line Tools、git

安装步骤

1. 克隆仓库

git clone https://github.com/antirez/ds4.git
cd ds4

2. 下载模型

ds4 提供了两个量化版本的模型下载脚本：

# q2 版本（适合 128GB 内存的机器，约 128GB 模型文件）
./download_model.sh q2

# q4 版本（适合 256GB 以上内存的机器）
./download_model.sh q4

# 可选：下载 MTP 推测解码模型（实验性功能）
./download_model.sh mtp

模型文件来自 antirez 在 HuggingFace 上的自定义 GGUF 格式，不是标准的 llama.cpp GGUF。

3. 编译

make

编译完成后会生成 ds4（命令行工具）和 ds4-server（API 服务器）两个可执行文件。

使用方法

命令行模式

# 单次提问
./ds4 -p "用一段话解释 Redis Streams"

# 交互模式
./ds4

交互模式下支持以下命令：

/help — 显示帮助
/think — 启用思考模式
/think-max — 最大思考模式
/nothink — 关闭思考模式
/ctx N — 设置上下文长度
/read FILE — 读取文件作为输入
/quit — 退出

API 服务器模式

这是 ds4 最实用的功能——启动一个兼容 OpenAI 和 Anthropic API 的服务器：

./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

启动后，ds4-server 提供以下 API 端点：

/v1/chat/completions — OpenAI 兼容
/v1/completions — OpenAI 兼容
/v1/messages — Anthropic 兼容（可以配合 Claude Code 使用）

这意味着你可以用 ds4 作为后端，配合 opencode、Pi agent、Claude Code 等工具使用。

性能基准

以下是 antirez 提供的基准测试数据（q2 GGUF，ctx 32768，nothink 模式）：

设备	输入长度	预填充速度	生成速度
MacBook Pro M3 Max 128GB	短输入	58.52 t/s	26.68 t/s
MacBook Pro M3 Max 128GB	11709 tokens	250.11 t/s	21.47 t/s
Mac Studio M3 Ultra 512GB	短输入	84.43 t/s	36.86 t/s
Mac Studio M3 Ultra 512GB	11709 tokens	468.03 t/s	27.39 t/s

26-37 token/s 的生成速度对于本地推理来说相当不错，特别是考虑到这是一个 284B 参数的模型。

技术亮点

非对称 2-bit 量化

ds4 的量化方案很巧妙——只对 MoE 的路由专家做重度量化（IQ2_XXS/Q2_K），共享专家、投影层、路由层保持原始精度。这样在大幅减小模型体积的同时，尽量保持输出质量。

磁盘 KV 缓存

KV 缓存是大模型推理中最大的内存消耗者之一。ds4 把 KV 缓存设计为「磁盘一等公民」——可以直接存储到 SSD，用 SHA1 作为键值索引，支持冷启动、继续、驱逐、关闭四种保存时机。

适合谁

有 Apple Silicon Mac 且内存 128GB 以上的开发者
想在本地跑 DeepSeek V4 Flash 的用户
需要 OpenAI/Anthropic 兼容 API 的场景
对 AI 推理引擎技术感兴趣的工程师

注意事项

目前只支持 macOS + Metal，不支持 Linux/Windows
模型文件很大（128GB+），下载需要时间和磁盘空间
这是 antirez 的个人项目，目前还在早期阶段
MTP 推测解码是实验性功能，可能不稳定

本文参考来源：

GitHub: antirez/ds4

HuggingFace: DeepSeek V4 GGUF by antirez

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END