ds4:Redis 作者 antirez 开发的 DeepSeek V4 Flash 本地推理引擎,Mac Metal 加速

如果你关注开源 AI 领域,一定知道 antirez(Salvatore Sanfilippo)——他是 Redis 的创始人。最近他又搞了一个新项目:ds4,一个专为 DeepSeek V4 Flash 打造的本地推理引擎,针对 Apple Silicon 的 Metal 加速做了深度优化。

为什么需要一个专门的推理引擎

你可能会问:不是有 llama.cpp、Ollama 这些通用推理工具吗?为什么 DeepSeek V4 Flash 需要一个专门的引擎?antirez 给出了几个理由:

  • 更快:DeepSeek V4 Flash 采用 MoE(混合专家)架构,总参数 284B 但活跃参数很少,专门优化的引擎能更好地利用这个特点
  • 思维模式更高效:V4 Flash 的思考部分长度只有其他模型的 1/5,与问题复杂度成正比
  • 100 万 token 上下文:超长上下文需要特殊的 KV 缓存管理
  • 磁盘 KV 缓存:KV 缓存可以直接存储到 SSD,而不只是占用内存
  • 2-bit 量化支持:128GB 内存的 MacBook 就能跑

环境要求

ds4 目前只支持 macOS + Apple Silicon(Metal 后端),CPU 路径仅用于调试。

  • macOS:需要 Apple Silicon(M1/M2/M3/M4 系列)
  • 内存:128GB 以上(q2 模型约 128GB),256GB 以上可用 q4 模型
  • 磁盘:模型文件较大,建议 SSD
  • 开发工具:Xcode Command Line Tools、git

安装步骤

1. 克隆仓库

git clone https://github.com/antirez/ds4.git
cd ds4

2. 下载模型

ds4 提供了两个量化版本的模型下载脚本:

# q2 版本(适合 128GB 内存的机器,约 128GB 模型文件)
./download_model.sh q2

# q4 版本(适合 256GB 以上内存的机器)
./download_model.sh q4

# 可选:下载 MTP 推测解码模型(实验性功能)
./download_model.sh mtp

模型文件来自 antirez 在 HuggingFace 上的自定义 GGUF 格式,不是标准的 llama.cpp GGUF。

3. 编译

make

编译完成后会生成 ds4(命令行工具)和 ds4-server(API 服务器)两个可执行文件。

使用方法

命令行模式

# 单次提问
./ds4 -p "用一段话解释 Redis Streams"

# 交互模式
./ds4

交互模式下支持以下命令:

  • /help — 显示帮助
  • /think — 启用思考模式
  • /think-max — 最大思考模式
  • /nothink — 关闭思考模式
  • /ctx N — 设置上下文长度
  • /read FILE — 读取文件作为输入
  • /quit — 退出

API 服务器模式

这是 ds4 最实用的功能——启动一个兼容 OpenAI 和 Anthropic API 的服务器:

./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

启动后,ds4-server 提供以下 API 端点:

  • /v1/chat/completions — OpenAI 兼容
  • /v1/completions — OpenAI 兼容
  • /v1/messages — Anthropic 兼容(可以配合 Claude Code 使用)

这意味着你可以用 ds4 作为后端,配合 opencode、Pi agent、Claude Code 等工具使用。

性能基准

以下是 antirez 提供的基准测试数据(q2 GGUF,ctx 32768,nothink 模式):

设备 输入长度 预填充速度 生成速度
MacBook Pro M3 Max 128GB 短输入 58.52 t/s 26.68 t/s
MacBook Pro M3 Max 128GB 11709 tokens 250.11 t/s 21.47 t/s
Mac Studio M3 Ultra 512GB 短输入 84.43 t/s 36.86 t/s
Mac Studio M3 Ultra 512GB 11709 tokens 468.03 t/s 27.39 t/s

26-37 token/s 的生成速度对于本地推理来说相当不错,特别是考虑到这是一个 284B 参数的模型。

技术亮点

非对称 2-bit 量化

ds4 的量化方案很巧妙——只对 MoE 的路由专家做重度量化(IQ2_XXS/Q2_K),共享专家、投影层、路由层保持原始精度。这样在大幅减小模型体积的同时,尽量保持输出质量。

磁盘 KV 缓存

KV 缓存是大模型推理中最大的内存消耗者之一。ds4 把 KV 缓存设计为「磁盘一等公民」——可以直接存储到 SSD,用 SHA1 作为键值索引,支持冷启动、继续、驱逐、关闭四种保存时机。

适合谁

  • 有 Apple Silicon Mac 且内存 128GB 以上的开发者
  • 想在本地跑 DeepSeek V4 Flash 的用户
  • 需要 OpenAI/Anthropic 兼容 API 的场景
  • 对 AI 推理引擎技术感兴趣的工程师

注意事项

  • 目前只支持 macOS + Metal,不支持 Linux/Windows
  • 模型文件很大(128GB+),下载需要时间和磁盘空间
  • 这是 antirez 的个人项目,目前还在早期阶段
  • MTP 推测解码是实验性功能,可能不稳定

本文参考来源:

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容