Redis之父antirez(Salvatore Sanfilippo)开源了一个名为ds4的项目,专门用于在Mac上本地运行DeepSeek V4 Flash模型的推理。这个项目在GitHub上迅速获得了超过6000颗星,引发了本地AI推理社区的广泛关注。本文将详细介绍如何部署和使用ds4。
ds4是什么
ds4是一个用C语言编写的本地推理引擎,专门针对DeepSeek V4 Flash模型进行了优化。它的核心特点包括:
- 使用Apple Metal GPU加速,在Mac上实现高效推理
- 支持2-bit量化,大幅降低内存占用
- 由antirez与GPT 5.5协作开发(antirez本人的说法)
- 代码简洁,适合作为学习本地推理引擎的参考
硬件要求
运行ds4有明确的硬件要求:
- 必须是Mac:因为依赖Apple Metal GPU框架
- 内存至少128GB:DeepSeek V4 Flash即使是2-bit量化,也需要大量内存
- 推荐使用M2 Ultra或M3 Ultra芯片的Mac Studio/Mac Pro
- 普通MacBook Pro(16GB/32GB内存)无法运行
这个硬件门槛不低,但如果你有符合条件的Mac,ds4提供了一个非常轻量的本地推理方案。
安装步骤
第一步:克隆仓库
git clone https://github.com/antirez/ds4.git
cd ds4
第二步:编译
make
编译过程依赖Metal框架,确保你的Xcode Command Line Tools已安装。如果编译失败,运行xcode-select --install安装开发者工具。
第三步:下载模型
ds4需要DeepSeek V4 Flash的2-bit量化模型文件。你需要从Hugging Face或DeepSeek官方获取对应的GGUF格式模型文件。
# 模型文件通常较大(几十GB),确保有足够的磁盘空间
# 具体下载方式参考项目README中的说明
第四步:运行推理
./ds4 --model path/to/deepseek-v4-flash-q2.gguf
启动后,ds4会加载模型到Metal GPU内存中。首次加载可能需要几分钟,之后的推理速度取决于你的硬件配置。
性能表现
根据社区测试报告,在M2 Ultra(192GB内存)上:
- 模型加载时间:约2-3分钟
- 推理速度:约15-25 tokens/秒(取决于prompt长度和生成长度)
- 内存占用:约80-100GB(2-bit量化)
这个速度对于本地推理来说已经相当不错,可以满足对话、代码生成等场景的需求。
为什么antirez做这个项目
antirez在项目说明中提到,他做ds4的初衷是:
- 探索在消费级硬件上运行大模型的可能性
- 研究2-bit量化的实际效果和质量损失
- 与GPT 5.5协作开发,探索人机协作编程的新模式
- 为本地AI推理社区提供一个简洁、可学习的参考实现
适合谁使用
- 拥有高配Mac的AI研究人员和开发者
- 对本地推理引擎实现感兴趣的工程师
- 需要在本地运行DeepSeek模型(不依赖云端API)的用户
- 想学习Metal GPU编程和模型量化的开发者
注意事项
- 2-bit量化会导致一定的模型质量损失,对于需要高精度的任务(如数学推理),建议使用4-bit或更高精度
- 128GB内存是硬性要求,低于此配置无法运行
- 目前仅支持Mac,不支持NVIDIA GPU
- 项目仍在活跃开发中,API可能会有变化
本文参考来源:ds4 GitHub仓库 | Hacker News讨论
© 版权声明
THE END















暂无评论内容