Redis的作者antirez(Salvatore Sanfilippo)又出新作了。这次他带来的不是数据库,而是一个专门为DeepSeek V4 Flash设计的本地推理引擎——ds4(DwarfStar 4)。项目在GitHub上迅速获得近5000 Star,在Hacker News上也引发了热烈讨论。
ds4是什么
ds4是一个小巧、专注的本地推理引擎,专门用来运行DeepSeek V4 Flash模型。它不是一个通用的GGUF运行器,也不是其他推理框架的封装——它是一个完全自包含的推理引擎。
核心特点:
- 专注单一模型:只为DeepSeek V4 Flash优化,不做通用推理
- 原生支持Metal和CUDA:macOS用Metal加速,Linux/Windows用CUDA
- 自包含:不依赖llama.cpp或其他推理框架
- 轻量级:代码量小,编译简单,部署方便
为什么需要ds4
DeepSeek V4 Flash是一个MoE(混合专家)架构的模型,参数量大但激活参数少,在通用推理框架上运行效率不高。ds4通过针对DeepSeek V4 Flash的架构特点进行专门优化,在推理速度和内存占用上都有显著提升。
对于Mac用户来说,ds4的意义更大。它利用Apple Silicon的Metal加速引擎,在M1/M2/M3芯片上实现了接近CUDA的推理性能,让macOS用户也能流畅运行DeepSeek V4 Flash。
安装教程
macOS(推荐)
确保安装了Xcode Command Line Tools:
xcode-select --install
克隆并编译:
git clone https://github.com/antirez/ds4.git
cd ds4
make
编译完成后,ds4会自动检测Apple Silicon并启用Metal加速。
Linux(CUDA)
确保安装了CUDA Toolkit和对应的驱动:
git clone https://github.com/antirez/ds4.git
cd ds4
make CUDA=1
下载模型
ds4需要DeepSeek V4 Flash的模型权重文件。你可以从Hugging Face下载:
# 使用huggingface-cli下载
pip install huggingface_hub
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/deepseek-v4-flash
注意:模型文件较大(约20-30GB),确保有足够的磁盘空间和网络带宽。
运行推理
基本用法:
./ds4 -m ./models/deepseek-v4-flash/model.gguf -p "你好,请介绍一下自己"
交互模式:
./ds4 -m ./models/deepseek-v4-flash/model.gguf --interactive
调整参数:
./ds4 -m ./models/deepseek-v4-flash/model.gguf --ctx-size 4096 --threads 8 --temp 0.7 -p "你的提示词"
性能表现
根据社区测试数据:
- M3 Max:约25 tokens/s(Metal加速)
- M2 Pro:约15 tokens/s(Metal加速)
- RTX 4090:约60 tokens/s(CUDA)
- RTX 3080:约35 tokens/s(CUDA)
与llama.cpp相比,ds4在DeepSeek V4 Flash上的推理速度提升了约20%-30%,内存占用也更低。
适用场景
- 本地AI助手:在Mac上运行一个私有的DeepSeek助手,无需联网
- 代码辅助:DeepSeek在代码生成方面表现出色,可以作为本地代码助手
- 隐私敏感场景:数据不离开本地,适合处理敏感信息
- 开发测试:快速测试prompt和参数调优
注意事项
- ds4只支持DeepSeek V4 Flash,不支持其他模型
- 需要较大的磁盘空间存放模型文件
- Metal加速在macOS 14+上效果最好
- 首次加载模型需要一定时间,后续推理会快很多
本文参考来源:GitHub: antirez/ds4 | Hacker News讨论

















暂无评论内容