ds4:Redis之父antirez打造的DeepSeek V4 Flash本地推理引擎,macOS用户福音

Redis的作者antirez(Salvatore Sanfilippo)又出新作了。这次他带来的不是数据库,而是一个专门为DeepSeek V4 Flash设计的本地推理引擎——ds4(DwarfStar 4)。项目在GitHub上迅速获得近5000 Star,在Hacker News上也引发了热烈讨论。

ds4是什么

ds4是一个小巧、专注的本地推理引擎,专门用来运行DeepSeek V4 Flash模型。它不是一个通用的GGUF运行器,也不是其他推理框架的封装——它是一个完全自包含的推理引擎。

核心特点:

  • 专注单一模型:只为DeepSeek V4 Flash优化,不做通用推理
  • 原生支持Metal和CUDA:macOS用Metal加速,Linux/Windows用CUDA
  • 自包含:不依赖llama.cpp或其他推理框架
  • 轻量级:代码量小,编译简单,部署方便

为什么需要ds4

DeepSeek V4 Flash是一个MoE(混合专家)架构的模型,参数量大但激活参数少,在通用推理框架上运行效率不高。ds4通过针对DeepSeek V4 Flash的架构特点进行专门优化,在推理速度和内存占用上都有显著提升。

对于Mac用户来说,ds4的意义更大。它利用Apple Silicon的Metal加速引擎,在M1/M2/M3芯片上实现了接近CUDA的推理性能,让macOS用户也能流畅运行DeepSeek V4 Flash。

安装教程

macOS(推荐)

确保安装了Xcode Command Line Tools:

xcode-select --install

克隆并编译:

git clone https://github.com/antirez/ds4.git
cd ds4
make

编译完成后,ds4会自动检测Apple Silicon并启用Metal加速。

Linux(CUDA)

确保安装了CUDA Toolkit和对应的驱动:

git clone https://github.com/antirez/ds4.git
cd ds4
make CUDA=1

下载模型

ds4需要DeepSeek V4 Flash的模型权重文件。你可以从Hugging Face下载:

# 使用huggingface-cli下载
pip install huggingface_hub
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/deepseek-v4-flash

注意:模型文件较大(约20-30GB),确保有足够的磁盘空间和网络带宽。

运行推理

基本用法:

./ds4 -m ./models/deepseek-v4-flash/model.gguf -p "你好,请介绍一下自己"

交互模式:

./ds4 -m ./models/deepseek-v4-flash/model.gguf --interactive

调整参数:

./ds4 -m ./models/deepseek-v4-flash/model.gguf   --ctx-size 4096   --threads 8   --temp 0.7   -p "你的提示词"

性能表现

根据社区测试数据:

  • M3 Max:约25 tokens/s(Metal加速)
  • M2 Pro:约15 tokens/s(Metal加速)
  • RTX 4090:约60 tokens/s(CUDA)
  • RTX 3080:约35 tokens/s(CUDA)

与llama.cpp相比,ds4在DeepSeek V4 Flash上的推理速度提升了约20%-30%,内存占用也更低。

适用场景

  • 本地AI助手:在Mac上运行一个私有的DeepSeek助手,无需联网
  • 代码辅助:DeepSeek在代码生成方面表现出色,可以作为本地代码助手
  • 隐私敏感场景:数据不离开本地,适合处理敏感信息
  • 开发测试:快速测试prompt和参数调优

注意事项

  • ds4只支持DeepSeek V4 Flash,不支持其他模型
  • 需要较大的磁盘空间存放模型文件
  • Metal加速在macOS 14+上效果最好
  • 首次加载模型需要一定时间,后续推理会快很多

本文参考来源:GitHub: antirez/ds4 | Hacker News讨论

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容