antirez发布ds4:DeepSeek 4 Flash本地推理引擎,支持Metal和CUDA

Redis之父antirez(Salvatore Sanfilippo)近日发布了新项目ds4,这是一个DeepSeek 4 Flash模型的本地推理引擎,支持Apple Metal和NVIDIA CUDA两种GPU加速方案。项目在GitHub上迅速获得了超过10000个星标。

什么是ds4?

ds4是一个用C语言编写的高性能推理引擎,专门用于在本地运行DeepSeek 4 Flash模型。DeepSeek 4 Flash是DeepSeek公司推出的轻量级大语言模型,以推理速度快、资源占用少著称。

antirez是Redis的创始人,以编写高性能、简洁的系统软件闻名。这次他将同样的风格带到了AI推理引擎的开发中。

技术特点

1. 双平台GPU支持:ds4同时支持Apple的Metal框架和NVIDIA的CUDA,这意味着无论你用的是Mac还是配备NVIDIA显卡的Linux/Windows机器,都能获得GPU加速。

2. 纯C实现:整个引擎用C语言编写,没有复杂的依赖,代码量精简,便于理解和修改。

3. 高效内存管理:针对大模型的内存需求进行了优化,能够在有限的内存下运行较大的模型。

4. 量化支持:支持模型量化,可以在精度损失很小的情况下大幅减少内存占用和提升推理速度。

安装和使用

安装ds4非常简单:

# 克隆仓库
git clone https://github.com/antirez/ds4.git
cd ds4

# 编译(macOS with Metal)
make

# 编译(Linux with CUDA)
make CUDA=1

使用方法:

# 下载DeepSeek 4 Flash模型
# 模型文件需要从DeepSeek官方获取

# 运行推理
./ds4 -m /path/to/model -p "你的提示词"

适用场景

ds4适合以下场景:

  • 本地AI开发:不想依赖云端API,希望在本地测试和开发AI应用
  • 隐私敏感场景:处理敏感数据时,本地推理可以避免数据外传
  • 离线使用:在没有网络连接的环境下使用AI
  • 学习和研究:想了解AI推理引擎的实现原理

性能表现

根据社区测试,在M2 MacBook Pro上,ds4能够以每秒30-50个token的速度运行DeepSeek 4 Flash模型,这对于交互式使用来说已经足够流畅。在配备RTX 4090的PC上,速度可以达到每秒100+token。

与llama.cpp的比较

ds4与llama.cpp的目标类似,都是在本地运行大语言模型。但ds4专注于DeepSeek 4 Flash这一个模型,因此在针对该模型的优化上可能更有优势。而llama.cpp支持更多模型,通用性更强。

如果你主要使用DeepSeek 4 Flash,ds4是一个值得尝试的选择。如果需要支持多种模型,llama.cpp可能更适合。

本文参考来源:GitHub – antirez/ds4: DeepSeek 4 Flash local inference engine for Metal and CUDA

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容