Redis的作者Salvatore Sanfilippo(网名antirez)又出手了。这次他带来了一个叫ds4的项目——一个用纯C语言写的DeepSeek 4 Flash本地推理引擎,支持Apple Metal和NVIDIA CUDA。项目发布不到三周,GitHub星标就突破了11000。
ds4是什么
ds4的全称是”DeepSeek 4 Flash local inference engine”,顾名思义,它是一个专门用来在本地运行DeepSeek 4 Flash模型的推理引擎。与llama.cpp等通用推理框架不同,ds4是专门为DeepSeek 4 Flash架构优化的。
项目的主要特点:
- 纯C语言实现:没有Python依赖,编译后就是一个可执行文件
- 支持Metal和CUDA:macOS用户可以用Apple GPU加速,NVIDIA用户可以用CUDA
- 针对DeepSeek 4 Flash优化:不是通用框架,而是专门针对这个模型的架构做优化
- 内存效率高:通过量化和内存映射技术,降低运行时的内存占用
为什么antirez要做这个
antirez在项目README中解释了他的动机。他认为,虽然llama.cpp等通用框架已经很好了,但针对特定模型做专门优化,可以获得更好的性能和更低的资源消耗。
DeepSeek 4 Flash是一个相对较新的模型,它的架构与之前的LLaMA系列有所不同。通用框架为了兼容各种模型,不得不做一些妥协。而ds4可以完全针对DeepSeek 4 Flash的特点来设计,从而获得更好的效果。
这也体现了antirez一贯的编程哲学:简单、直接、高效。就像Redis用纯C写成,追求极致的性能一样,ds4也遵循了同样的理念。
如何使用ds4
ds4的使用相对简单。以下是基本步骤:
1. 克隆项目
git clone https://github.com/antirez/ds4.git
cd ds4
2. 编译
对于macOS(Metal):
make metal
对于NVIDIA GPU(CUDA):
make cuda
3. 下载模型
你需要从Hugging Face下载DeepSeek 4 Flash的GGUF格式模型文件。ds4支持多种量化版本,推荐使用Q4_K_M以获得最佳的性能和质量平衡。
4. 运行
./ds4 -m path/to/deepseek-4-flash.gguf -p "Hello, how are you?"
性能表现
根据社区测试,ds4在不同硬件上的表现如下:
- MacBook Pro M4 Max:约45-55 tokens/s(Q4_K_M量化)
- NVIDIA RTX 4090:约80-100 tokens/s(Q4_K_M量化)
- NVIDIA RTX 3090:约50-65 tokens/s(Q4_K_M量化)
这些数字与llama.cpp相比略有优势,特别是在Apple Silicon上。antirez表示,他还在持续优化,未来可能会有更好的性能提升。
与llama.cpp的对比
很多人会问:既然有了llama.cpp,为什么还需要ds4?
| 特性 | ds4 | llama.cpp |
|---|---|---|
| 支持模型 | 仅DeepSeek 4 Flash | 几乎所有主流模型 |
| 代码量 | 较少(专注单一模型) | 庞大(支持多种架构) |
| 优化程度 | 针对特定模型深度优化 | 通用优化 |
| 易用性 | 简单直接 | 功能丰富但配置复杂 |
| 社区生态 | 新项目,生态较小 | 成熟,生态丰富 |
简单来说,如果你只需要跑DeepSeek 4 Flash,ds4可能是更好的选择。如果你需要支持多种模型,llama.cpp更合适。
对站长和开发者的意义
ds4的出现有几个重要意义:
降低本地AI门槛:以前要在本地跑大模型,需要配置Python环境、安装各种依赖、处理CUDA版本兼容等问题。ds4只需要一个C编译器就能搞定,大大降低了门槛。
隐私保护:本地推理意味着数据不需要发送到云端,对于处理敏感信息的场景非常有价值。
成本控制:虽然需要购买GPU硬件,但对于长期大量使用的场景,本地推理的成本可能比API调用更低。
离线能力:在没有网络的环境下也能使用AI能力,这对于某些特定场景(如偏远地区、飞机上)非常有用。
局限性
ds4目前还处于早期阶段,有一些局限性:
- 只支持DeepSeek 4 Flash,不支持其他模型
- 没有内置的API服务器,需要自己封装
- 文档相对简单,社区支持还在建设中
- 量化可能会损失一些模型质量
总结
antirez的ds4项目再次证明了”专注做好一件事”的价值。虽然它不如llama.cpp那样功能全面,但在DeepSeek 4 Flash这个特定场景下,它提供了更简单、更高效的解决方案。
对于想要在本地运行DeepSeek模型的开发者来说,ds4值得一试。特别是如果你是macOS用户,Metal加速的支持让Apple Silicon成为了运行大模型的不错选择。


















暂无评论内容