ds4:Redis作者antirez开发的本地深度学习推理引擎上手指南

ds4 是 Redis 作者 antirez 开发的本地深度学习推理引擎,支持在笔记本电脑上运行大语言模型,主打轻量、高性能和低资源占用。2026 年 5 月 8 日在 Hacker News 上引发热议,原因是 antirez 发现 Claude 4.5 Opus 在一个简单数学问题上给出了错误答案,而 ds4 运行的小模型反而答对了。

ds4 是什么

ds4 的定位很明确:让你在本地机器上跑推理模型,不用依赖云端 API。它的设计哲学是”简洁高效”——代码量小、依赖少、编译快、运行快。

安装方法

ds4 的安装非常直接,克隆仓库后编译即可:

# 克隆仓库
git clone https://github.com/antirez/ds4.git
cd ds4

# 编译(需要 CMake 和支持的编译器)
mkdir build && cd build
cmake ..
make -j$(nproc)

编译完成后,在 build 目录下会生成 ds4 可执行文件。

基本使用

下载模型

# ds4 支持 GGUF 格式的模型
# 以 Qwen3-0.6B 为例
wget https://huggingface.co/Qwen/Qwen3-0.6B-GGUF/resolve/main/qwen3-0.6b-q4_k_m.gguf

运行推理

# 命令行交互
./ds4 -m qwen3-0.6b-q4_k_m.gguf

# 带参数运行
./ds4 -m qwen3-0.6b-q4_k_m.gguf -p "你好,请介绍一下自己" -n 200

启动 API 服务

# 启动 OpenAI 兼容的 API 服务
./ds4 -m qwen3-0.6b-q4_k_m.gguf --port 8080

# 服务启动后,可以用 curl 测试
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [{"role": "user", "content": "你好"}],
    "max_tokens": 100
  }'

ds4 vs llama.cpp 的差异

ds4 和 llama.cpp 是目前本地推理的两个主要选择:

  • 代码量:ds4 更精简,核心代码少得多
  • 编译速度:ds4 编译更快,依赖更少
  • 模型支持:llama.cpp 支持的模型格式更多,ds4 目前主要支持 GGUF
  • 社区生态:llama.cpp 有更成熟的社区和工具链(如 Ollama)
  • API 兼容:两者都支持 OpenAI 兼容 API

antirez 发现的 Claude 问题

antirez 在测试中发现,Claude 4.5 Opus(Anthropic 的旗舰模型)在回答”What is 3^3 + 6^5″时给出了 7267 这个错误答案(正确答案是 7821)。更让人意外的是,Claude 还自信地展示了错误的计算步骤。这个发现引发了 HN 上关于”更大模型不一定更聪明”的讨论。

当然,这不是说小模型一定比大模型好——在复杂推理、代码生成、多语言理解等任务上,大模型仍然有明显优势。但这个案例说明,简单数学计算这类”精确任务”上,大模型有时反而不如小模型可靠。

适合谁使用

  • AI 开发者:本地测试模型推理,不用每次都调云端 API
  • 站长:在服务器上部署小型 AI 功能(客服机器人、内容摘要等),成本可控
  • 隐私敏感场景:数据不出本地,适合处理敏感信息
  • 学习研究:了解 LLM 推理原理的入门工具

总结

ds4 是一个值得关注的本地推理工具。虽然目前的社区生态还不如 llama.cpp 成熟,但 antirez 的技术功底和简洁设计风格让它有成为重要玩家的潜力。如果你喜欢尝试新技术、追求极致的本地推理体验,ds4 值得一试。

项目地址:https://github.com/antirez/ds4

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容