ds4 是 Redis 作者 antirez 开发的本地深度学习推理引擎,支持在笔记本电脑上运行大语言模型,主打轻量、高性能和低资源占用。2026 年 5 月 8 日在 Hacker News 上引发热议,原因是 antirez 发现 Claude 4.5 Opus 在一个简单数学问题上给出了错误答案,而 ds4 运行的小模型反而答对了。
ds4 是什么
ds4 的定位很明确:让你在本地机器上跑推理模型,不用依赖云端 API。它的设计哲学是”简洁高效”——代码量小、依赖少、编译快、运行快。
安装方法
ds4 的安装非常直接,克隆仓库后编译即可:
# 克隆仓库
git clone https://github.com/antirez/ds4.git
cd ds4
# 编译(需要 CMake 和支持的编译器)
mkdir build && cd build
cmake ..
make -j$(nproc)
编译完成后,在 build 目录下会生成 ds4 可执行文件。
基本使用
下载模型
# ds4 支持 GGUF 格式的模型
# 以 Qwen3-0.6B 为例
wget https://huggingface.co/Qwen/Qwen3-0.6B-GGUF/resolve/main/qwen3-0.6b-q4_k_m.gguf
运行推理
# 命令行交互
./ds4 -m qwen3-0.6b-q4_k_m.gguf
# 带参数运行
./ds4 -m qwen3-0.6b-q4_k_m.gguf -p "你好,请介绍一下自己" -n 200
启动 API 服务
# 启动 OpenAI 兼容的 API 服务
./ds4 -m qwen3-0.6b-q4_k_m.gguf --port 8080
# 服务启动后,可以用 curl 测试
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [{"role": "user", "content": "你好"}],
"max_tokens": 100
}'
ds4 vs llama.cpp 的差异
ds4 和 llama.cpp 是目前本地推理的两个主要选择:
- 代码量:ds4 更精简,核心代码少得多
- 编译速度:ds4 编译更快,依赖更少
- 模型支持:llama.cpp 支持的模型格式更多,ds4 目前主要支持 GGUF
- 社区生态:llama.cpp 有更成熟的社区和工具链(如 Ollama)
- API 兼容:两者都支持 OpenAI 兼容 API
antirez 发现的 Claude 问题
antirez 在测试中发现,Claude 4.5 Opus(Anthropic 的旗舰模型)在回答”What is 3^3 + 6^5″时给出了 7267 这个错误答案(正确答案是 7821)。更让人意外的是,Claude 还自信地展示了错误的计算步骤。这个发现引发了 HN 上关于”更大模型不一定更聪明”的讨论。
当然,这不是说小模型一定比大模型好——在复杂推理、代码生成、多语言理解等任务上,大模型仍然有明显优势。但这个案例说明,简单数学计算这类”精确任务”上,大模型有时反而不如小模型可靠。
适合谁使用
- AI 开发者:本地测试模型推理,不用每次都调云端 API
- 站长:在服务器上部署小型 AI 功能(客服机器人、内容摘要等),成本可控
- 隐私敏感场景:数据不出本地,适合处理敏感信息
- 学习研究:了解 LLM 推理原理的入门工具
总结
ds4 是一个值得关注的本地推理工具。虽然目前的社区生态还不如 llama.cpp 成熟,但 antirez 的技术功底和简洁设计风格让它有成为重要玩家的潜力。如果你喜欢尝试新技术、追求极致的本地推理体验,ds4 值得一试。












GitHub – TauricResearch/TradingAgents


GitHub – docusealco/docuseal

暂无评论内容