项目简介
Needle 是 Cactus Compute 推出的一个只有2600万参数的轻量级AI模型,却具备了通常只有大模型才有的Gemini工具调用(Tool Calling)能力。这个模型可以在手机、智能手表、智能眼镜等消费级设备上运行,推理速度达到每秒6000个token(预填充)和每秒1200个token(解码)。
项目地址:github.com/cactus-compute/needle
为什么值得关注
在AI模型动辄数十亿参数的今天,一个2600万参数的模型能做什么?答案是:工具调用。
Needle在单次函数调用(single-shot function calling)基准测试中,击败了多个更大的模型:
- FunctionGemma-270M(270M参数)
- Qwen-0.6B(600M参数)
- Granite-350M(350M参数)
- LFM2.5-350M(350M参数)
这意味着,即使在资源极其有限的设备上,也可以实现AI代理(Agent)的核心能力——根据用户指令调用外部工具。
技术架构
- 架构:Simple Attention Network,d=512,8头/4 KV
- 词表:BPE = 8192词汇量
- 结构:12层编码器 + 8层解码器,带交叉注意力
- 预训练:16个TPU v6e,处理2000亿token,耗时27小时
- 后训练:20亿token的单次函数调用数据集,耗时45分钟
- 特殊技术:ZCRMSNorm、GQA+RoPE、门控残差、编码器中无FFN、绑定嵌入
快速上手
1. 克隆仓库
git clone https://github.com/cactus-compute/needle.git
cd needle
2. 初始化环境
source ./setup
3. 启动Web Playground
needle playground
启动后访问 http://localhost:7860,可以通过Web界面测试工具调用功能,也可以在Mac/PC上本地微调模型。
适用场景
- 手机上的AI助手——在本地运行,无需联网,保护隐私
- IoT设备——智能手表、眼镜等资源受限设备上的AI交互
- 边缘计算——在边缘网关上实现智能工具调用
- 开发测试——快速原型验证Agent工具调用逻辑,无需昂贵的API调用
- 教育——学习如何构建支持工具调用的小型AI模型
注意事项
- 模型权重完全开放,在HuggingFace上可下载(
Cactus-Compute/needle) - 数据集生成代码也已开源,可以复现训练过程
- 这是一个”实验性”项目,验证Simple Attention Networks架构的可行性
- 在需要复杂推理或多轮对话的场景下,仍然需要更大的模型
简评
Needle的价值不在于它能替代GPT-4或Gemini,而在于它证明了一个事实:工具调用能力可以在极小的模型上实现。这对于边缘AI、隐私优先的本地AI应用、以及IoT设备上的智能交互来说,是一个重要的技术方向。如果你对在端侧设备上运行AI感兴趣,这个项目值得深入研究。
来源:GitHub仓库 | Hacker News讨论













GitHub – TauricResearch/TradingAgents



暂无评论内容