Needle:2600万参数的轻量模型,却有Gemini级别的工具调用能力

项目简介

Needle 是 Cactus Compute 推出的一个只有2600万参数的轻量级AI模型,却具备了通常只有大模型才有的Gemini工具调用(Tool Calling)能力。这个模型可以在手机、智能手表、智能眼镜等消费级设备上运行,推理速度达到每秒6000个token(预填充)和每秒1200个token(解码)。

项目地址:github.com/cactus-compute/needle

为什么值得关注

在AI模型动辄数十亿参数的今天,一个2600万参数的模型能做什么?答案是:工具调用

Needle在单次函数调用(single-shot function calling)基准测试中,击败了多个更大的模型:

  • FunctionGemma-270M(270M参数)
  • Qwen-0.6B(600M参数)
  • Granite-350M(350M参数)
  • LFM2.5-350M(350M参数)

这意味着,即使在资源极其有限的设备上,也可以实现AI代理(Agent)的核心能力——根据用户指令调用外部工具。

技术架构

  • 架构:Simple Attention Network,d=512,8头/4 KV
  • 词表:BPE = 8192词汇量
  • 结构:12层编码器 + 8层解码器,带交叉注意力
  • 预训练:16个TPU v6e,处理2000亿token,耗时27小时
  • 后训练:20亿token的单次函数调用数据集,耗时45分钟
  • 特殊技术:ZCRMSNorm、GQA+RoPE、门控残差、编码器中无FFN、绑定嵌入

快速上手

1. 克隆仓库

git clone https://github.com/cactus-compute/needle.git
cd needle

2. 初始化环境

source ./setup

3. 启动Web Playground

needle playground

启动后访问 http://localhost:7860,可以通过Web界面测试工具调用功能,也可以在Mac/PC上本地微调模型。

适用场景

  • 手机上的AI助手——在本地运行,无需联网,保护隐私
  • IoT设备——智能手表、眼镜等资源受限设备上的AI交互
  • 边缘计算——在边缘网关上实现智能工具调用
  • 开发测试——快速原型验证Agent工具调用逻辑,无需昂贵的API调用
  • 教育——学习如何构建支持工具调用的小型AI模型

注意事项

  • 模型权重完全开放,在HuggingFace上可下载(Cactus-Compute/needle
  • 数据集生成代码也已开源,可以复现训练过程
  • 这是一个”实验性”项目,验证Simple Attention Networks架构的可行性
  • 在需要复杂推理或多轮对话的场景下,仍然需要更大的模型

简评

Needle的价值不在于它能替代GPT-4或Gemini,而在于它证明了一个事实:工具调用能力可以在极小的模型上实现。这对于边缘AI、隐私优先的本地AI应用、以及IoT设备上的智能交互来说,是一个重要的技术方向。如果你对在端侧设备上运行AI感兴趣,这个项目值得深入研究。

来源:GitHub仓库 | Hacker News讨论

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容