Needle：2600万参数的轻量模型，却有Gemini级别的工具调用能力

项目简介

Needle 是 Cactus Compute 推出的一个只有2600万参数的轻量级AI模型，却具备了通常只有大模型才有的Gemini工具调用（Tool Calling）能力。这个模型可以在手机、智能手表、智能眼镜等消费级设备上运行，推理速度达到每秒6000个token（预填充）和每秒1200个token（解码）。

项目地址：github.com/cactus-compute/needle

为什么值得关注

在AI模型动辄数十亿参数的今天，一个2600万参数的模型能做什么？答案是：工具调用。

Needle在单次函数调用（single-shot function calling）基准测试中，击败了多个更大的模型：

FunctionGemma-270M（270M参数）
Qwen-0.6B（600M参数）
Granite-350M（350M参数）
LFM2.5-350M（350M参数）

这意味着，即使在资源极其有限的设备上，也可以实现AI代理（Agent）的核心能力——根据用户指令调用外部工具。

技术架构

架构：Simple Attention Network，d=512，8头/4 KV
词表：BPE = 8192词汇量
结构：12层编码器 + 8层解码器，带交叉注意力
预训练：16个TPU v6e，处理2000亿token，耗时27小时
后训练：20亿token的单次函数调用数据集，耗时45分钟
特殊技术：ZCRMSNorm、GQA+RoPE、门控残差、编码器中无FFN、绑定嵌入

快速上手

1. 克隆仓库

git clone https://github.com/cactus-compute/needle.git
cd needle

2. 初始化环境

source ./setup

3. 启动Web Playground

needle playground

启动后访问 http://localhost:7860，可以通过Web界面测试工具调用功能，也可以在Mac/PC上本地微调模型。

适用场景

手机上的AI助手——在本地运行，无需联网，保护隐私
IoT设备——智能手表、眼镜等资源受限设备上的AI交互
边缘计算——在边缘网关上实现智能工具调用
开发测试——快速原型验证Agent工具调用逻辑，无需昂贵的API调用
教育——学习如何构建支持工具调用的小型AI模型

注意事项

模型权重完全开放，在HuggingFace上可下载（Cactus-Compute/needle）
数据集生成代码也已开源，可以复现训练过程
这是一个”实验性”项目，验证Simple Attention Networks架构的可行性
在需要复杂推理或多轮对话的场景下，仍然需要更大的模型

简评

Needle的价值不在于它能替代GPT-4或Gemini，而在于它证明了一个事实：工具调用能力可以在极小的模型上实现。这对于边缘AI、隐私优先的本地AI应用、以及IoT设备上的智能交互来说，是一个重要的技术方向。如果你对在端侧设备上运行AI感兴趣，这个项目值得深入研究。

来源：GitHub仓库 | Hacker News讨论

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END