一个新发布的开源项目 Forge 在 Hacker News 上获得了 668 分的热度。它的核心思路很简单:给 AI Agent 加上”护栏”(Guardrails),用结构化的状态机约束模型行为,结果一个 8B 参数的小模型在 Agent 任务上的完成率从 53% 直接提升到 99%。
问题:小模型做 Agent 任务太容易跑偏
大参数模型(如 GPT-4、Claude)在执行多步骤任务时表现不错,但 8B 级别的小模型经常”跑偏”——该调用工具时不调用,不该输出时乱输出,或者在多轮对话中丢失上下文。
这不是模型能力的问题,而是缺少结构化约束。Forge 的解决方案是用状态机来”框住”模型的行为。
Forge 的核心思路
Forge 是一个 Python 框架,专门为自托管 LLM 设计了工具调用和多步骤 Agent 工作流。它的关键特性:
- 状态机护栏:用显式的状态转换来约束 Agent 行为,让模型在每一步都只能做”正确的事”
- 支持本地模型:兼容 llama.cpp、Ollama、llamafile 等本地推理方案
- 工具调用:标准化的工具调用接口,支持自定义工具
- 多步骤工作流:支持复杂的多轮 Agent 任务
为什么 Guardrails 有效
传统的做法是通过 prompt engineering 来约束模型行为,但这对小模型效果有限。Forge 的做法更底层:
- 在每个决策点,只有有限的合法选项供模型选择
- 状态转换是确定性的——模型不能跳过步骤或做非法操作
- 输出格式被严格约束,减少解析错误
这种方式本质上是把”可靠性”从模型能力中剥离出来,交给框架来保证。模型只需要在受控环境中做选择,而不是自由发挥。
快速上手
Forge 使用 pip 安装:
pip install forge-ai
项目提供了完整的文档和示例,包括:
- 基础工具调用示例
- 多步骤工作流配置
- 与 Ollama 集成的本地部署方案
适合谁
- 想用本地小模型做 Agent 任务的开发者
- 需要高可靠性的自动化工作流
- 对 AI 安全和可控性有要求的场景
局限性
Forge 目前还比较新(2026年2月创建),社区生态还不够丰富。状态机的配置需要一定的学习成本,对于简单的任务来说可能”杀鸡用牛刀”。另外,99% 的完成率是在特定 benchmark 上的结果,实际场景中效果可能会有差异。
项目地址:https://github.com/antoinezambelli/forge
© 版权声明
THE END















暂无评论内容