对于大量使用 AI API 的站长和开发者来说,Token 成本一直是一个痛点。近期,一款名为 Adola 的工具引起关注——它通过语义压缩技术,号称可以在不损失回答质量的前提下,将发送给大模型的上下文压缩约 70%。
Adola 是什么
Adola 是一个 SaaS 产品,核心是其自研的 Rose 1 压缩模型。它的原理是在将 Prompt 发送给大模型之前,先通过 Rose 1 对输入进行语义级别的压缩,去除冗余信息,保留关键内容。
简单来说,就是帮你在发给 Claude/GPT 之前先把 Prompt “瘦身”一遍。
实际效果
Adola 在官方文档中展示了 6 个基准测试的结果:
- AIME(数学):压缩后准确率无下降
- GPQA Diamond(研究生级问答):准确率无下降
- ARC-Challenge(科学推理):准确率无下降
- CommonsenseQA(常识问答):准确率无下降
- GSM8K(小学数学):准确率无下降
- GDPval-AA:最多 2% 准确率下降
6 项测试中有 5 项准确率完全没有下降,只有一项下降了约 2%。典型的压缩比例是 只保留 30% 的原始内容,即压缩 70%。
使用方式
Adola 提供多语言 SDK,安装和使用都很简单:
Python
pip install adola
from adola import Adola
client = Adola(api_key="adola_live_...")
result = client.compress(
input="你的长文本上下文...",
query="你想要问的问题",
compression={"target_ratio": 0.3},
include_spans=False,
)
compressed = result["output"] # 压缩后的文本
receipt = result["receipt"] # 压缩收据(可用于审计)
JavaScript/TypeScript
npm install adola
Go 和 Rust 的 SDK 也已发布。此外,Adola 还提供 cURL 接口,可以集成到任何语言中。
适合什么场景
- Agent 追踪压缩:AI Agent 的执行日志通常很长,压缩后可以降低后续处理成本
- RAG 检索结果压缩:检索到的文档片段可能有很多冗余,压缩后发送给模型更高效
- 提示词网关:作为 API 中间层,在转发请求前自动压缩
- 客服 Copilot:长对话历史的压缩,保持上下文的同时降低 Token 消耗
定价和限制
Adola 是按调用量收费的 SaaS 产品。具体的定价信息建议查看其官网的定价页面。需要注意:
- 压缩本身会引入一次额外的 API 调用(压缩模型),所以只有当上下文足够长时,节省的 Token 费用才能覆盖压缩成本
- 对于非常短的 Prompt(几百 Token 以内),压缩意义不大
- 压缩是有损的——虽然基准测试显示准确率几乎不变,但在实际业务场景中的效果需要自己测试验证
快速体验
有兴趣的开发者可以在 adola.app/signup 注册账号,获取 API Key 进行测试。建议先用自己的真实业务数据做对比测试,确认压缩前后的回答质量差异。
© 版权声明
THE END















暂无评论内容