Adola:让AI API成本直降70%的语义压缩工具,支持多语言SDK

对于大量使用 AI API 的站长和开发者来说,Token 成本一直是一个痛点。近期,一款名为 Adola 的工具引起关注——它通过语义压缩技术,号称可以在不损失回答质量的前提下,将发送给大模型的上下文压缩约 70%

Adola 是什么

Adola 是一个 SaaS 产品,核心是其自研的 Rose 1 压缩模型。它的原理是在将 Prompt 发送给大模型之前,先通过 Rose 1 对输入进行语义级别的压缩,去除冗余信息,保留关键内容。

简单来说,就是帮你在发给 Claude/GPT 之前先把 Prompt “瘦身”一遍。

实际效果

Adola 在官方文档中展示了 6 个基准测试的结果:

  • AIME(数学):压缩后准确率无下降
  • GPQA Diamond(研究生级问答):准确率无下降
  • ARC-Challenge(科学推理):准确率无下降
  • CommonsenseQA(常识问答):准确率无下降
  • GSM8K(小学数学):准确率无下降
  • GDPval-AA:最多 2% 准确率下降

6 项测试中有 5 项准确率完全没有下降,只有一项下降了约 2%。典型的压缩比例是 只保留 30% 的原始内容,即压缩 70%。

使用方式

Adola 提供多语言 SDK,安装和使用都很简单:

Python

pip install adola
from adola import Adola

client = Adola(api_key="adola_live_...")

result = client.compress(
    input="你的长文本上下文...",
    query="你想要问的问题",
    compression={"target_ratio": 0.3},
    include_spans=False,
)

compressed = result["output"]   # 压缩后的文本
receipt = result["receipt"]     # 压缩收据(可用于审计)

JavaScript/TypeScript

npm install adola

Go 和 Rust 的 SDK 也已发布。此外,Adola 还提供 cURL 接口,可以集成到任何语言中。

适合什么场景

  • Agent 追踪压缩:AI Agent 的执行日志通常很长,压缩后可以降低后续处理成本
  • RAG 检索结果压缩:检索到的文档片段可能有很多冗余,压缩后发送给模型更高效
  • 提示词网关:作为 API 中间层,在转发请求前自动压缩
  • 客服 Copilot:长对话历史的压缩,保持上下文的同时降低 Token 消耗

定价和限制

Adola 是按调用量收费的 SaaS 产品。具体的定价信息建议查看其官网的定价页面。需要注意:

  • 压缩本身会引入一次额外的 API 调用(压缩模型),所以只有当上下文足够长时,节省的 Token 费用才能覆盖压缩成本
  • 对于非常短的 Prompt(几百 Token 以内),压缩意义不大
  • 压缩是有损的——虽然基准测试显示准确率几乎不变,但在实际业务场景中的效果需要自己测试验证

快速体验

有兴趣的开发者可以在 adola.app/signup 注册账号,获取 API Key 进行测试。建议先用自己的真实业务数据做对比测试,确认压缩前后的回答质量差异。

来源:Adola 官网 | Adola 文档

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容