很多人买 M4/M5 MacBook Pro 的理由之一是”本地跑大模型”。但用 OpenRouter 的数据算一下成本,你会发现一个反直觉的结论:在很多场景下,用 API 反而比本地推理更便宜。
本地推理的真实成本
假设你买了一台 M5 MacBook Pro(64GB 统一内存),花费约 25000 元人民币。这台机器能跑的最大模型大约是 70B 参数(用 4-bit 量化)。
但”能跑”和”能用”是两回事:
- 速度:70B 模型在 M5 上的推理速度大约 10-15 tokens/s,而 Claude 3.5 Sonnet 的 API 响应速度是 50-80 tokens/s
- 质量:本地 70B 模型的质量远不如 Claude 3.5 Sonnet 或 GPT-4o
- 电费:满载推理时功耗约 60-80W,7×24 运行一年电费约 500-700 元
API 的真实成本
以 OpenRouter 平台为例,主流模型的定价:
- Claude 3.5 Sonnet:$3/百万输入 token,$15/百万输出 token
- GPT-4o:$2.5/百万输入 token,$10/百万输出 token
- DeepSeek V3:$0.27/百万输入 token,$1.1/百万输出 token
- Llama 3.1 70B:$0.35/百万输入 token,$0.4/百万输出 token
如果你每天使用 AI 编码助手 4 小时,假设每小时消耗约 50K tokens(输入+输出),一天就是 200K tokens。
算笔账
以 Claude 3.5 Sonnet 为例:
- 日消耗:200K tokens × $0.009/token(加权平均)≈ $1.8/天
- 月消耗:$1.8 × 30 ≈ $54/月 ≈ ¥390/月
- 年消耗:¥390 × 12 ≈ ¥4680/年
换算下来,M5 MacBook Pro 的价格相当于用 Claude 3.5 Sonnet API 约 5.3 年的费用。
如果用 DeepSeek V3:
- 日消耗:200K tokens × $0.0007/token ≈ $0.14/天
- 年消耗:$0.14 × 365 ≈ $51/年 ≈ ¥370/年
用 DeepSeek V3 API,M5 的价格相当于 67 年的 API 费用。
什么场景本地更划算?
本地推理在以下场景有优势:
- 隐私敏感:代码、数据不能离开本地,这是最硬的理由
- 离线需求:飞机上、偏远地区、网络不稳定的场景
- 大量推理:如果每天推理量非常大(比如处理百万级文档),固定成本的本地机器可能更划算
- 微调/实验:需要频繁调整模型、做实验的场景,本地更方便
- 已有硬件:如果已经有 M4/M5 MacBook,边际成本为零
什么场景 API 更划算?
- 需要最强模型:Claude 3.5 Sonnet、GPT-4o 这个级别的模型,本地跑不了
- 低频使用:每天只用 1-2 小时,API 按量计费更经济
- 快速响应:API 的推理速度远超本地
- 多模型切换:不同任务用不同模型,API 灵活切换
站长的实际建议
对于大多数站长和开发者来说,混合方案可能是最优解:
- 日常编码辅助:用 Claude 3.5 Sonnet 或 GPT-4o API(质量高、速度快)
- 批量处理/文档摘要:用 DeepSeek V3 API(便宜、够用)
- 隐私敏感任务:用本地模型(数据不出机器)
- 离线场景:本地模型兜底
不要被”本地推理免费”的错觉迷惑。机器的折旧、电费、时间成本都是真实的。算清楚账,根据实际使用场景选择方案,才是理性的做法。
© 版权声明
THE END
















暂无评论内容