一位开发者花 25 美元买了一台 RackNerd VPS(2.5GB 内存、3 核),然后用 15 个免费 AI 模型做了一个实测:让它们独立完成一个 URL 短链接服务的开发(Express 后端、SQLite、HTML 前端、速率限制、5 个集成测试)。结果出人意料。
测试条件
- VPS 配置:RackNerd,25 美元/年,2.5GB 内存,3 核 CPU
- 测试任务:URL 短链接服务(Express + SQLite + 前端 + 限流 + 测试)
- 测试方式:每个模型给相同的 prompt,最多 15 轮迭代,每轮 10 分钟超时
- 模型来源:OpenCode 内置免费模型、Venice、Groq、OpenRouter 免费层
- 总成本:模型调用全部免费,只花了 VPS 的 25 美元
结果:8 个通过,7 个失败
15 个模型中,8 个成功完成了任务,7 个失败。速度最快的是 mimo-v2-flash-free,只用了 1 轮迭代、1 分 43 秒就完成了,而且代码质量最高。最慢的是 nemotron-3-super-free,用了 3 轮迭代、30 分钟。
表现最好的模型
- mimo-v2-flash-free:1 轮、1m43s,代码架构最清晰,分离了数据库模块
- OpenCode 内置模型:5 个全部通过,稳定性最好
失败的原因不是”笨”
7 个失败的模型中,6 个来自 OpenRouter 免费层。失败原因主要是:
- 找不到可用端点(”no endpoints found”)
- 声称免费但实际不可用
- API 间歇性错误
- 反复超时
真正因为”能力不足”失败的只有 2 个:qwen3-coder 无法导航文件系统,llama-3.3-70b 尝试了工作但无法通过测试。
免费模型的实际水平
通过测试不等于代码写得好。开发者审计了所有通过模型的代码:
- 第一梯队:代码干净、正确、一次通过。mimo-v2-flash-free 是最佳
- 第二梯队:能完成任务但代码有些小问题
- 第三梯队:勉强通过测试,但代码质量一般
对站长的实际意义
这个测试证明了几件事:
- 免费 AI 模型可以做实际开发工作:不是只能聊天,真的能写代码、调试、通过测试
- 25 美元/年的 VPS 足够:不需要昂贵的 GPU 服务器
- 免费层的稳定性是最大问题:OpenRouter 的免费模型经常不可用
- 模型选择很重要:同样是免费模型,差距可以非常大
怎么复现
如果你想自己测试:
- 买一台便宜的 VPS(RackNerd、BandwagonHost 等都有年付 20-30 美元的方案)
- 安装 OpenCode 或其他支持多模型的 AI 编码工具
- 配置免费模型 API(Venice、Groq、OpenRouter 等)
- 写一个测试任务的规格说明,让模型独立完成
本文参考来源:georgelarson.me – $25 AI Lab | HN 讨论
© 版权声明
THE END
















暂无评论内容