RWKV社区近日发布了RWKV-7 G1f系列推理模型,目前已开源13.3B、7.2B、2.9B、1.5B四个参数版本。作为全球最大的纯RNN架构开源大模型项目,RWKV在uncheatable eval评测中的成绩持续提升,展现出与Transformer架构截然不同的发展路径。
RWKV-7 G1f 有什么新变化
RWKV(Receptance Weighted Key Value)是一种线性注意力架构,用RNN的方式实现类似Transformer的能力,核心优势在于推理时的内存占用恒定,不随上下文长度增长。这次发布的G1f系列是RWKV-7架构的最新迭代。
主要更新包括:
- 推理能力增强:G1f在代码生成和数学推理方面有明显提升,社区演示中甚至实现了用纯RNN模型生成可运行的3D游戏代码。
- 多参数版本:从1.5B到13.3B共四个版本,覆盖从移动端到服务器端的不同部署需求。
- uncheatable eval持续进步:RWKV团队坚持使用不可作弊的评测方式,模型成绩随时间稳步上升。
- 5月将推出G1g系列:团队表示会保持每月更新的迭代节奏。
为什么RNN架构值得关注
当前大模型领域几乎被Transformer架构垄断,但Transformer有一个先天缺陷:推理时的KV Cache随上下文长度线性增长,处理长文本时显存占用和计算成本急剧上升。
RWKV的线性注意力方案绕开了这个问题:
- 推理时内存占用恒定,不会因为上下文变长而爆显存
- 可以用RNN模式逐token推理,也可以用并行模式训练
- 理论上更适合边缘设备和超长文本场景
学术研究也在跟进
RWKV架构不仅在大模型领域发力,2026年4月期间还有11篇相关学术论文发表,涵盖多个方向:
- 时序预测:TV-FEM-RWKV-TS模型用于燃料电池老化预测,发表于JCR Q1期刊IJHE
- 多模态情感识别:MMCGR框架将RWKV作为序列编码器,发表于Neurocomputing
- 遥感图像分割:HA-ViTNet在高分辨率遥感图像上平衡局部细节与全局语义,发表于ICASSP 2026
- 序列推荐:RWKV4Rec在个性化推荐任务上NDCG@10提升显著,发表于ACM TKDD
如何体验RWKV-7 G1f
想试试RWKV-7 G1f模型,有几个入口:
- Hugging Face:模型权重已上传至Hugging Face,可以直接下载使用
- 官方文档:RWKV项目在GitHub上有完善的部署文档,支持多种推理框架
- 社区工具:RWKV_document-term-translator等社区项目已适配G1f模型
适合什么场景
- 需要处理超长文本但显存有限的场景
- 边缘设备部署,对推理内存有严格要求
- 对Transformer架构的替代方案感兴趣的研究者
- 想要尝试非主流架构的开发者
简评
RWKV坚持走纯RNN路线,在Transformer主导的大模型领域算是一股清流。G1f系列的发布证明线性注意力架构仍然有竞争力。对于站长和开发者来说,RWKV的最大价值在于推理成本优势——如果未来能在长文本处理和边缘部署上证明自己,可能会成为Transformer的重要补充方案。
来源:











Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro


暂无评论内容