NVIDIA Labs 近日开源了 SANA-WM(SANA World Model),一个 2.6B 参数的世界模型。它能根据一张图片和相机轨迹,生成长达 1 分钟的 720p 视频——而且只需要一张 GPU。
项目地址:https://github.com/NVlabs/Sana
SANA-WM 能做什么
核心能力
给 SANA-WM 一张图片和一条相机运动轨迹,它能生成:
- 长达 1 分钟的连续视频
- 720p 分辨率
- 精确遵循 6 自由度(6-DoF)相机轨迹
- 只需要一张 H100 GPU即可推理
这意味着你可以指定”镜头向前移动 5 米,然后向右转 30 度”这样的轨迹,模型会生成符合这个运动的视频。
关键数据
- 2.6B 参数(主干模型)+ 17B 参数(第二阶段精炼器)
- 在约 21.3 万个公开视频片段上训练
- 训练成本:64 张 H100 GPU 训练 15 天
- 推理成本:单张 H100 生成 1 分钟 720p 视频
- 蒸馏版本:单张 RTX 5090 + NVFP4 量化,34 秒生成 60 秒 720p 视频
- 吞吐量比同类基线高 36 倍
技术架构
SANA-WM 的架构有四个核心设计:
1. 混合线性注意力
结合帧级 Gated DeltaNet 和 softmax 注意力,实现内存高效的长上下文建模。这是它能生成 1 分钟视频的关键——传统注意力机制在这么长的序列上会爆内存。
2. 双分支相机控制
一个分支负责粗粒度的全局位姿,另一个分支负责细粒度的像素级对齐几何。两个分支协同工作,确保生成的视频精确遵循输入的相机轨迹。
3. 两阶段生成
第一阶段生成基础视频,第二阶段用 17B 参数的精炼器提升纹理、运动和后半段质量。这种”先粗后细”的策略在保证效率的同时提升了画质。
4. 鲁棒的标注管线
从公开视频中提取精确的度量级 6-DoF 相机位姿,用于训练数据的自动标注。
和同类项目对比
- SANA-WM vs LingBot-World:视觉质量相当,但 SANA-WM 的计算成本低得多
- SANA-WM vs HY-WorldPlay:同样质量水平,SANA-WM 只需单卡推理
- SANA-WM vs 传统视频生成:SANA-WM 支持精确的相机控制,而传统方法通常是”盲生成”
适合什么场景
- 游戏和虚拟现实:从一张场景图生成连续的 3D 视角视频
- 自动驾驶模拟:根据道路图片和车辆轨迹生成驾驶视频
- 机器人训练:为机器人导航生成训练数据
- 影视预览:从概念图快速生成镜头预览
- 3D 内容创作:辅助 3D 场景的快速原型
如何使用
- 克隆 GitHub 仓库:
git clone https://github.com/NVlabs/Sana.git - 安装依赖(Python + PyTorch + CUDA)
- 从 HuggingFace 下载预训练模型
- 准备输入图片和相机轨迹
- 运行推理脚本
对于想快速体验的用户,项目提供了 demo 脚本和示例输入。
限制和注意事项
- 推理需要至少一张 H100 GPU(蒸馏版可以用 RTX 5090)
- 生成的视频在复杂场景下可能出现伪影
- 相机轨迹不能过于极端(如突然 180 度转向)
- 模型权重较大,需要足够的存储空间
- 这是研究项目,不是生产级产品
简评
SANA-WM 的意义在于它把”世界模型”从实验室带到了可用的开源产品层面。2.6B 参数、单卡推理、36 倍吞吐量提升——这些数字说明 NVIDIA 在效率优化上下了很大功夫。对于做视频生成、游戏开发、自动驾驶研究的朋友来说,这绝对是一个值得关注的项目。
来源:














GitHub – TauricResearch/TradingAgents
GitHub – docusealco/docuseal

暂无评论内容