SANA-WM：NVIDIA 开源 2.6B 参数世界模型，单卡生成 1 分钟 720p 视频

NVIDIA Labs 近日开源了 SANA-WM（SANA World Model），一个 2.6B 参数的世界模型。它能根据一张图片和相机轨迹，生成长达 1 分钟的 720p 视频——而且只需要一张 GPU。

项目地址：https://github.com/NVlabs/Sana

论文：arXiv:2605.15178

模型：HuggingFace 下载

SANA-WM 能做什么

核心能力

给 SANA-WM 一张图片和一条相机运动轨迹，它能生成：

长达 1 分钟的连续视频
720p 分辨率
精确遵循 6 自由度（6-DoF）相机轨迹
只需要一张 H100 GPU即可推理

这意味着你可以指定”镜头向前移动 5 米，然后向右转 30 度”这样的轨迹，模型会生成符合这个运动的视频。

关键数据

2.6B 参数（主干模型）+ 17B 参数（第二阶段精炼器）
在约 21.3 万个公开视频片段上训练
训练成本：64 张 H100 GPU 训练 15 天
推理成本：单张 H100 生成 1 分钟 720p 视频
蒸馏版本：单张 RTX 5090 + NVFP4 量化，34 秒生成 60 秒 720p 视频
吞吐量比同类基线高 36 倍

技术架构

SANA-WM 的架构有四个核心设计：

1. 混合线性注意力

结合帧级 Gated DeltaNet 和 softmax 注意力，实现内存高效的长上下文建模。这是它能生成 1 分钟视频的关键——传统注意力机制在这么长的序列上会爆内存。

2. 双分支相机控制

一个分支负责粗粒度的全局位姿，另一个分支负责细粒度的像素级对齐几何。两个分支协同工作，确保生成的视频精确遵循输入的相机轨迹。

3. 两阶段生成

第一阶段生成基础视频，第二阶段用 17B 参数的精炼器提升纹理、运动和后半段质量。这种”先粗后细”的策略在保证效率的同时提升了画质。

4. 鲁棒的标注管线

从公开视频中提取精确的度量级 6-DoF 相机位姿，用于训练数据的自动标注。

和同类项目对比

SANA-WM vs LingBot-World：视觉质量相当，但 SANA-WM 的计算成本低得多
SANA-WM vs HY-WorldPlay：同样质量水平，SANA-WM 只需单卡推理
SANA-WM vs 传统视频生成：SANA-WM 支持精确的相机控制，而传统方法通常是”盲生成”

适合什么场景

游戏和虚拟现实：从一张场景图生成连续的 3D 视角视频
自动驾驶模拟：根据道路图片和车辆轨迹生成驾驶视频
机器人训练：为机器人导航生成训练数据
影视预览：从概念图快速生成镜头预览
3D 内容创作：辅助 3D 场景的快速原型

如何使用

克隆 GitHub 仓库：git clone https://github.com/NVlabs/Sana.git
安装依赖（Python + PyTorch + CUDA）
从 HuggingFace 下载预训练模型
准备输入图片和相机轨迹
运行推理脚本

对于想快速体验的用户，项目提供了 demo 脚本和示例输入。

限制和注意事项

推理需要至少一张 H100 GPU（蒸馏版可以用 RTX 5090）
生成的视频在复杂场景下可能出现伪影
相机轨迹不能过于极端（如突然 180 度转向）
模型权重较大，需要足够的存储空间
这是研究项目，不是生产级产品

简评

SANA-WM 的意义在于它把”世界模型”从实验室带到了可用的开源产品层面。2.6B 参数、单卡推理、36 倍吞吐量提升——这些数字说明 NVIDIA 在效率优化上下了很大功夫。对于做视频生成、游戏开发、自动驾驶研究的朋友来说，这绝对是一个值得关注的项目。

来源：

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END