SANA-WM:NVIDIA 开源 2.6B 参数世界模型,单卡生成 1 分钟 720p 视频

NVIDIA Labs 近日开源了 SANA-WM(SANA World Model),一个 2.6B 参数的世界模型。它能根据一张图片和相机轨迹,生成长达 1 分钟的 720p 视频——而且只需要一张 GPU。

项目地址:https://github.com/NVlabs/Sana

论文:arXiv:2605.15178

模型:HuggingFace 下载

SANA-WM 能做什么

核心能力

给 SANA-WM 一张图片和一条相机运动轨迹,它能生成:

  • 长达 1 分钟的连续视频
  • 720p 分辨率
  • 精确遵循 6 自由度(6-DoF)相机轨迹
  • 只需要一张 H100 GPU即可推理

这意味着你可以指定”镜头向前移动 5 米,然后向右转 30 度”这样的轨迹,模型会生成符合这个运动的视频。

关键数据

  • 2.6B 参数(主干模型)+ 17B 参数(第二阶段精炼器)
  • 在约 21.3 万个公开视频片段上训练
  • 训练成本:64 张 H100 GPU 训练 15 天
  • 推理成本:单张 H100 生成 1 分钟 720p 视频
  • 蒸馏版本:单张 RTX 5090 + NVFP4 量化,34 秒生成 60 秒 720p 视频
  • 吞吐量比同类基线高 36 倍

技术架构

SANA-WM 的架构有四个核心设计:

1. 混合线性注意力

结合帧级 Gated DeltaNet 和 softmax 注意力,实现内存高效的长上下文建模。这是它能生成 1 分钟视频的关键——传统注意力机制在这么长的序列上会爆内存。

2. 双分支相机控制

一个分支负责粗粒度的全局位姿,另一个分支负责细粒度的像素级对齐几何。两个分支协同工作,确保生成的视频精确遵循输入的相机轨迹。

3. 两阶段生成

第一阶段生成基础视频,第二阶段用 17B 参数的精炼器提升纹理、运动和后半段质量。这种”先粗后细”的策略在保证效率的同时提升了画质。

4. 鲁棒的标注管线

从公开视频中提取精确的度量级 6-DoF 相机位姿,用于训练数据的自动标注。

和同类项目对比

  • SANA-WM vs LingBot-World:视觉质量相当,但 SANA-WM 的计算成本低得多
  • SANA-WM vs HY-WorldPlay:同样质量水平,SANA-WM 只需单卡推理
  • SANA-WM vs 传统视频生成:SANA-WM 支持精确的相机控制,而传统方法通常是”盲生成”

适合什么场景

  • 游戏和虚拟现实:从一张场景图生成连续的 3D 视角视频
  • 自动驾驶模拟:根据道路图片和车辆轨迹生成驾驶视频
  • 机器人训练:为机器人导航生成训练数据
  • 影视预览:从概念图快速生成镜头预览
  • 3D 内容创作:辅助 3D 场景的快速原型

如何使用

  1. 克隆 GitHub 仓库:git clone https://github.com/NVlabs/Sana.git
  2. 安装依赖(Python + PyTorch + CUDA)
  3. 从 HuggingFace 下载预训练模型
  4. 准备输入图片和相机轨迹
  5. 运行推理脚本

对于想快速体验的用户,项目提供了 demo 脚本和示例输入。

限制和注意事项

  • 推理需要至少一张 H100 GPU(蒸馏版可以用 RTX 5090)
  • 生成的视频在复杂场景下可能出现伪影
  • 相机轨迹不能过于极端(如突然 180 度转向)
  • 模型权重较大,需要足够的存储空间
  • 这是研究项目,不是生产级产品

简评

SANA-WM 的意义在于它把”世界模型”从实验室带到了可用的开源产品层面。2.6B 参数、单卡推理、36 倍吞吐量提升——这些数字说明 NVIDIA 在效率优化上下了很大功夫。对于做视频生成、游戏开发、自动驾驶研究的朋友来说,这绝对是一个值得关注的项目。

来源:

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容