Wan2.2 是对 Wan 视频生成模型的重大升级,它通过引入混合专家 (MoE) 架构、使用电影级美学数据和更大的训练数据集,显著提升了视频生成的质量和复杂动态的捕捉能力。此次更新还开源了一个高效的 5B 混合模型,该模型支持文本到视频和图像到视频的 720P 高清生成,并且可以在消费级显卡(如 RTX 4090)上运行,使其兼具学术研究和工业应用价值。
Wan2.2 的核心创新
有效的 MoE 架构: Wan2.2 首次将混合专家 (MoE) 架构引入视频扩散模型。通过使用专门的专家模型来处理不同时间步的去噪过程,在不增加计算成本的情况下,极大地提升了模型的总容量。
电影级美学: 模型训练时采用了精心筛选的美学数据,这些数据包含了光照、构图、对比度、色调等详细标签。这使得模型能够更精确地生成具有可控电影风格的视频。
复杂的运动生成: 与旧版相比,Wan2.2 的训练数据量大幅增加(图像多出 65.6%,视频多出 83.2%)。这显著增强了模型在运动、语义和美学等多个维度的泛化能力。
高效的高清混合模型: Wan2.2 开源了一个 5B 参数的模型,该模型支持在消费级显卡(如 4090)上生成 720P、24fps 的视频,是目前速度最快的 720P 开源模型之一。
如何运行 Wan2.2
安装与模型下载
- 克隆仓库: 首先,通过
git clone获取项目代码。 - 安装依赖: 使用
pip install -r requirements.txt安装所需软件包。 - 下载模型: 可以从 Hugging Face 或 ModelScope 下载所需的模型。主要模型包括:
- T2V-A14B: 用于文本生成视频的 MoE 模型。
- I2V-A14B: 用于图像生成视频的 MoE 模型。
- TI2V-5B: 高压缩率的混合模型,支持文本和图像生成视频。
TI2V-5B 模型是最高效的版本,支持在 24GB 显存的 GPU(如 RTX 4090)上生成 720P 视频。
生成视频
1. 文本生成视频 (Text-to-Video)
使用命令行指定任务类型、尺寸和模型路径即可生成。
对于显存较小的设备(如 80GB VRAM),可以通过添加
--offload_model True和--convert_model_dtype等参数来减少显存占用。
为了获得更丰富的视频细节,推荐启用提示词扩展功能。该功能可以通过调用 Dashscope API 或本地大语言模型(如 Qwen)来实现,自动丰富和优化输入的文本提示。
2. 图像生成视频 (Image-to-Video)
与文本生成视频类似,但需要额外提供一个输入图像的路径。模型可以仅根据输入图像生成视频,也可以结合文本提示词进行创作。
在图像生成视频任务中,生成视频的宽高比将与输入图像保持一致。
3. 文本与图像混合生成视频 (Text-Image-to-Video)
这是由 TI2V-5B 模型支持的混合任务,它可以在单个模型中同时处理文本和图像输入。
这个 5B 模型在单张 RTX 4090 显卡上即可运行,是普通用户和开发者最容易上手的选择。
技术细节
混合专家 (MoE) 架构
MoE 架构已被证明能有效扩大模型规模而不增加推理成本。在 Wan2.2 中,MoE 被用于视频去噪过程,具体设计如下:
- 高噪声专家: 在去噪的早期阶段激活,负责构建视频的整体布局和结构。
- 低噪声专家: 在去噪的后期阶段激活,专注于优化视频的细节和质感。
这种设计让模型在不同阶段使用最合适的“专家”进行处理,最终生成的视频分布更接近真实数据,效果更好。
高效的高清混合模型
为了让更多人能用上高质量的视频生成技术,Wan2.2 推出了一个 5B 参数的紧凑模型 (TI2V-5B)。
该模型采用了先进的 VAE 压缩技术,压缩率极高,能够在保持高质量视频重建的同时,大幅降低对硬件的要求。
这个模型不仅效率高,而且功能全面,在一个统一的框架内原生支持文本到视频和图像到视频两种任务,极大地便利了实际应用和部署。