Wan FLF2V(首尾帧视频生成)是由阿里通义万相团队推出的开源视频生成模型。其开源协议为 Apache 2.0。 用户只需提供起始帧和结束帧两张图像,模型即可自动生成中间过渡帧,输出一段逻辑连贯、自然流畅的720p高清视频。

核心技术亮点

  1. 首尾帧精准控制:首尾帧匹配度达98%,通过起始和结束画面定义视频边界,模型智能填充中间动态变化,实现场景转换和物体形态演变等效果。
  2. 稳定流畅视频生成:采用CLIP语义特征和交叉注意力机制,视频抖动率比同类模型降低37%,确保转场自然流畅。
  3. 多功能创作能力:支持中英文字幕动态嵌入、二次元/写实/奇幻等多风格生成,适应不同创作需求。
  4. 720p高清输出:直接生成1280×720分辨率视频,无需后处理,适用于社交媒体和商业应用。
  5. 开源生态支持:模型权重、代码及训练框架全面开源,支持主流AI平台部署。

技术原理与架构

  1. DiT架构:基于扩散模型和Diffusion Transformer架构,结合Full Attention机制优化时空依赖建模,确保视频连贯性。
  2. 三维因果变分编码器:Wan-VAE技术将高清画面压缩至1/128尺寸,同时保留细微动态细节,显著降低显存需求。
  3. 三阶段训练策略:从480P分辨率开始预训练,逐步提升至720P,通过分阶段优化平衡生成质量与计算效率。

相关链接

Wan2.1 FLF2V 720P f16 ComfyUI 原生工作流示例

1. 下载工作流文件及相关输入文件

当前我们只提供了 fp16 版本的模型,由于这是一个在高分辨率图片上训练的模型,所以使用较小的尺寸可能无法获得较好的结果,我们在示例中使用了 720 * 1280 的尺寸,这可能导致较低显存的用户无法很顺利运行,对应的图片生成也会非常差耗时。如果需要,在一开始的时候请修改视频生成的尺寸。

请下载下面的 WebP 保存下面的 WebP 文件,并拖入 ComfyUI 中来加载对应的工作流,对应工作流已嵌入对应的模型下载文件信息。

请下载下面的两张图片,我们将会作为作为视频的起始帧和结束帧

2.手动模型安装

本篇指南涉及的所有模型你都可以在这里找到。

diffusion_models wan2.1_flf2v_720p_14B_fp16.safetensors

如果你之前运行过 Wan Video 相关的工作流,你可能已经有了下面的这些文件。

Text encoders 选择一个版本进行下载,

VAE

CLIP Vision

文件保存位置

ComfyUI/
├── models/
│   ├── diffusion_models/
│   ├── wan2.1_flf2v_720p_14B_fp16.safetensors
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors           # 或者你选择的版本
│   └── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors   

3. 按步骤完成工作流运行

  1. 确保 Load Diffusion Model 节点加载了 wan2.1_flf2v_720p_14B_fp16.safetensors
  2. 确保 Load CLIP 节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors
  3. 确保 Load VAE 节点加载了 wan_2.1_vae.safetensors
  4. 确保 Load CLIP Vision 节点加载了 clip_vision_h.safetensors
  5. Start_image 节点上传起始帧
  6. End_image 节点上传结束帧
  7. (可选)修改 正向和负向的提示词(Prompt)使用中英文都可以
  8. (重要)在 WanFirstLastFrameToVideo 修改对应视频的尺寸我们默认使用了 720 * 1280 的尺寸来使生成视频获得更好的结果,但这可能导致在较低显存下无法顺利运行,你可以在一开始尝试的时候调整成 480 * 854 的尺寸来保证运行的顺畅,然后在需要生成较大尺寸的视频的时候再调整成 720 * 1280 的尺寸来保证生成的效果
  9. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成