万相视频
ComfyUI Wan2.1 FLF2V 原生示例
本文介绍了如何在 ComfyUI 中完成 Wan2.1 FLF2V 视频生成示例
Wan FLF2V(首尾帧视频生成)是由阿里通义万相团队推出的开源视频生成模型。其开源协议为 Apache 2.0。 用户只需提供起始帧和结束帧两张图像,模型即可自动生成中间过渡帧,输出一段逻辑连贯、自然流畅的720p高清视频。
核心技术亮点
- 首尾帧精准控制:首尾帧匹配度达98%,通过起始和结束画面定义视频边界,模型智能填充中间动态变化,实现场景转换和物体形态演变等效果。
- 稳定流畅视频生成:采用CLIP语义特征和交叉注意力机制,视频抖动率比同类模型降低37%,确保转场自然流畅。
- 多功能创作能力:支持中英文字幕动态嵌入、二次元/写实/奇幻等多风格生成,适应不同创作需求。
- 720p高清输出:直接生成1280×720分辨率视频,无需后处理,适用于社交媒体和商业应用。
- 开源生态支持:模型权重、代码及训练框架全面开源,支持主流AI平台部署。
技术原理与架构
- DiT架构:基于扩散模型和Diffusion Transformer架构,结合Full Attention机制优化时空依赖建模,确保视频连贯性。
- 三维因果变分编码器:Wan-VAE技术将高清画面压缩至1/128尺寸,同时保留细微动态细节,显著降低显存需求。
- 三阶段训练策略:从480P分辨率开始预训练,逐步提升至720P,通过分阶段优化平衡生成质量与计算效率。
相关链接
- GitHub代码仓库:GitHub
- Hugging Face模型页:Hugging Face
- ModelScope(魔搭社区):ModelScope
Wan2.1 FLF2V 720P f16 ComfyUI 原生工作流示例
1. 下载工作流文件及相关输入文件
当前我们只提供了 fp16 版本的模型,由于这是一个在高分辨率图片上训练的模型,所以使用较小的尺寸可能无法获得较好的结果,我们在示例中使用了 720 * 1280 的尺寸,这可能导致较低显存的用户无法很顺利运行,对应的图片生成也会非常差耗时。如果需要,在一开始的时候请修改视频生成的尺寸。
请下载下面的 WebP 保存下面的 WebP 文件,并拖入 ComfyUI 中来加载对应的工作流,对应工作流已嵌入对应的模型下载文件信息。
请下载下面的两张图片,我们将会作为作为视频的起始帧和结束帧
2.手动模型安装
本篇指南涉及的所有模型你都可以在这里找到。
diffusion_models wan2.1_flf2v_720p_14B_fp16.safetensors
如果你之前运行过 Wan Video 相关的工作流,你可能已经有了下面的这些文件。
从Text encoders 选择一个版本进行下载,
VAE
CLIP Vision
文件保存位置
3. 按步骤完成工作流运行
- 确保
Load Diffusion Model
节点加载了wan2.1_flf2v_720p_14B_fp16.safetensors
- 确保
Load CLIP
节点加载了umt5_xxl_fp8_e4m3fn_scaled.safetensors
- 确保
Load VAE
节点加载了wan_2.1_vae.safetensors
- 确保
Load CLIP Vision
节点加载了clip_vision_h.safetensors
- 在
Start_image
节点上传起始帧 - 在
End_image
节点上传结束帧 - (可选)修改 正向和负向的提示词(Prompt)使用中英文都可以
- (重要)在
WanFirstLastFrameToVideo
修改对应视频的尺寸我们默认使用了 720 * 1280 的尺寸来使生成视频获得更好的结果,但这可能导致在较低显存下无法顺利运行,你可以在一开始尝试的时候调整成 480 * 854 的尺寸来保证运行的顺畅,然后在需要生成较大尺寸的视频的时候再调整成 720 * 1280 的尺寸来保证生成的效果 - 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来执行视频生成
此页面对您有帮助吗?