由于目前我们已经对模板做了调整,并增加了 CausVid LoRA 的相关使用及说明,本篇文档需要进行更新,还需一定准备时间,在此之前请参考模板中的备注信息进行使用

关于 VACE

VACE 14B 是阿里通义万相团队推出的开源视频编辑统一模型。该模型通过整合多任务能力、支持高分辨率处理及灵活的多模态输入机制,显著提升了视频创作的效率与质量。

该模型基于 Apache-2.0 协议开源,可用于个人商业用途。

以下是其核心特性与技术亮点的综合分析:

  • 多模态输入:支持文本、图像、视频、遮罩、控制信号等多种输入形式
  • 统一架构:单一模型支持多种任务,可自由组合功能
  • 动作迁移:基于参考视频生成连贯动作
  • 局部替换:通过遮罩替换视频中的特定区域
  • 视频扩展:补全动作或扩展背景
  • 背景替换:保留主体更换环境背景

目前 VACE 发布了 1.3B 和 14B 两个版本,14B 版本相比 1.3B 版本,支持 720P 分辨率输出,画面细节和稳定性更好。

模型480P720P
VACE-1.3B
VACE-14B

相关模型权重和代码仓库:

模型下载及在工作流中的加载

由于本篇文档中设计的几个工作流都使用同一套工作流模板,所以我们可以先完成模型下载及加载的信息介绍,然后通过 Bypass 不同的节点来启用/ 禁用不同的输入来实现不同的工作流。 在具体示例中对应的工作流信息中已经嵌入了模型下载信息,所以你也可以在下载具体示例的工作流时来完成模型下载。

模型下载

diffusion_models wan2.1_vace_14B_fp16.safetensors wan2.1_vace_1.3B_fp16.safetensors

如果你之前使用过 Wan Video 相关的工作流,下面的模型文件你已经下载过了。

VAE

Text encoders 选择一个版本进行下载

文件保存位置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └─── wan2.1_vace_14B_fp16.safetensors # 或 wan2.1_vace_1.3B_fp16.safetensors
│   ├── 📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors # 或 umt5_xxl_fp16.safetensors
│   └── 📂 vae/
│       └──  wan_2.1_vae.safetensors

模型加载

由于在本篇指南中,我们所使用的模型是一致的,工作流也相同,只是 Bypass 了部分的节点来启用/ 禁用不同的输入,请参考下面的图片确保在对应不同的工作流中,对应的模型都已正确加载

  1. 确保 Load Diffusion Model 节点加载了 wan2.1_vace_14B_fp16.safetensors
  2. 确保 Load CLIP 节点加载了 umt5_xxl_fp8_e4m3fn_scaled.safetensors 或者 umt5_xxl_fp16.safetensors
  3. 确保 Load VAE 节点加载了 wan_2.1_vae.safetensors

如何取消节点的 Bypass 状态

当一个节点被设置为 Bypass 状态时,通过该节点的数据将不受节点的影响,直接输出,下面是如何取消节点的 Bypass 状态的三种方法 我们通常在不需要一些节点时设置节点的 Bypass 状态,而不用将它们从节点中删除改变工作流。

  1. 选中节点后,在选择工具箱中点击标识部分的箭头,即可快速切换节点的 Bypass 状态
  2. 选中节点后,鼠标右键点击节点,选择 模式(Mode) -> 总是(Always) 切换到 Always 模式
  3. 选中节点后,鼠标右键点击节点,选择 绕过(Bypass) 选项,切换 Bypass 状态

VACE 文生视频工作流

如果无法从 mp4 文件加载工作流,请确保你的 ComfyUI 前端版本是最新的版本,请参考 requirements.txt ,确保你能够从 mp4 文件加载工作流。

目前 1.19.9 是 requirements.txt 文件中的最新 ComfyUI 前端版本。

1. 工作流下载

下载下面视频,并拖入 ComfyUI 中,以加载对应的工作流

2. 按步骤完成工作流的运行

请参照图片序号进行逐步确认,来保证对应工作流的顺利运行

  1. CLIP Text Encode (Positive Prompt) 节点中输入正向提示词
  2. CLIP Text Encode (Negative Prompt) 节点中输入负向提示词
  3. WanVaceToVideo 设置对应图像的尺寸(首次运行建议设置 640*640 的分辨率),帧数(视频的时长)
  4. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成
  5. 生成完成后对应的视频会自动保存到 ComfyUI/output/video 目录下(子文件夹位置取决于 save video 节点设置)

在测试过程中,使用 4090 显卡:

  • 720*1280 的分辨率,生成 81 帧视频需要 40 分钟左右
  • 640*640 的分辨率,生成 49 帧视频需要 7 分钟左右

但相对的 720P 的视频质量会更好。

VACE 图生视频工作流

你可以继续使用上面的工作流文件,只需要将 Load reference imageLoad image 节点的 Bypass 取消,并输入对应的图片,你也可以使用下面的图片,在这个文件里,我们已经完成了对应的参数设置。

1. 工作流下载

下载下面的视频,并拖入 ComfyUI 中,以加载对应的工作流

请下载下面图片作为输入图片

2. 按步骤完成工作流的运行

请参照图片序号进行逐步确认,来保证对应工作流的顺利运行

  1. Load image 节点中输入对应的图片
  2. 你可以像文生图工作流一样完成来进行提示词的修改和编辑
  3. WanVaceToVideo 设置对应图像的尺寸(首次运行建议设置 640*640 的分辨率),帧数(视频的时长)
  4. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成
  5. 生成完成后对应的视频会自动保存到 ComfyUI/output/video 目录下(子文件夹位置取决于 save video 节点设置)

你可能会使用类似获取图片尺寸一点的节点来设置对应的分辨率,但是由于对应节点有宽度和高度的步长要求,会导致如果你的图片尺寸无法被 16 整除时,可能会出现报错提示。

3. 工作流补充说明

VACE 还支持在一张图像中输入多个参考图像,来生成对应的视频,你可以在 VACE 的项目页中看到相关的示例

VACE 视频到视频工作流

1. 工作流下载

下载下面的视频并拖入 ComfyUI 中,以加载对应的工作流

我们将使用下面的素材作为输入:

  1. 用于参考图像的输入图片

  2. 下面的视频已经经过预处理,我们将用于控制视频的生成

  1. 下面的视频是原始视频,你可以下载下面的素材来使用类似 comfyui_controlnet_aux 这样的预处理节点来对图像进行预处理

2. 按步骤完成工作流的运行

请参照图片序号进行逐步确认,来保证对应工作流的顺利运行

  1. Load reference image 中的 Load Image 节点输入参考图片
  2. Load control video 中的 Load Video 节点输入控制视频,由于提供的视频是经过预处理的,所以你不需要进行额外的处理
  3. 如果你需要自己针对原始视频进行预处理,可以修改 Image preprocessing 分组,或者使用 comfyui_controlnet_aux 节点来完成对应的节点预处理
  4. 修改提示词
  5. WanVaceToVideo 设置对应图像的尺寸(首次运行建议设置 640*640 的分辨率),帧数(视频的时长)
  6. 点击 Run 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来执行视频生成
  7. 生成完成后对应的视频会自动保存到 ComfyUI/output/video 目录下(子文件夹位置取决于 save video 节点设置)

VACE 视频扩展工作流

[待更新]

  • Portable 版本模板已更新,请参照中的模板说明
  • Desktop 版本目前尚未更新

VACE 首尾帧视频生成

[待更新]

  • Portable 版本中模板已更新,请参照模板说明
  • Desktop 版本目前尚未更新

相关节点文档

请查阅下面的文档了解相关的节点

WanVaceToVideo 节点文档

WanVaceToVideo 节点文档

TrimVideoLatent 节点文档

ComfyUI TrimVideoLatent 节点文档