Qwen-Image 是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。
使用模型 | VRAM Usage | 首次生成 | 第二次生成 |
---|---|---|---|
fp8_e4m3fn | 86% | ≈ 94s | ≈ 71s |
fp8_e4m3fn 使用 lightx2v 8步 LoRA | 86% | ≈ 55s | ≈ 34s |
蒸馏版 fp8_e4m3fn | 86% | ≈ 69s | ≈ 36s |
下载原始版 JSON 格式工作流
蒸馏版下载蒸馏版JSON 格式工作流
Load Diffusion Model
节点加载了qwen_image_fp8_e4m3fn.safetensors
Load CLIP
节点中加载了qwen_2.5_vl_7b_fp8_scaled.safetensors
Load VAE
节点中加载了qwen_image_vae.safetensors
EmptySD3LatentImage
节点中设置好了图片的尺寸CLIP Text Encoder
节点中设置好提示词,目前经过测试目前至少支持:英语、中文、韩语、日语、意大利语等Ctrl + B
启用该节点,并按 序号8
处的设置参数修改 Ksampler 的设置设置Run
按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车)
来运行工作流下载 JSON 格式工作流
下载下面的图片作为输入图片:ComfyUI/models/model_patches
文件夹中
qwen_image_canny_diffsynth_controlnet.safetensors
已被加载QwenImageDiffsynthControlnet
节点的 strength
强度来控制线稿控制的强度Run
按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车)
来运行工作流
对于 qwen_image_depth_diffsynth_controlnet.safetensors 使用,需要将图像预处理成 detph 深度图,替换掉 image proccessing
图,对于这部分的使用,请参考本篇文档中 InstantX 的处理方法,其它部分与 Canny 模型的使用类似
Inpaint 模型 ControlNet 使用说明
ModelPatchLoader
加载的是 qwen_image_inpaint_diffsynth_controlnet.safetensors
模型Load Image
节点的 mask
输出连接到 QwenImageDiffsynthControlnet
的 mask
输入才能保证对应的蒙版被加载Ctrl-B
快捷键,将原本工作流中的 Canny 设置为绕过模式,来使得对应的 Canny 节点处理不生效CLIP Text Encoder
输入你需要将蒙版部分修改成样式QwenImageDiffsynthControlnet
节点的 strength
强度来控制对应的控制强度Run
按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车)
来运行工作流下载 JSON 格式工作流
下载下面的图片作为输入图片ComfyUI/models/loras/
文件夹下
LoraLoaderModelOnly
正确加载了 qwen_image_union_diffsynth_lora.safetensors
模型Canny
节点的参数,由于不同的输入图像需要不同的参数设置来获得更好的图像预处理结果,你可以尝试调整对应的参数值来获得更多/更少细节Run
按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车)
来运行工作流其它类型的类型的控制,也是需要将图像处理的部分替换