Qwen-Image 是阿里巴巴通义千问团队发布的首个图像生成基础模型,这是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。该模型在复杂文本渲染精确图像编辑方面取得了显著进展,无论是英语还是中文等多种语言都能实现高保真输出。 模型亮点
  • 卓越的多语言文本渲染:支持英语、中文、韩语、日语等多种语言的高精度文本生成,保持字体细节和布局一致性
  • 多样化艺术风格:从照片级真实到印象派绘画,从动漫美学到极简设计,流畅适应各种创意提示
相关链接*:

Qwen-Image 原生工作流示例

如果你未安装 ComfyUI 请参考ComfyUI 系统要求说明 部分安装 ComfyUI。如果在加载下面的工作流文件时,你发现存在节点缺失,可能是因为以下情况:
  1. 你使用的 ComfyUI 版本不是最新的开发(nightly)版本。
  2. 你使用的 ComfyUI 版本是稳定(release)版本或桌面版(desktop)版本(不包含最新的功能更新)。
  3. 你使用的 ComfyUI 版本是最新的 commit 版本,但在启动过程中部分节点导入失败了。
请先确保你已经成功更新 ComfyUI 到最新的开发(nightly)版本, 请查看:如何更新 ComfyUI 部分了解如何更新 ComfyUI。
本文档中使用的模型你可以在 Huggingface 获取到 Modelscope 获取到

1. 工作流文件

更新 ComfyUI 后你可以从模板中找到工作流文件,或者将下面的工作流拖入 ComfyUI 中加载 Qwen-image 文生图工作流

下载 JSON 格式工作流

2. 模型下载

You can find all the models on Huggingface or Modelscope Diffusion Model Text Encoder VAE Model Storage Location
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen_image_fp8_e4m3fn.safetensors
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

3. 按步骤完成工作流

步骤图
  1. 确保 Load Diffusion Model节点加载了qwen_image_fp8_e4m3fn.safetensors
  2. 确保 Load CLIP节点中加载了qwen_2.5_vl_7b_fp8_scaled.safetensors
  3. 确保 Load VAE节点中加载了qwen_image_vae.safetensors
  4. 确保 EmptySD3LatentImage节点中设置好了图片的尺寸
  5. CLIP Text Encoder节点中设置好提示词,目前经过测试目前至少支持:英语、中文、韩语、日语、意大利语等
  6. 点击 Queue 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来运行工作流