Qwen-Image ComfyUIネイティブワークフローの例

Qwen-Image は、アリババのQwenチームがリリースした初の画像生成基盤モデルです。これは、Apache 2.0ライセンスのもとでオープンソース化された20BパラメータのMMDiT（マルチモーダル拡散トランスフォーマー）モデルです。このモデルは、複雑なテキストレンダリングおよび精密な画像編集において顕著な進展を遂げており、英語や中国語など複数の言語において高忠実度の出力を実現しています。 モデルの主な特長：

優れた多言語テキストレンダリング：英語、中国語、韓国語、日本語など、複数言語での高精度テキスト生成をサポートし、フォントのディテールやレイアウトの一貫性を維持します
多様なアートスタイル対応：写真のようなリアリスティックなシーンから印象派の絵画、アニメ風の美意識、ミニマリストデザインまで、さまざまなクリエイティブプロンプトに柔軟に対応します

関連リンク：

現在、Qwen-Imageには複数のControlNet対応オプションが利用可能です：

Qwen-Image-DiffSynth-ControlNets/model_patches：Canny、Depth、Inpaintモデルを含む
qwen_image_union_diffsynth_lora.safetensors：Canny、Depth、Pose、Lineart、Softedge、Normal、Openposeをサポートする画像構造制御用LoRA
InstantX ControlNet：近日公開予定

ComfyOrg Qwen-Imageライブストリーム

ComfyUIにおけるQwen-Image ― Lightning & LoRAs

ComfyUIにおけるQwen-Image ControlNet ― DiffSynth

Qwen-Imageネイティブワークフローの例

Portable or self deployed users
Desktop or Cloud users

Make sure your ComfyUI is updated.

Workflows in this guide can be found in the Workflow Templates. If you can’t find them in the template, your ComfyUI may be outdated. (Desktop version’s update will delay sometime)If nodes are missing when loading a workflow, possible reasons:

You are not using the latest ComfyUI version (Nightly version)
Some nodes failed to import at startup

Comfy Cloudで実行本ドキュメントに添付されたワークフローでは、以下の3種類の異なるモデルが使用されています：

Qwen-Imageオリジナルモデル（fp8_e4m3fn）
8ステップ高速化版：Qwen-Imageオリジナルモデル（fp8_e4m3fn）＋lightx2v製8ステップLoRA
蒸留版：Qwen-Image蒸留モデル（fp8_e4m3fn）

VRAM使用量の参考値
GPU：RTX4090D（24GB）

使用モデル	VRAM使用量	初回生成時間	2回目以降の生成時間
fp8_e4m3fn	86%	≈ 94秒	≈ 71秒
fp8_e4m3fn（lightx2v 8ステップLoRA使用）	86%	≈ 55秒	≈ 34秒
蒸留版 fp8_e4m3fn	86%	≈ 69秒	≈ 36秒

1. ワークフローファイル

ComfyUIを更新後、テンプレートからワークフローファイルを検索するか、以下のワークフローをComfyUIにドラッグ＆ドロップして読み込むことができます。 Qwen-image テキストから画像へ変換するワークフロー

Qwen-Image公式モデル用ワークフロー（JSON形式）をダウンロード

蒸留版

蒸留モデル用ワークフロー（JSON形式）をダウンロード

2. モデルのダウンロード

ComfyUIで利用可能なモデル

Qwen-Image_bf16（40.9 GB）
Qwen-Image_fp8（20.4 GB）
蒸留版（非公式、15ステップのみ必要）

すべてのモデルは、Hugging FaceおよびModelScopeで入手可能です。 拡散モデル

qwen_image_fp8_e4m3fn.safetensors

Qwen_image_distill（蒸留版）

蒸留版のオリジナル作者は、CFG値1.0で15ステップでの使用を推奨しています。
テストによると、この蒸留版はCFG値1.0で10ステップでも良好な性能を発揮します。生成したい画像のタイプに応じて、eulerまたはres_multistepを選択できます。

LoRA

Qwen-Image-Lightning-8steps-V1.0.safetensors

テキストエンコーダー

qwen_2.5_vl_7b_fp8_scaled.safetensors

VAE qwen_image_vae.safetensors モデルの保存場所

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   ├── qwen_image_fp8_e4m3fn.safetensors
│   │   └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## 蒸留版
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors   ## 8ステップ高速化LoRAモデル
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

3. ワークフローの操作手順

Load Diffusion Modelノードがqwen_image_fp8_e4m3fn.safetensorsを正しく読み込んでいることを確認してください
Load CLIPノードがqwen_2.5_vl_7b_fp8_scaled.safetensorsを正しく読み込んでいることを確認してください
Load VAEノードがqwen_image_vae.safetensorsを正しく読み込んでいることを確認してください
EmptySD3LatentImageノードの画像サイズ設定が正しいことを確認してください
CLIP Text Encoderノードでプロンプトを設定してください。現在、少なくとも英語、中国語、韓国語、日本語、イタリア語などがサポートされています
lightx2v製8ステップ高速化LoRAを有効化する場合は、該当ノードを選択しCtrl + Bで有効化し、手順8で説明する通りKSamplerの設定を修正してください
Queueボタンをクリックするか、ショートカットCtrl(cmd) + Enterでワークフローを実行してください
モデルのバージョンやワークフローに応じて、KSamplerのパラメーターを適切に調整してください

蒸留モデルとlightx2v製8ステップ高速化LoRAは、同時に使用できない可能性があります。両者を組み合わせた動作を確認するために、さまざまな組み合わせを試すことができます。

Qwen Image InstantX ControlNetワークフロー

これはControlNetモデルであるため、通常のControlNetとして使用できます。 Comfy Cloudで実行

1. ワークフローおよび入力画像

以下の画像をダウンロードし、ComfyUIにドラッグ＆ドロップしてワークフローを読み込んでください

JSON形式ワークフローをダウンロード

以下の画像を入力としてダウンロードしてください入力画像

2. モデルのリンク

InstantX ControlNet

Qwen-Image-InstantX-ControlNet-Union.safetensorsをダウンロードし、ComfyUI/models/controlnet/フォルダーに保存してください

Lotus Depthモデル

このモデルを使用して入力画像の深度マップを生成します。以下の2つのモデルをダウンロードする必要があります： 拡散モデル

lotus-depth-d-v1-1.safetensors

VAEモデル

vae-ft-mse-840000-ema-pruned.safetensors または任意のSD1.5互換VAE

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └─── lotus-depth-d-v1-1.safetensors
│   └── vae/
│       └──  lvae-ft-mse-840000-ema-pruned.safetensors

深度マップの生成には、comfyui_controlnet_auxなどのカスタムノードも使用できます。