メインコンテンツへスキップ
Qwen-Image は、アリババのQwenチームがリリースした初の画像生成基盤モデルです。これは、Apache 2.0ライセンスのもとでオープンソース化された20BパラメータのMMDiT(マルチモーダル拡散トランスフォーマー)モデルです。このモデルは、複雑なテキストレンダリングおよび精密な画像編集において顕著な進展を遂げており、英語や中国語など複数の言語において高忠実度の出力を実現しています。 モデルの主な特長
  • 優れた多言語テキストレンダリング:英語、中国語、韓国語、日本語など、複数言語での高精度テキスト生成をサポートし、フォントのディテールやレイアウトの一貫性を維持します
  • 多様なアートスタイル対応:写真のようなリアリスティックなシーンから印象派の絵画、アニメ風の美意識、ミニマリストデザインまで、さまざまなクリエイティブプロンプトに柔軟に対応します
関連リンク 現在、Qwen-Imageには複数のControlNet対応オプションが利用可能です:

ComfyOrg Qwen-Imageライブストリーム

ComfyUIにおけるQwen-Image ― Lightning & LoRAs
ComfyUIにおけるQwen-Image ControlNet ― DiffSynth

Qwen-Imageネイティブワークフローの例

ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している
Comfy Cloudで実行 本ドキュメントに添付されたワークフローでは、以下の3種類の異なるモデルが使用されています:
  1. Qwen-Imageオリジナルモデル(fp8_e4m3fn)
  2. 8ステップ高速化版:Qwen-Imageオリジナルモデル(fp8_e4m3fn)+lightx2v製8ステップLoRA
  3. 蒸留版:Qwen-Image蒸留モデル(fp8_e4m3fn)
VRAM使用量の参考値
GPU:RTX4090D(24GB)
使用モデルVRAM使用量初回生成時間2回目以降の生成時間
fp8_e4m3fn86%≈ 94秒≈ 71秒
fp8_e4m3fn(lightx2v 8ステップLoRA使用)86%≈ 55秒≈ 34秒
蒸留版 fp8_e4m3fn86%≈ 69秒≈ 36秒

1. ワークフローファイル

ComfyUIを更新後、テンプレートからワークフローファイルを検索するか、以下のワークフローをComfyUIにドラッグ&ドロップして読み込むことができます。 Qwen-image テキストから画像へ変換するワークフロー

Qwen-Image公式モデル用ワークフロー(JSON形式)をダウンロード

蒸留版

蒸留モデル用ワークフロー(JSON形式)をダウンロード

2. モデルのダウンロード

ComfyUIで利用可能なモデル
  • Qwen-Image_bf16(40.9 GB)
  • Qwen-Image_fp8(20.4 GB)
  • 蒸留版(非公式、15ステップのみ必要)
すべてのモデルは、Hugging FaceおよびModelScopeで入手可能です。 拡散モデル Qwen_image_distill(蒸留版)
  • 蒸留版のオリジナル作者は、CFG値1.0で15ステップでの使用を推奨しています。
  • テストによると、この蒸留版はCFG値1.0で10ステップでも良好な性能を発揮します。生成したい画像のタイプに応じて、eulerまたはres_multistepを選択できます。
LoRA テキストエンコーダー VAE qwen_image_vae.safetensors モデルの保存場所
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   ├── qwen_image_fp8_e4m3fn.safetensors
│   │   └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## 蒸留版
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors   ## 8ステップ高速化LoRAモデル
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

3. ワークフローの操作手順

手順ガイド
  1. Load Diffusion Modelノードがqwen_image_fp8_e4m3fn.safetensorsを正しく読み込んでいることを確認してください
  2. Load CLIPノードがqwen_2.5_vl_7b_fp8_scaled.safetensorsを正しく読み込んでいることを確認してください
  3. Load VAEノードがqwen_image_vae.safetensorsを正しく読み込んでいることを確認してください
  4. EmptySD3LatentImageノードの画像サイズ設定が正しいことを確認してください
  5. CLIP Text Encoderノードでプロンプトを設定してください。現在、少なくとも英語、中国語、韓国語、日本語、イタリア語などがサポートされています
  6. lightx2v製8ステップ高速化LoRAを有効化する場合は、該当ノードを選択しCtrl + Bで有効化し、手順8で説明する通りKSamplerの設定を修正してください
  7. Queueボタンをクリックするか、ショートカットCtrl(cmd) + Enterでワークフローを実行してください
  8. モデルのバージョンやワークフローに応じて、KSamplerのパラメーターを適切に調整してください
蒸留モデルとlightx2v製8ステップ高速化LoRAは、同時に使用できない可能性があります。両者を組み合わせた動作を確認するために、さまざまな組み合わせを試すことができます。

Qwen Image InstantX ControlNetワークフロー

これはControlNetモデルであるため、通常のControlNetとして使用できます。 Comfy Cloudで実行

1. ワークフローおよび入力画像

以下の画像をダウンロードし、ComfyUIにドラッグ&ドロップしてワークフローを読み込んでください ワークフロー

JSON形式ワークフローをダウンロード

以下の画像を入力としてダウンロードしてください 入力画像

2. モデルのリンク

  1. InstantX ControlNet
Qwen-Image-InstantX-ControlNet-Union.safetensorsをダウンロードし、ComfyUI/models/controlnet/フォルダーに保存してください
  1. Lotus Depthモデル
このモデルを使用して入力画像の深度マップを生成します。以下の2つのモデルをダウンロードする必要があります: 拡散モデル VAEモデル
ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └─── lotus-depth-d-v1-1.safetensors
│   └── vae/
│       └──  lvae-ft-mse-840000-ema-pruned.safetensors
深度マップの生成には、comfyui_controlnet_auxなどのカスタムノードも使用できます。

3. ワークフローの操作手順

処理手順
  1. Load ControlNet ModelノードがQwen-Image-InstantX-ControlNet-Union.safetensorsを正しく読み込んでいることを確認してください
  2. 入力画像をアップロードしてください
  3. このサブグラフはLotus Depthモデルを使用しています。テンプレートからLotus Depthを検索するか、サブグラフを編集して詳細を確認し、すべてのモデルが正しく読み込まれていることを確認してください
  4. Runボタンをクリックするか、ショートカットCtrl(cmd) + Enterでワークフローを実行してください

Qwen Image ControlNet DiffSynth-ControlNetsモデルパッチワークフロー

Comfy Cloudで実行 このモデルは実際にはControlNetではなく、Canny、Depth、Inpaintの3種類の異なる制御モードをサポートする「モデルパッチ」です。 オリジナルモデルのURL:DiffSynth-Studio/Qwen-Image ControlNet
Comfy Org再ホストURL:Qwen-Image-DiffSynth-ControlNets/model_patches

1. ワークフローおよび入力画像

以下の画像をダウンロードし、ComfyUIにドラッグ&ドロップして対応するワークフローを読み込んでください ワークフロー

JSON形式ワークフローをダウンロード

以下の画像を入力としてダウンロードしてください: 入力画像

2. モデルのリンク

その他のモデルはQwen-Image基本ワークフローと同一です。以下のモデルのみをダウンロードし、ComfyUI/models/model_patchesフォルダーに保存してください。

3. ワークフローの使用方法

現在、diffsynthにはCanny、Depth、Inpaintの3種類のパッチモデルがあります。 ControlNet関連のワークフローを初めて使用する場合、制御用画像は事前にサポートされる画像形式に前処理されなければ、モデルによって認識・使用されない点に注意が必要です。 入力タイプ図
  • Canny:処理済みのCannyエッジ、線画の輪郭
  • Depth:空間関係を示す前処理済みの深度マップ
  • Inpaint:再描画が必要な領域をマスクで指定する必要があります
このパッチモデルは3つの異なるモデルに分割されているため、入力時に正しい前処理タイプを選択して、画像が適切に前処理されるようにする必要があります。 CannyモデルのControlNet使用手順 Cannyワークフロー
  1. qwen_image_canny_diffsynth_controlnet.safetensorsが正しく読み込まれていることを確認してください
  2. 後続処理のために入力画像をアップロードしてください
  3. Cannyノードはネイティブの前処理ノードであり、設定したパラメーターに従って入力画像を前処理し、生成を制御します
  4. 必要に応じて、QwenImageDiffsynthControlnetノードのstrengthを調整して、線画制御の強度を制御できます
  5. Runボタンをクリックするか、ショートカットCtrl(cmd) + Enterでワークフローを実行してください
qwen_image_depth_diffsynth_controlnet.safetensorsを使用する場合は、画像を深度マップに前処理し、「image processing」部分を置き換える必要があります。この用途については、本ドキュメント内のInstantX処理方法を参照してください。その他の部分はCannyモデルの使用方法と同様です。
InpaintモデルのControlNet使用手順 Inpaintワークフロー Inpaintモデルでは、マスクエディターを使用してマスクを描画し、それを入力制御条件として使用します。
  1. ModelPatchLoaderqwen_image_inpaint_diffsynth_controlnet.safetensorsを正しく読み込んでいることを確認してください
  2. 画像をアップロードし、マスクエディターでマスクを描画します。対応するLoad Imageノードのmask出力をQwenImageDiffsynthControlnetmask入力に接続することで、適切なマスクが読み込まれることを保証してください
  3. Ctrl-Bショートカットを使用して、ワークフロー内の元のCannyノードをバイパスモードに設定し、Cannyノードによる処理を無効化します
  4. CLIP Text Encoderで、マスク領域を変更したい内容を入力してください
  5. 必要に応じて、QwenImageDiffsynthControlnetノードのstrengthを調整して、対応する制御強度を制御できます
  6. Runボタンをクリックするか、ショートカットCtrl(cmd) + Enterでワークフローを実行してください

Qwen Image Union ControlNet LoRAワークフロー

Comfy Cloudで実行 オリジナルモデルのURL:DiffSynth-Studio/Qwen-Image-In-Context-Control-Union Comfy Org再ホストURL:qwen_image_union_diffsynth_lora.safetensors:Canny、Depth、Pose、Lineart、Softedge、Normal、Openposeをサポートする画像構造制御用LoRA

1. ワークフローおよび入力画像

以下の画像をダウンロードし、ComfyUIにドラッグ&ドロップしてワークフローを読み込んでください ワークフロー

JSON形式ワークフローをダウンロード

以下の画像を入力としてダウンロードしてください ワークフロー

2. モデルのリンク

以下のモデルをダウンロードしてください。これはLoRAモデルであるため、ComfyUI/models/loras/フォルダーに保存する必要があります。

3. ワークフローの操作手順

このモデルは、Canny、Depth、Pose、Lineart、Softedge、Normal、Openposeの制御を統合的にサポートするLoRAです。多くの画像前処理用ネイティブノードが完全には対応していないため、comfyui_controlnet_auxなどのツールを活用して、その他の画像前処理を完了させる必要があります。 Union Control LoRA
  1. LoraLoaderModelOnlyqwen_image_union_diffsynth_lora.safetensorsを正しく読み込んでいることを確認してください
  2. 入力画像をアップロードしてください
  3. 必要に応じて、Cannyノードのパラメーターを調整できます。入力画像によって最適なパラメーター設定が異なるため、より多くのディテールまたはより少ないディテールを得るために、対応するパラメーター値を調整してみてください
  4. Runボタンをクリックするか、ショートカットCtrl(cmd) + Enterでワークフローを実行してください
その他の制御タイプについても、同様に画像処理部分を置き換える必要があります。