メインコンテンツへスキップ
Qwen-Image-Edit は、Qwen-Image の画像編集専用バージョンです。20B規模の Qwen-Image モデルを基に追加学習が行われており、Qwen-Image の特徴的なテキストレンダリング能力を編集タスクへと成功裏に拡張し、高精度なテキスト編集を実現しています。さらに、Qwen-Image-Edit では入力画像を Qwen2.5-VL(視覚的意味制御用)および VAE エンコーダ(視覚的外観制御用)の両方に同時に供給することで、意味と外観の両方を独立して制御可能な「二重編集機能」を実現しています。 モデルの特徴 主な特徴は以下の通りです:
  • 高精度なテキスト編集:Qwen-Image-Edit は中国語および英語のバイリンガルテキスト編集をサポートしており、画像内のテキストを直接追加・削除・修正できます。この際、元のテキストのサイズ、フォント、スタイルを保持したまま編集が可能です。
  • 意味/外観の二重編集:Qwen-Image-Edit は、低レベルの視覚的外観編集(例:スタイル転送、要素の追加/削除/変更など)だけでなく、高レベルの視覚的意味編集(例:IPキャラクター作成、物体の回転など)もサポートします。
  • 多様なベンチマークにおける優れた性能:複数の公開ベンチマークでの評価結果によると、Qwen-Image-Edit は画像編集タスクにおいてSOTA(State-of-the-Art)の性能を達成しており、強力な画像生成基盤モデルとして位置付けられています。
公式リンク:

ComfyOrg Qwen-Image-Edit ライブ配信(録画)

Qwen-Image-Edit ComfyUI ネイティブワークフローの例

ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

1. ワークフローファイル

ComfyUI を更新後、テンプレートからワークフローファイルを取得するか、下記のワークフローを ComfyUI へドラッグ&ドロップして読み込むことができます。 Qwen-image テキストから画像生成のワークフロー

JSON形式ワークフローをダウンロード

ComfyUI Cloud 上で実行

以下の画像を入力画像としてダウンロードしてください。 Qwen-image テキストから画像生成のワークフロー

2. モデルのダウンロード

すべてのモデルは、Comfy-Org/Qwen-Image_ComfyUI または Comfy-Org/Qwen-Image-Edit_ComfyUI から入手できます。 Diffusion モデル LoRA テキストエンコーダ VAE モデルの保存場所
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen_image_edit_fp8_e4m3fn.safetensors
│   ├── 📂 loras/
│   │   └── Qwen-Image-Lightning-4steps-V1.0.safetensors
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

3. ワークフローの実行手順

手順図
  1. モデルの読み込み
    • Load Diffusion Model ノードが qwen_image_edit_fp8_e4m3fn.safetensors を読み込んでいることを確認してください。
    • Load CLIP ノードが qwen_2.5_vl_7b_fp8_scaled.safetensors を読み込んでいることを確認してください。
    • Load VAE ノードが qwen_image_vae.safetensors を読み込んでいることを確認してください。
  2. 画像の読み込み
    • Load Image ノードで編集対象の画像をアップロードしていることを確認してください。
  3. プロンプトの設定
    • CLIP Text Encoder ノード内でプロンプトを設定してください。
  4. Scale Image to Total Pixels ノードは、入力画像を合計で約100万ピクセルになるよう自動的にスケーリングします。
    • 主に、2048×2048などの過大な解像度の入力画像によって出力画像の品質が低下することを防ぐための処理です。
    • 入力画像のサイズについて十分に把握している場合は、Ctrl+B キーでこのノードを無効化(バイパス)できます。
  5. 画像生成を高速化するために4ステップ版 Lighting LoRA を利用したい場合、LoraLoaderModelOnly ノードを選択し、Ctrl+B キーを押して有効化してください。
  6. Ksampler ノードの steps および cfg 設定については、ノード直下にメモが追加されています。最適なパラメータ設定を試行する際にご活用ください。
  7. Queue ボタンをクリックするか、ショートカットキー Ctrl(macOSではCmd)+ Enter を押してワークフローを実行してください。