Z-Image(造相) は、アリババグループの通義実験室(Tongyi Lab)が開発した、強力かつ極めて効率的な画像生成モデルで、6B のパラメーターを有します。このモデルは、スケーラブル・シングルストリーム DiT(S3-DiT)アーキテクチャを採用しており、テキスト、視覚的セマンティックトークン、および画像VAEトークンをシーケンスレベルで連結し、統一された入力ストリームとして処理することで、パラメーター効率を最大化しています。
モデルのバリエーション:
- 🚀 Z-Image-Turbo — 蒸留済みのバージョンで、わずか 8 NFEs(関数評価回数)で、業界トップクラスの競合モデルと同等またはそれを上回る性能を発揮します。企業向けH800 GPUではサブセカンド(1秒未満)の推論遅延を達成し、16GB VRAMのコンシューマー向けGPUでも動作可能です。
- 🧱 Z-Image-Base — コミュニティ主導のファインチューニングやカスタム開発に適した、非蒸留の基盤モデルです。
- ✍️ Z-Image-Edit — 画像編集タスクに特化してファインチューニングされたバリエーションで、優れた指示追随能力を備えています。
- 写真級の高品質出力:優れた美的品質を維持しつつ、写真のようにリアルな画像生成を実現
- 正確な中英バイリンガルテキストレンダリング:複雑な中国語および英語テキストを高精度でレンダリング可能
- プロンプト強化および推論機能:プロンプトエンハンサーにより、モデルに推論能力が付与されます
- サブセカンド(1秒未満)の高速推論:対応ハードウェア上で迅速な画像生成を実現
Z-Image-Turbo 文字から画像へのワークフロー
ワークフローのダウンロード
Z-Image-Turbo 文字から画像へのワークフローのJSONファイルをダウンロードします。
ComfyUI Cloud 上で実行
このワークフローを ComfyUI Cloud 上で直接実行します。
Z-Image-Turbo モデルのダウンロード
qwen_3_4b.safetensors
Z-Image-Turbo 専用のテキストエンコーダーです。
z_image_turbo_bf16.safetensors
Z-Image-Turbo 専用の拡散モデルです。
ae.safetensors
Z-Image-Turbo 専用のVAE(変分オートエンコーダー)です。
Z-Image-Turbo Fun Union ControlNet ワークフロー
このワークフローでは、Z-Image-Turbo Fun Union ControlNet モデルを用いて、ControlNet を活用した画像生成を行います。参照画像に対してCannyエッジ検出を適用し、その結果をControlNetによる生成プロセスのガイドとして活用します。ワークフローのダウンロード
Z-Image-Turbo Fun Union ControlNet ワークフローのJSONファイルをダウンロードします。
ControlNet 用の追加モデル
Z-Image-Turbo-Fun-Controlnet-Union.safetensors
Z-Image-Turbo 専用のControlNetモデルパッチです。