メインコンテンツへスキップ
Z-Image(造相) は、アリババグループの通義実験室(Tongyi Lab)が開発した、強力かつ極めて効率的な画像生成モデルで、60 億(6B)パラメータを有します。このモデルは スケーラブルな単一ストリーム DiT(S3-DiT)アーキテクチャを採用しており、テキスト、視覚的セマンティクストークン、および画像 VAE トークンをシーケンスレベルで連結し、統一された入力ストリームとして処理することで、パラメータ効率を最大化しています。 Z-Image(Base)は、コミュニティ主導のファインチューニングおよびカスタム開発を目的として設計された、非蒸留型の基盤モデルです。 モデルの主な特長
  • 写真級のリアリズム品質:優れた美意識を維持しつつ、高い写真級のリアリズムを実現する画像生成性能
  • 正確なバイリンガルテキストレンダリング:複雑な中国語および英語テキストを正確に描画する能力に優れる
  • プロンプト強化および推論機能:プロンプトエンハンサーにより、モデルに推論能力を付与
  • ファインチューニング対応済み:カスタム学習および適応に最適なベースモデル
関連リンク

Z-Image のテキストから画像へのワークフロー

ワークフローのダウンロード

Z-Image のテキストから画像へのワークフロー JSON ファイルをダウンロードします。

ComfyUI Cloud で実行

このワークフローを ComfyUI Cloud 上で直接実行します。
Make sure your ComfyUI is updated.Workflows in this guide can be found in the Workflow Templates. If you can’t find them in the template, your ComfyUI may be outdated. (Desktop version’s update will delay sometime)If nodes are missing when loading a workflow, possible reasons:
  1. You are not using the latest ComfyUI version (Nightly version)
  2. Some nodes failed to import at startup

Z-Image モデルのダウンロード

qwen_3_4b.safetensors

Z-Image 用テキストエンコーダー。

z_image_bf16.safetensors

Z-Image 用拡散モデル。

ae.safetensors

Z-Image 用 VAE。
モデルの保存場所
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors