メインコンテンツへスキップ
PixelDiT は NVIDIA が開発したピクセル空間拡散トランスフォーマーで、1024px のテキストから画像への生成を行います。従来の潜在空間で動作する拡散モデルとは異なり、PixelDiT はデュアルレベル DiT アーキテクチャを使用してピクセル空間で直接画像を生成します——パッチレベル DiT とピクセルレベル DiT を組み合わせ、MM-DiT フュージョンによるテキストと画像トークン間の joint attention を実現します。 モデルのハイライト
  • VAE不要 — ピクセル空間で直接生成、従来の VAE エンコード/デコードは不要
  • デュアルレベル DiT — パッチレベル DiT + ピクセルレベル DiT による高品質生成
  • マルチアスペクト比 — 1024px ベース解像度、複数のアスペクト比に対応
  • 約 1.3B パラメータ — コンシューマー GPU でも実行可能
  • ライセンス: NSCLv1(非商用研究/評価のみ)
関連リンク

PixelDiT テキストから画像へのワークフロー

PixelDiT テキストから画像へのワークフロー

ワークフローをダウンロード

JSON をダウンロード、またはテンプレートライブラリで “PixelDiT” を検索
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している
ワークフローは 3 つの主要ノードで構成されています:
  1. ResolutionSelector — 出力解像度を選択
  2. Text to Image (PixelDiT) サブグラフ — プロンプト、シード、モデル選択、解像度などの制御パラメータを外部公開したコア生成ノード
  3. SaveImage — 生成された画像を保存

サブグラフについて

このワークフローはサブグラフノードを使用してモジュール化された処理を行います。サブグラフのドキュメントを参照して、ワークフローをカスタマイズおよび拡張する方法を学んでください。

ワークフローコントロール

Text to Image (PixelDiT) サブグラフノードで外部公開されているコントロール:
コントロール説明
Positive Prompt生成したい画像を説明するテキストプロンプト
Negative Prompt生成画像で避けたい内容を説明するテキスト
Seed再現性のためのランダムシード
UNet ModelPixelDiT モデルチェックポイントの選択
CLIP Modelテキストエンコーダーモデルの選択

モデルダウンロード

PixelDiT はテキストエンコーダーと拡散モデルの 2 つのモデルファイルを使用します。

テキストエンコーダー

gemma_2_2b_it_elm_bf16.safetensors — Gemma-2-2B-IT テキストエンコーダー

拡散モデル

pixeldit_1300m_1024px_bf16.safetensors — PixelDiT 1300M 1024px 拡散モデル

モデル保存場所

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── gemma_2_2b_it_elm_bf16.safetensors
│   └── 📂 diffusion_models/
│          └── pixeldit_1300m_1024px_bf16.safetensors