- VAE不要 — ピクセル空間で直接生成、従来の VAE エンコード/デコードは不要
- デュアルレベル DiT — パッチレベル DiT + ピクセルレベル DiT による高品質生成
- マルチアスペクト比 — 1024px ベース解像度、複数のアスペクト比に対応
- 約 1.3B パラメータ — コンシューマー GPU でも実行可能
- ライセンス: NSCLv1(非商用研究/評価のみ)
PixelDiT テキストから画像へのワークフロー
ワークフローをダウンロード
JSON をダウンロード、またはテンプレートライブラリで “PixelDiT” を検索
- ResolutionSelector — 出力解像度を選択
- Text to Image (PixelDiT) サブグラフ — プロンプト、シード、モデル選択、解像度などの制御パラメータを外部公開したコア生成ノード
- SaveImage — 生成された画像を保存
サブグラフについて
このワークフローはサブグラフノードを使用してモジュール化された処理を行います。サブグラフのドキュメントを参照して、ワークフローをカスタマイズおよび拡張する方法を学んでください。
ワークフローコントロール
Text to Image (PixelDiT) サブグラフノードで外部公開されているコントロール:| コントロール | 説明 |
|---|---|
| Positive Prompt | 生成したい画像を説明するテキストプロンプト |
| Negative Prompt | 生成画像で避けたい内容を説明するテキスト |
| Seed | 再現性のためのランダムシード |
| UNet Model | PixelDiT モデルチェックポイントの選択 |
| CLIP Model | テキストエンコーダーモデルの選択 |
モデルダウンロード
PixelDiT はテキストエンコーダーと拡散モデルの 2 つのモデルファイルを使用します。テキストエンコーダー
gemma_2_2b_it_elm_bf16.safetensors — Gemma-2-2B-IT テキストエンコーダー
拡散モデル
pixeldit_1300m_1024px_bf16.safetensors — PixelDiT 1300M 1024px 拡散モデル