PixelDiT ComfyUI 工作流示例

PixelDiT 是 NVIDIA 开发的像素空间扩散变换器，用于 1024px 文本到图像生成。与传统在潜空间操作的扩散模型不同，PixelDiT 使用双层 DiT 架构直接在像素空间生成图像——结合了 patch 级 DiT 和像素级 DiT，并通过 MM-DiT 融合实现文本和图像 token 之间的联合注意力。 模型亮点：

无需 VAE — 直接在像素空间生成，无需传统的 VAE 编解码
双层 DiT — patch 级 DiT + 像素级 DiT，实现高质量生成
多宽高比 — 1024px 基准分辨率，支持多种宽高比
约 1.3B 参数 — 消费级 GPU 即可运行
许可协议：NSCLv1（仅限非商业研究/评估使用）

相关链接：

PixelDiT 文生图工作流

下载工作流

下载 JSON 或在模板库中搜索 “PixelDiT”

便携版或手动安装用户
桌面版或云端用户

请确保你的 ComfyUI 已经更新。

本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到，可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失，可能原因有：

你用的不是最新开发版（nightly）。
你用的是稳定版或桌面版（没有包含最新的更新）。
启动时有些节点导入失败。

工作流由三个主要节点组成：

ResolutionSelector — 选择所需的输出分辨率
文生图 (PixelDiT) 子图 — 核心生成节点，暴露了提示词、种子、模型选择和分辨率等控制参数
SaveImage — 保存生成的图像

了解子图

本工作流使用子图节点进行模块化处理。查看子图文档了解如何自定义和扩展工作流。

工作流控制参数

文生图 (PixelDiT) 子图节点暴露的控件包括：

控制参数	说明
Positive Prompt	描述你想要生成的图像的文本提示词
Negative Prompt	描述要避免的内容的文本
Seed	用于结果可复现的随机种子
UNet Model	PixelDiT 模型检查点选择
CLIP Model	文本编码器模型选择

模型下载

PixelDiT 使用两个模型文件：文本编码器和扩散模型。

文本编码器

gemma_2_2b_it_elm_bf16.safetensors — Gemma-2-2B-IT 文本编码器

扩散模型

pixeldit_1300m_1024px_bf16.safetensors — PixelDiT 1300M 1024px 扩散模型

模型存放位置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── gemma_2_2b_it_elm_bf16.safetensors
│   └── 📂 diffusion_models/
│          └── pixeldit_1300m_1024px_bf16.safetensors

Lens ComfyUI 工作流示例

ComfyUI Ideogram 4.0 开源模型教程

⌘I

​PixelDiT 文生图工作流