跳转到主要内容
PixelDiT 是 NVIDIA 开发的像素空间扩散变换器,用于 1024px 文本到图像生成。与传统在潜空间操作的扩散模型不同,PixelDiT 使用双层 DiT 架构直接在像素空间生成图像——结合了 patch 级 DiT 和像素级 DiT,并通过 MM-DiT 融合实现文本和图像 token 之间的联合注意力。 模型亮点
  • 无需 VAE — 直接在像素空间生成,无需传统的 VAE 编解码
  • 双层 DiT — patch 级 DiT + 像素级 DiT,实现高质量生成
  • 多宽高比 — 1024px 基准分辨率,支持多种宽高比
  • 约 1.3B 参数 — 消费级 GPU 即可运行
  • 许可协议:NSCLv1(仅限非商业研究/评估使用)
相关链接

PixelDiT 文生图工作流

PixelDiT 文生图工作流

下载工作流

下载 JSON 或在模板库中搜索 “PixelDiT”
请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。
工作流由三个主要节点组成:
  1. ResolutionSelector — 选择所需的输出分辨率
  2. 文生图 (PixelDiT) 子图 — 核心生成节点,暴露了提示词、种子、模型选择和分辨率等控制参数
  3. SaveImage — 保存生成的图像

了解子图

本工作流使用子图节点进行模块化处理。查看子图文档了解如何自定义和扩展工作流。

工作流控制参数

文生图 (PixelDiT) 子图节点暴露的控件包括:
控制参数说明
Positive Prompt描述你想要生成的图像的文本提示词
Negative Prompt描述要避免的内容的文本
Seed用于结果可复现的随机种子
UNet ModelPixelDiT 模型检查点选择
CLIP Model文本编码器模型选择

模型下载

PixelDiT 使用两个模型文件:文本编码器和扩散模型。

文本编码器

gemma_2_2b_it_elm_bf16.safetensors — Gemma-2-2B-IT 文本编码器

扩散模型

pixeldit_1300m_1024px_bf16.safetensors — PixelDiT 1300M 1024px 扩散模型

模型存放位置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── gemma_2_2b_it_elm_bf16.safetensors
│   └── 📂 diffusion_models/
│          └── pixeldit_1300m_1024px_bf16.safetensors