跳转到主要内容
请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。
SDPose 是一种全身姿态检测模型,可从图像和视频中提取人体关键点。结合 RT-DETRv4 对象检测器,它支持多人检测和跨域(OOD)姿态估计,使其成为动画管线、姿态驱动生成和运动追踪工作流中的多功能工具。 SDPose + RT-DETRv4 已在 ComfyUI 中原生支持(PR #12748)。模型权重可在 Hugging Face 上获取。 Hugging Face 上的 SDPose 模型 | RT-DETRv4 论文 (arXiv) | SDPose 论文 (arXiv)

主要优势

  • 全身关键点 — 在统一的模型中检测身体、手部、面部和脚部关键点
  • 多人支持 — 在单张图像或视频中检测并标注多人
  • 可配置的输出 — 可选择可视化哪些身体部位(身体、手部、面部、脚部),并控制骨架线宽和字体大小
  • 边界框检测 — 包含对象检测,可调节阈值和类别选择
  • 图像和视频支持 — 针对单张图像、视频和 OOD 姿态估计提供专门的工作流
局限性: 检测精度取决于图像分辨率和目标可见性。极度遮挡或非常小的目标可能产生较少的关键点。

SDPose 工作流

根据你的使用场景,提供了四种工作流:
工作流输入输出应用场景
多人(图像)单张图像姿态图 + 边界框多人照片
多人(视频)视频逐帧姿态图 + 边界框视频姿态追踪
OOD 图像转姿态单张图像姿态图风格迁移 / 图像转姿态
OOD 视频转姿态图视频逐帧姿态图视频转姿态动画

1. 下载工作流

将你的 ComfyUI 更新到最新版本,然后前往 工作流 -> 浏览模板,在“Utility”类别下找到 SDPose 工作流。

多人(图像)

在 Comfy Cloud 中运行

下载图像工作流

下载 JSON

多人(视频)

在 Comfy Cloud 中运行

下载视频工作流

下载 JSON

OOD 图像转姿态

在 Comfy Cloud 中运行

下载 OOD 图像工作流

下载 JSON

OOD 视频转姿态图

在 Comfy Cloud 中运行

下载 OOD 视频工作流

下载 JSON

2. 下载模型

SDPose 和 RT-DETRv4 模型文件托管在 Comfy-Org SDPose 模型仓库 中。 checkpoints(SDPose 模型): diffusion_models(RT-DETRv4 检测器): 将模型放置在以下目录结构中:
📂 ComfyUI/
└── 📂 models/
    ├── 📂 checkpoints/
    │   └── sdpose_wholebody_fp16.safetensors
    └── 📂 diffusion_models/
        ├── rt_detr_v4-x-hgnet_fp16.safetensors
        └── rt_detr_v4-x-hgnet_fp32.safetensors

3. 使用工作流

多人(图像)

  • 输入 — 通过 加载图像 节点加载一张图像。使用包含一人或多人的图像(示例:group_photo.png)。
  • 检测Image to Pose Map (SDPose Multi-Person) 子图处理图像并输出:
    • IMAGE — 叠加在图像上的姿态骨架可视化结果
    • keypoints — 原始全身关键点数据
    • bboxes — 边界框坐标
  • 绘制选项 — 配置要绘制的身体部位:
    • draw_bodydraw_handsdraw_facedraw_feet — 切换可见性
    • stick_widthface_point_size — 调整视觉样式
    • score_threshold — 显示关键点的最低置信度
  • 检测选项
    • resize_type.longer_size — 检测前对较长边进行缩放
    • max_detections — 最大检测人数
    • detect_threshold — 检测置信度阈值
    • detect_class — 要检测的对象类别(默认:person)

多人(视频)

与图像工作流相同,但会顺序处理视频帧。使用 加载视频 输入视频文件,并使用 保存视频 导出结果。

OOD 图像转姿态

利用 SDPose 模型从图像生成干净的人体姿态图,不包含边界框可视化。适用于风格迁移,即你想从一张图像中提取骨架姿态并应用到另一张图像上。

OOD 视频转姿态图

从视频生成逐帧姿态图。输出是一个视频文件,其中每一帧都包含提取的姿态骨架,适用于下游动画或 ControlNet 工作流。

了解子图

这些工作流使用子图节点进行模块化处理。请查阅子图文档,了解如何自定义和扩展工作流。

附加说明

  • 模型目录 — SDPose 模型文件放在 models/checkpoints/ 中,RT-DETRv4 检测器放在 models/diffusion_models/
  • 输入图像示例 — 工作流模板的 input/ 目录中提供了 group_photo.png 文件以供测试
  • 关键点输出 — POSE_KEYPOINT 类型可以连接到接受姿态数据进行条件生成的下游节点
  • 需要更新 — 较新的 ComfyUI 版本才支持 SDPose + RT-DETRv4。请确保你的 ComfyUI 是最新版本。