主要优势
- 全身关键点 — 在统一的模型中检测身体、手部、面部和脚部关键点
- 多人支持 — 在单张图像或视频中检测并标注多人
- 可配置的输出 — 可选择可视化哪些身体部位(身体、手部、面部、脚部),并控制骨架线宽和字体大小
- 边界框检测 — 包含对象检测,可调节阈值和类别选择
- 图像和视频支持 — 针对单张图像、视频和 OOD 姿态估计提供专门的工作流
局限性: 检测精度取决于图像分辨率和目标可见性。极度遮挡或非常小的目标可能产生较少的关键点。
SDPose 工作流
根据你的使用场景,提供了四种工作流:| 工作流 | 输入 | 输出 | 应用场景 |
|---|---|---|---|
| 多人(图像) | 单张图像 | 姿态图 + 边界框 | 多人照片 |
| 多人(视频) | 视频 | 逐帧姿态图 + 边界框 | 视频姿态追踪 |
| OOD 图像转姿态 | 单张图像 | 姿态图 | 风格迁移 / 图像转姿态 |
| OOD 视频转姿态图 | 视频 | 逐帧姿态图 | 视频转姿态动画 |
1. 下载工作流
将你的 ComfyUI 更新到最新版本,然后前往工作流 -> 浏览模板,在“Utility”类别下找到 SDPose 工作流。
多人(图像)
在 Comfy Cloud 中运行
下载图像工作流
下载 JSON
多人(视频)
在 Comfy Cloud 中运行
下载视频工作流
下载 JSON
OOD 图像转姿态
在 Comfy Cloud 中运行
下载 OOD 图像工作流
下载 JSON
OOD 视频转姿态图
在 Comfy Cloud 中运行
下载 OOD 视频工作流
下载 JSON
2. 下载模型
SDPose 和 RT-DETRv4 模型文件托管在 Comfy-Org SDPose 模型仓库 中。 checkpoints(SDPose 模型): diffusion_models(RT-DETRv4 检测器): 将模型放置在以下目录结构中:3. 使用工作流
多人(图像)
- 输入 — 通过
加载图像节点加载一张图像。使用包含一人或多人的图像(示例:group_photo.png)。 - 检测 —
Image to Pose Map (SDPose Multi-Person)子图处理图像并输出:- IMAGE — 叠加在图像上的姿态骨架可视化结果
- keypoints — 原始全身关键点数据
- bboxes — 边界框坐标
- 绘制选项 — 配置要绘制的身体部位:
draw_body、draw_hands、draw_face、draw_feet— 切换可见性stick_width、face_point_size— 调整视觉样式score_threshold— 显示关键点的最低置信度
- 检测选项:
resize_type.longer_size— 检测前对较长边进行缩放max_detections— 最大检测人数detect_threshold— 检测置信度阈值detect_class— 要检测的对象类别(默认:person)
多人(视频)
与图像工作流相同,但会顺序处理视频帧。使用加载视频 输入视频文件,并使用 保存视频 导出结果。
OOD 图像转姿态
利用 SDPose 模型从图像生成干净的人体姿态图,不包含边界框可视化。适用于风格迁移,即你想从一张图像中提取骨架姿态并应用到另一张图像上。OOD 视频转姿态图
从视频生成逐帧姿态图。输出是一个视频文件,其中每一帧都包含提取的姿态骨架,适用于下游动画或 ControlNet 工作流。了解子图
这些工作流使用子图节点进行模块化处理。请查阅子图文档,了解如何自定义和扩展工作流。
附加说明
- 模型目录 — SDPose 模型文件放在
models/checkpoints/中,RT-DETRv4 检测器放在models/diffusion_models/中 - 输入图像示例 — 工作流模板的
input/目录中提供了group_photo.png文件以供测试 - 关键点输出 — POSE_KEYPOINT 类型可以连接到接受姿态数据进行条件生成的下游节点
- 需要更新 — 较新的 ComfyUI 版本才支持 SDPose + RT-DETRv4。请确保你的 ComfyUI 是最新版本。