SDPose: ComfyUIでのポーズ検出

ポータブル版または自宅サーバーで実行しているユーザー
デスクトップ版またはクラウド版ユーザー

ComfyUI が最新版に更新されていることを確認してください。

このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。（デスクトップ版の更新は若干遅れることがあります）ワークフローを読み込んだ際にノードが欠落している場合の主な原因：

最新の ComfyUI（Nightly 版）を使用していない
起動時に一部のノードのインポートに失敗している

SDPoseは全身のポーズ検出モデルで、画像や動画から人間のキーポイントを抽出します。RT-DETRv4物体検出器と組み合わせることで、複数人の検出やドメイン外 (OOD) のポーズ推定をサポートし、アニメーションパイプライン、ポーズ駆動型生成、モーショントラッキングのワークフローに適した多用途ツールです。 SDPose + RT-DETRv4 は ComfyUI にネイティブサポートされています (PR #12748)。モデルの重みは Hugging Face で入手可能です。 Hugging Face の SDPose モデル | RT-DETRv4 論文 (arXiv) | SDPose 論文 (arXiv)

主な強み

全身キーポイント: 体、手、顔、足のキーポイントを1つの統合モデルで検出
複数人対応: 1枚の画像や動画から複数人を検出し、ラベル付け
設定可能な出力: 可視化する身体部位 (体、手、顔、足) を選択し、スティックやフォントサイズを制御可能
バウンディングボックス検出: 調整可能なしきい値とクラス選択による物体検出を含む
画像と動画のサポート: 静止画、動画、OODポーズ推定向けの専用ワークフロー

制限事項: 検出精度は画像の解像度と被写体の視認性に依存します。極端に隠れている場合や非常に小さい被写体では、得られるキーポイントが少なくなることがあります。

SDPose ワークフロー

ユースケースに応じて4つのワークフローが利用可能です:

ワークフロー	入力	出力	用途
複数人 (画像)	1枚の画像	ポーズマップ + バウンディングボックス	複数人が写った写真
複数人 (動画)	動画	フレーム単位のポーズマップ + バウンディングボックス	動画のポーズトラッキング
OOD 画像からポーズ	1枚の画像	ポーズマップ	スタイル転送 / 画像からポーズ
OOD 動画からポーズマップ	動画	フレーム単位のポーズマップ	動画からポーズアニメーション

1. ワークフローのダウンロード

ComfyUIを最新バージョンにアップデートし、Workflow → Browse Templates から、UtilityカテゴリにあるSDPoseワークフローを探してください。

複数人 (画像)

Run in Comfy Cloud

画像ワークフローのダウンロード

JSONをダウンロード

複数人 (動画)

Run in Comfy Cloud

動画ワークフローのダウンロード

JSONをダウンロード

OOD 画像からポーズ

Run in Comfy Cloud

OOD画像ワークフローのダウンロード

JSONをダウンロード

OOD 動画からポーズマップ

Run in Comfy Cloud

OOD動画ワークフローのダウンロード

JSONをダウンロード

2. モデルのダウンロード

SDPoseとRT-DETRv4のモデルチェックポイントは、Comfy-Org SDPose モデルリポジトリで公開されています。 checkpoints (SDPoseモデル):

sdpose_wholebody_fp16.safetensors

diffusion_models (RT-DETRv4検出器):

rt_detr_v4-x-hgnet_fp16.safetensors (推奨)
rt_detr_v4-x-hgnet_fp32.safetensors (完全精度、サイズ大)

以下のディレクトリ構成に配置してください:

📂 ComfyUI/
└── 📂 models/
    ├── 📂 checkpoints/
    │   └── sdpose_wholebody_fp16.safetensors
    └── 📂 diffusion_models/
        ├── rt_detr_v4-x-hgnet_fp16.safetensors
        └── rt_detr_v4-x-hgnet_fp32.safetensors

3. ワークフローの使い方

複数人 (画像)

入力 — Load Image ノードで画像を読み込みます。1人以上の人物が写った画像を使用してください (例: group_photo.png)。
検出 — Image to Pose Map (SDPose Multi-Person) サブグラフが画像を処理し、以下を出力します:
- IMAGE — 画像に重ね合わされたポーズスケルトンの可視化
- keypoints — 生の全身キーポイントデータ
- bboxes — バウンディングボックス座標
描画オプション — 描画する身体部位の設定:
- draw_body、draw_hands、draw_face、draw_feet — 表示の切り替え
- stick_width、face_point_size — 視覚スタイルの調整
- score_threshold — キーポイント表示の最小信頼度
検出オプション:
- resize_type.longer_size — 検出前に長辺のサイズをスケーリング
- max_detections — 検出する最大人数
- detect_threshold — 検出の信頼度しきい値
- detect_class — 検出するオブジェクトクラス (デフォルト: person)

複数人 (動画)

画像ワークフローと同様ですが、動画のフレームを順次処理します。動画ファイルの入力には Load Video を、結果の出力には Save Video を使用してください。

OOD 画像からポーズ

SDPoseモデルを使用して、バウンディングボックス表示なしで画像からクリーンなポーズマップを生成します。スタイル転送で、ある画像からスケルトンポーズを抽出して別の画像に適用したい場合に便利です。

OOD 動画からポーズマップ

動画からフレームごとのポーズマップを生成します。出力は、抽出されたポーズスケルトンを含む各フレームの動画ファイルで、下流のアニメーションやControlNetワークフローに適しています。

Subgraphについて学ぶ

これらのワークフローはモジュール処理のためにSubgraphノードを使用しています。ワークフローをカスタマイズして拡張する方法については、Subgraphのドキュメントをご覧ください。

補足情報

モデルディレクトリ: SDPoseチェックポイントは models/checkpoints/ に、RT-DETRv4検出器は models/diffusion_models/ に配置します
入力画像の例: テスト用に、ワークフローテンプレートの input/ ディレクトリに group_photo.png ファイルが用意されています
キーポイント出力: POSE_KEYPOINTタイプは、条件付き生成のためにポーズデータを受け付ける下流ノードに接続できます
アップデート必須: SDPose + RT-DETRv4のサポートは最新版のComfyUIで利用可能です。ComfyUIが最新であることを確認してください

​主な強み

​SDPose ワークフロー

​1. ワークフローのダウンロード

複数人 (画像)

画像ワークフローのダウンロード

複数人 (動画)

動画ワークフローのダウンロード

OOD 画像からポーズ

OOD画像ワークフローのダウンロード

OOD 動画からポーズマップ

OOD動画ワークフローのダウンロード

​2. モデルのダウンロード

​3. ワークフローの使い方

​複数人 (画像)

​複数人 (動画)

​OOD 画像からポーズ

​OOD 動画からポーズマップ

Subgraphについて学ぶ

​補足情報

主な強み

SDPose ワークフロー

1. ワークフローのダウンロード

2. モデルのダウンロード

3. ワークフローの使い方

複数人 (画像)

複数人 (動画)

OOD 画像からポーズ

OOD 動画からポーズマップ

補足情報