ComfyUI Depth Anything 3 概要

Depth Anything 3 (DA3) は、ByteDance Seed が開発したビジョントランスフォーマーで、カメラポーズの有無にかかわらず、任意のビジュアル入力から空間的に一貫したジオメトリを復元します。単一の DINO エンコーダと統一された深度-レイ表現により、同一モデルファミリーで単眼深度、多視点深度、カメラポーズ推定、3D 再構築をカバーします。主な機能：

統一された単眼・多視点深度：単一または複数の画像から深度を推定
カメラポーズ推定：順序なし画像セットからカメラ位置を復元
3D 再構築：多視点入力をサポート
動画深度推定：動画入力のフレームごとの深度シーケンスを生成
複数のモデルバリアント：Small、Base、Mono/Metric Large

ポータブル版または自宅サーバーで実行しているユーザー
デスクトップ版またはクラウド版ユーザー

ComfyUI が最新版に更新されていることを確認してください。

このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。（デスクトップ版の更新は若干遅れることがあります）ワークフローを読み込んだ際にノードが欠落している場合の主な原因：

最新の ComfyUI（Nightly 版）を使用していない
起動時に一部のノードのインポートに失敗している

ComfyUI は Depth Anything 3 ノードをネイティブサポートしています。始める前に ComfyUI を最新バージョンに更新してください。

モデルインストール

Depth Anything 3 チェックポイントをダウンロードし、対応する ComfyUI フォルダに保存します：

Small (depth_anything_3_small.safetensors) — 軽量で高速な推論
Base (depth_anything_3_base.safetensors) — バランスの取れた性能
Mono-Large (depth_anything_3_mono_large.safetensors) — 単眼深度に最適（空検出対応）
Metric-Large (depth_anything_3_metric_large.safetensors) — メートル単位の物理深度（空検出対応）

ComfyUI/
├── models/
│   ├── geometry_estimation/
│   │   ├── depth_anything_3_small.safetensors
│   │   ├── depth_anything_3_base.safetensors
│   │   ├── depth_anything_3_mono_large.safetensors
│   │   └── depth_anything_3_metric_large.safetensors

サンプルワークフロー

1. 画像深度推定

機能説明： 1 枚の画像をアップロードし、Image Depth Estimation (Depth Anything 3) を実行して深度マップを生成します。Depth Preview に元画像と深度出力のサイドバイサイド比較が表示されます。

ワークフローをダウンロード

JSON をダウンロードまたはテンプレートライブラリで “Depth Anything 3” を検索

サンプル画像をダウンロード

このワークフローのサンプル入力画像を取得

実行手順

LoadImage — 入力画像を読み込む
LoadDA3Model — Depth Anything 3 バリアントを選択
実行 — Queue をクリックするか Cmd+Enter を押す
ワークフローが深度マップと並列比較を出力

サブグラフについて

このワークフローはモジュール処理にサブグラフノードを使用しています。サブグラフのカスタマイズと拡張についてはサブグラフのドキュメントをご覧ください。

2. 動画深度推定

機能説明： 動画をアップロードし、Video Depth Estimation (Depth Anything 3) を実行してフレームごとの深度シーケンスを生成します。サブグラフ内では GetVideoComponents が入力動画をフレームに分割し、LoadDA3Model がモデルを読み込み、SetVideoComponents が深度フレームを動画に再構成します。

ワークフローをダウンロード

JSON をダウンロードまたはテンプレートライブラリで “Depth Anything 3” を検索

Comfy Cloud で実行

Comfy Cloud で開く

実行手順

LoadVideo — 入力動画を読み込む
モデルを選択 — Small、Base、Mono-Large、Metric-Large から選択
実行 — Queue をクリックするか Cmd+Enter を押す
ワークフローがフレームごとの深度マップ動画を出力

サブグラフについて

モデルバリアント

バリアント	head_type	空検出	信頼度	カメラデコーダ	最適な用途
Small	dualdpt	❌	✅	✅	高速推論、モバイル/エッジ
Base	dualdpt	❌	✅	✅	バランスの取れた性能
Mono-Large	dpt	✅	❌	❌	空検出対応の単眼深度
Metric-Large	dpt	✅	❌	❌	メートル単位の物理深度

Small と Base は dualdpt ヘッドタイプを使用し、信頼度推定とカメラデコーダをサポート（多視点アプリケーション向け）。
Mono-Large と Metric-Large は dpt ヘッドタイプを使用し、空検出に対応。Metric-Large はメートル単位の生深度を出力。

コミュニティリソース

Depth Anything 3 GitHub (ByteDance-Seed) — 研究論文とコード
Comfy-Org/Depth-Anything-3 — 公式 ComfyUI モデル重み

​ComfyUI Depth Anything 3 概要

​モデルインストール

​サンプルワークフロー

​1. 画像深度推定

ワークフローをダウンロード

サンプル画像をダウンロード

​実行手順

サブグラフについて

​2. 動画深度推定

ワークフローをダウンロード

Comfy Cloud で実行

​実行手順

サブグラフについて

​モデルバリアント

​コミュニティリソース

ComfyUI Depth Anything 3 概要

モデルインストール

サンプルワークフロー

1. 画像深度推定

実行手順

2. 動画深度推定

実行手順

モデルバリアント

コミュニティリソース