跳转到主要内容

ComfyUI Depth Anything 3 简介

Depth Anything 3 (DA3) 来自字节跳动豆包团队,是一个视觉 Transformer,能够从任意视觉输入中恢复空间一致的几何信息,无论是否具有已知的相机位姿。单个 DINO 编码器和统一的深度-射线表示使得同一模型家族能够覆盖单目深度、多视角深度、相机位姿估计和 3D 重建。 主要能力:
  • 统一单目与多视角深度:从单张图像或多张图像估计深度
  • 相机位姿估计:从无序图像集合中恢复相机位置
  • 3D 重建:支持多视角输入
  • 视频深度估计:为视频输入生成逐帧深度序列
  • 多种模型变体:Small、Base、Mono/Metric Large
请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。
ComfyUI 现已原生支持 Depth Anything 3 节点。开始前请确保已更新到最新版本的 ComfyUI

模型下载

下载 Depth Anything 3 的模型文件并将其保存到对应的 ComfyUI 文件夹:
ComfyUI/
├── models/
│   ├── geometry_estimation/
│   │   ├── depth_anything_3_small.safetensors
│   │   ├── depth_anything_3_base.safetensors
│   │   ├── depth_anything_3_mono_large.safetensors
│   │   └── depth_anything_3_metric_large.safetensors

示例工作流


1. 图像深度估计

功能说明: 上传一张图像,使用 Image Depth Estimation (Depth Anything 3) 生成深度图。结果在 Depth Preview 中显示,提供原始图像与深度输出的并排对比视图。

下载工作流

下载 JSON 或在模板库中搜索 “Depth Anything 3”

下载示例图片

获取此工作流的示例输入图片
图像深度估计输出图像深度估计对比

运行步骤

  1. LoadImage — 加载输入图像
  2. LoadDA3Model — 选择 Depth Anything 3 变体
  3. 运行 — 点击 Queue 或使用 Cmd+Enter
  4. 工作流输出深度图和并排比较结果

了解子图

此工作流使用子图节点进行模块化处理。查看子图文档了解如何自定义和扩展工作流。

2. 视频深度估计

功能说明: 上传一个视频,运行 Video Depth Estimation (Depth Anything 3) 生成逐帧深度序列。在子图内部,GetVideoComponents 将输入视频拆分为帧,LoadDA3Model 加载模型,SetVideoComponents 将深度帧重新组合为视频输出。

下载工作流

下载 JSON 或在模板库中搜索 “Depth Anything 3”

在 Comfy Cloud 运行

在 Comfy Cloud 中打开
视频深度估计预览

运行步骤

  1. LoadVideo — 加载输入视频
  2. 选择模型 — 在 SmallBaseMono-LargeMetric-Large 中选择
  3. 运行 — 点击 Queue 或使用 Cmd+Enter
  4. 工作流输出逐帧深度图视频

了解子图

此工作流使用子图节点进行模块化处理。查看子图文档了解如何自定义和扩展工作流。

模型变体

变体head_type天空检测置信度相机解码最佳用途
Smalldualdpt快速推理、移动/边缘设备
Basedualdpt均衡性能
Mono-Largedpt带天空检测的单目深度
Metric-Largedpt物理度量深度(米级输出)
  • SmallBase 使用 dualdpt 头类型,支持置信度估计和相机解码器,适用于多视角应用。
  • Mono-LargeMetric-Large 使用 dpt 头类型,支持天空检测。Metric-Large 输出原始米级深度。

社区资源