ComfyUI Depth Anything 3 简介
Depth Anything 3 (DA3) 来自字节跳动豆包团队,是一个视觉 Transformer,能够从任意视觉输入中恢复空间一致的几何信息,无论是否具有已知的相机位姿。单个 DINO 编码器和统一的深度-射线表示使得同一模型家族能够覆盖单目深度、多视角深度、相机位姿估计和 3D 重建。 主要能力:- 统一单目与多视角深度:从单张图像或多张图像估计深度
- 相机位姿估计:从无序图像集合中恢复相机位置
- 3D 重建:支持多视角输入
- 视频深度估计:为视频输入生成逐帧深度序列
- 多种模型变体:Small、Base、Mono/Metric Large
模型下载
下载 Depth Anything 3 的模型文件并将其保存到对应的 ComfyUI 文件夹:- Small (depth_anything_3_small.safetensors) — 轻量快速推理
- Base (depth_anything_3_base.safetensors) — 平衡性能
- Mono-Large (depth_anything_3_mono_large.safetensors) — 最佳单目深度,含天空检测
- Metric-Large (depth_anything_3_metric_large.safetensors) — 物理度量深度(米级)
示例工作流
1. 图像深度估计
功能说明: 上传一张图像,使用 Image Depth Estimation (Depth Anything 3) 生成深度图。结果在 Depth Preview 中显示,提供原始图像与深度输出的并排对比视图。下载工作流
下载 JSON 或在模板库中搜索 “Depth Anything 3”
下载示例图片
获取此工作流的示例输入图片


运行步骤
- LoadImage — 加载输入图像
- LoadDA3Model — 选择 Depth Anything 3 变体
- 运行 — 点击 Queue 或使用
Cmd+Enter - 工作流输出深度图和并排比较结果
了解子图
此工作流使用子图节点进行模块化处理。查看子图文档了解如何自定义和扩展工作流。
2. 视频深度估计
功能说明: 上传一个视频,运行 Video Depth Estimation (Depth Anything 3) 生成逐帧深度序列。在子图内部,GetVideoComponents 将输入视频拆分为帧,LoadDA3Model 加载模型,SetVideoComponents 将深度帧重新组合为视频输出。下载工作流
下载 JSON 或在模板库中搜索 “Depth Anything 3”
在 Comfy Cloud 运行
在 Comfy Cloud 中打开
运行步骤
- LoadVideo — 加载输入视频
- 选择模型 — 在 Small、Base、Mono-Large 或 Metric-Large 中选择
- 运行 — 点击 Queue 或使用
Cmd+Enter - 工作流输出逐帧深度图视频
了解子图
此工作流使用子图节点进行模块化处理。查看子图文档了解如何自定义和扩展工作流。
模型变体
| 变体 | head_type | 天空检测 | 置信度 | 相机解码 | 最佳用途 |
|---|---|---|---|---|---|
| Small | dualdpt | ❌ | ✅ | ✅ | 快速推理、移动/边缘设备 |
| Base | dualdpt | ❌ | ✅ | ✅ | 均衡性能 |
| Mono-Large | dpt | ✅ | ❌ | ❌ | 带天空检测的单目深度 |
| Metric-Large | dpt | ✅ | ❌ | ❌ | 物理度量深度(米级输出) |
- Small 和 Base 使用
dualdpt头类型,支持置信度估计和相机解码器,适用于多视角应用。 - Mono-Large 和 Metric-Large 使用
dpt头类型,支持天空检测。Metric-Large 输出原始米级深度。
社区资源
- Depth Anything 3 GitHub (ByteDance-Seed) — 研究论文和代码
- Comfy-Org/Depth-Anything-3 — 官方 ComfyUI 模型权重