ComfyUI Depth Anything 3 소개
Depth Anything 3 (DA3)은 ByteDance Seed의 비전 트랜스포머로, 카메라 포즈 유무와 관계없이 임의의 시각적 입력으로부터 공간적으로 일관된 기하학 정보를 복원합니다. 단일 DINO 인코더와 통합된 깊이-레이 표현을 통해 동일한 모델 패밀리로 단일 뷰 깊이, 다중 뷰 깊이, 카메라 포즈 추정 및 3D 재구성을 모두 처리합니다. 주요 기능:- 통합 단일/다중 뷰 깊이: 단일 또는 여러 이미지에서 깊이 추정
- 카메라 포즈 추정: 순서 없는 이미지 세트에서 카메라 위치 복원
- 3D 재구성: 다중 뷰 입력 지원
- 비디오 깊이 추정: 비디오 입력에 대한 프레임별 깊이 시퀀스 생성
- 여러 모델 변형: Small, Base, Mono/Metric Large
모델 설치
Depth Anything 3 체크포인트를 다운로드하여 해당 ComfyUI 폴더에 저장합니다:- Small (depth_anything_3_small.safetensors) — 가볍고 빠른 추론
- Base (depth_anything_3_base.safetensors) — 균형 잡힌 성능
- Mono-Large (depth_anything_3_mono_large.safetensors) — 단일 뷰 깊이에 최적 (하늘 감지 포함)
- Metric-Large (depth_anything_3_metric_large.safetensors) — 미터 단위의 물리적 깊이 (하늘 감지 포함)
예제 워크플로우
1. 이미지 깊이 추정
기능 설명: 이미지 1장을 업로드하고 **Image Depth Estimation (Depth Anything 3)**을 실행하여 깊이 맵을 생성합니다. Depth Preview에 원본 이미지와 깊이 출력의 나란히 비교 결과가 표시됩니다.워크플로우 다운로드
JSON 다운로드 또는 템플릿 라이브러리에서 “Depth Anything 3” 검색
샘플 이미지 다운로드
이 워크플로우의 예제 입력 이미지 가져오기


실행 단계
- LoadImage — 입력 이미지 로드
- LoadDA3Model — Depth Anything 3 변형 선택
- 실행 — Queue 클릭 또는
Cmd+Enter - 워크플로우가 깊이 맵과 나란히 비교 결과 출력
서브그래프 알아보기
이 워크플로우는 모듈식 처리를 위해 서브그래프 노드를 사용합니다. 서브그래프 사용자 지정 및 확장에 대한 자세한 내용은 서브그래프 문서를 확인하세요.
2. 비디오 깊이 추정
기능 설명: 비디오를 업로드하고 **Video Depth Estimation (Depth Anything 3)**을 실행하여 프레임별 깊이 시퀀스를 생성합니다. 서브그래프 내에서 GetVideoComponents가 입력 비디오를 프레임으로 분할하고, LoadDA3Model이 모델을 로드하며, SetVideoComponents가 깊이 프레임을 비디오로 재구성합니다.워크플로우 다운로드
JSON 다운로드 또는 템플릿 라이브러리에서 “Depth Anything 3” 검색
Comfy Cloud에서 실행
Comfy Cloud에서 열기
실행 단계
- LoadVideo — 입력 비디오 로드
- 모델 선택 — Small, Base, Mono-Large 또는 Metric-Large 중 선택
- 실행 — Queue 클릭 또는
Cmd+Enter - 워크플로우가 프레임별 깊이 맵 비디오 출력
서브그래프 알아보기
이 워크플로우는 모듈식 처리를 위해 서브그래프 노드를 사용합니다. 서브그래프 사용자 지정 및 확장에 대한 자세한 내용은 서브그래프 문서를 확인하세요.
모델 변형
| 변형 | head_type | 하늘 감지 | 신뢰도 | 카메라 디코더 | 최적 용도 |
|---|---|---|---|---|---|
| Small | dualdpt | ❌ | ✅ | ✅ | 빠른 추론, 모바일/엣지 |
| Base | dualdpt | ❌ | ✅ | ✅ | 균형 잡힌 성능 |
| Mono-Large | dpt | ✅ | ❌ | ❌ | 하늘 감지 지원 단일 뷰 깊이 |
| Metric-Large | dpt | ✅ | ❌ | ❌ | 미터 단위 물리적 깊이 |
- Small과 Base는
dualdpt헤드 유형을 사용하며, 신뢰도 추정 및 카메라 디코더를 지원합니다(다중 뷰 애플리케이션용). - Mono-Large와 Metric-Large는
dpt헤드 유형을 사용하며, 하늘 감지를 지원합니다. Metric-Large는 미터 단위의 원시 깊이를 출력합니다。
커뮤니티 리소스
- Depth Anything 3 GitHub (ByteDance-Seed) — 연구 논문 및 코드
- Comfy-Org/Depth-Anything-3 — 공식 ComfyUI 모델 가중치