입력
| 매개변수 | 설명 | 데이터 타입 | 필수 | 범위 |
|---|---|---|---|---|
clip_vision | 이미지 특징을 인코딩하는 데 사용되는 CLIP 비전 모델 | CLIP_VISION | 예 | - |
초기 이미지 | 처리 및 인코딩할 입력 이미지 | IMAGE | 예 | - |
vae | 픽셀을 잠재 공간으로 인코딩하는 데 사용되는 VAE 모델 | VAE | 예 | - |
너비 | 잠재 표현의 출력 너비 (기본값: 256, 8로 나누어 떨어져야 함) | INT | 예 | 16 ~ MAX_RESOLUTION |
높이 | 잠재 표현의 출력 높이 (기본값: 256, 8로 나누어 떨어져야 함) | INT | 예 | 16 ~ MAX_RESOLUTION |
배치 크기 | 배치에서 생성할 샘플 수 (기본값: 1) | INT | 예 | 1 ~ 4096 |
고도 | 카메라 고도 각도 (도 단위, 기본값: 0.0) | FLOAT | 예 | -180.0 ~ 180.0 |
방위각 | 카메라 방위각 (도 단위, 기본값: 0.0) | FLOAT | 예 | -180.0 ~ 180.0 |
width 및 height 매개변수는 8로 나누어 떨어져야 합니다. 노드가 잠재 표현 차원을 생성하기 위해 자동으로 이 값을 8로 나누기 때문입니다.
출력
| 출력 이름 | 설명 | 데이터 타입 |
|---|---|---|
부정 조건 | 이미지 특징과 카메라 임베딩을 결합한 양성 컨디셔닝 데이터 | CONDITIONING |
잠재 데이터 | 0으로 초기화된 특징을 가진 음성 컨디셔닝 데이터 | CONDITIONING |
latent | [batch_size, 4, height//8, width//8] 차원의 잠재 표현 | LATENT |
이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집
Source fingerprint (SHA-256):
a9d6619c800119c9a619665f322d49ded1478ceb40df56ca5707b31242cb0e47