개요
VOID 비디오 개선 프로세스의 두 번째 패스(pass)를 위한 시간적 상관관계가 있는 노이즈를 생성합니다. 패스 1의 출력 비디오를 가져와 광학 흐름 벡터를 따라 가우시안 노이즈를 워핑(warping)하여 비디오 콘텐츠와 일관되게 움직이는 노이즈를 만듭니다. 이 워핑된 노이즈는 패스 2의 시작 잠재 변수(latent)로 사용되어 최종 출력의 시간적 일관성을 향상시킵니다.입력
| 매개변수 | 설명 | 데이터 타입 | 필수 여부 | 범위 |
|---|---|---|---|---|
optical_flow | OpticalFlowLoader(RAFT-large)의 광학 흐름 모델입니다. | MODEL | 예 | - |
video | 패스 1 출력 비디오 프레임 [T, H, W, 3]입니다. | IMAGE | 예 | - |
width | 출력 잠재 변수의 너비입니다 (기본값: 672). | INT | 예 | 16 ~ MAX_RESOLUTION (8단계) |
height | 출력 잠재 변수의 높이입니다 (기본값: 384). | INT | 예 | 16 ~ MAX_RESOLUTION (8단계) |
length | 픽셀 프레임 수입니다. latent_t를 짝수로 만들기 위해 내림 처리됩니다(patch_size_t=2 요구사항). 예: 49 → 45 (기본값: 45). | INT | 예 | 1 ~ MAX_RESOLUTION (1단계) |
batch_size | 생성할 동일한 노이즈 시퀀스의 개수입니다 (기본값: 1). | INT | 예 | 1 ~ 64 |
length 매개변수 참고: length 값은 짝수 latent_t 차원을 생성하는 가장 가까운 유효 값으로 자동 내림 처리됩니다. 이는 CogVideoX-Fun-V1.5 모델의 patch_size_t=2 제약 조건에 필요합니다. 내림이 발생하면 경고가 기록됩니다.
출력
| 출력 이름 | 설명 | 데이터 타입 |
|---|---|---|
warped_noise | 광학 흐름으로 워핑된 가우시안 노이즈를 포함하는 5D 텐서(B, C, T, H, W)로, VOID 패스 2의 초기 잠재 변수로 사용할 준비가 되었습니다. | LATENT |
이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집
Source fingerprint (SHA-256):
a0f986e54bcc6c455220f89f5d840585a9eae081e522ea11e0ce37ab46821bd9