메인 콘텐츠로 건너뛰기

개요

VOID 비디오 개선 프로세스의 두 번째 패스(pass)를 위한 시간적 상관관계가 있는 노이즈를 생성합니다. 패스 1의 출력 비디오를 가져와 광학 흐름 벡터를 따라 가우시안 노이즈를 워핑(warping)하여 비디오 콘텐츠와 일관되게 움직이는 노이즈를 만듭니다. 이 워핑된 노이즈는 패스 2의 시작 잠재 변수(latent)로 사용되어 최종 출력의 시간적 일관성을 향상시킵니다.

입력

매개변수설명데이터 타입필수 여부범위
optical_flowOpticalFlowLoader(RAFT-large)의 광학 흐름 모델입니다.MODEL-
video패스 1 출력 비디오 프레임 [T, H, W, 3]입니다.IMAGE-
width출력 잠재 변수의 너비입니다 (기본값: 672).INT16 ~ MAX_RESOLUTION (8단계)
height출력 잠재 변수의 높이입니다 (기본값: 384).INT16 ~ MAX_RESOLUTION (8단계)
length픽셀 프레임 수입니다. latent_t를 짝수로 만들기 위해 내림 처리됩니다(patch_size_t=2 요구사항). 예: 49 → 45 (기본값: 45).INT1 ~ MAX_RESOLUTION (1단계)
batch_size생성할 동일한 노이즈 시퀀스의 개수입니다 (기본값: 1).INT1 ~ 64
length 매개변수 참고: length 값은 짝수 latent_t 차원을 생성하는 가장 가까운 유효 값으로 자동 내림 처리됩니다. 이는 CogVideoX-Fun-V1.5 모델의 patch_size_t=2 제약 조건에 필요합니다. 내림이 발생하면 경고가 기록됩니다.

출력

출력 이름설명데이터 타입
warped_noise광학 흐름으로 워핑된 가우시안 노이즈를 포함하는 5D 텐서(B, C, T, H, W)로, VOID 패스 2의 초기 잠재 변수로 사용할 준비가 되었습니다.LATENT
이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! GitHub에서 편집

Source fingerprint (SHA-256): a0f986e54bcc6c455220f89f5d840585a9eae081e522ea11e0ce37ab46821bd9