메인 콘텐츠로 건너뛰기
훈위안 비디오 시리즈는 텐센트가 개발하고 오픈소스화한 것으로, 13B의 파라미터 규모를 갖춘 하이브리드 아키텍처를 특징으로 하며, 텍스트-투-비디오이미지-투-비디오 생성을 모두 지원합니다. 기술적 특징:
  • 핵심 아키텍처: Sora와 유사한 DiT(Diffusion Transformer) 아키텍처를 사용하며, 텍스트, 이미지, 모션 정보를 효과적으로 융합해 생성된 비디오 프레임 간의 일관성, 품질 및 정렬성을 향상시킵니다. 통합된 풀 어텐션 메커니즘은 다중 뷰 카메라 전환을 가능하게 하면서도 주제의 일관성을 보장합니다.
  • 3D VAE: 맞춤형 3D VAE는 비디오를 압축된 잠재공간으로 변환해 이미지-투-비디오 생성을 더욱 효율적으로 만듭니다.
  • 우수한 이미지-비디오-텍스트 정렬성: 이미지와 비디오 생성 모두에 뛰어난 MLLM 텍스트 인코더를 활용해 텍스트 지침을 더 잘 따르고, 세부사항을 포착하며 복잡한 추론을 수행합니다.
자세한 내용은 공식 저장소를 통해 확인할 수 있습니다: 훈위안 비디오훈위안 비디오-I2V. 이 가이드에서는 ComfyUI에서 텍스트-투-비디오이미지-투-비디오 워크플로우를 설정하는 방법을 안내합니다.
이 튜토리얼의 워크플로우 이미지는 모델 다운로드 정보를 포함한 메타데이터를 가지고 있습니다.이미지를 ComfyUI로 드래그하거나 메뉴 워크플로우 -> 열기(ctrl+o)를 사용해 해당 워크플로우를 로드하면 필요한 모델을 다운로드하라는 메시지가 표시됩니다.또는 자동 다운로드가 실패하거나 데스크톱 버전을 사용하지 않는 경우, 이 가이드에서 직접 모델 링크를 제공합니다. 모든 모델은 여기에서 다운로드 가능합니다.
Make sure your ComfyUI is updated.Workflows in this guide can be found in the Workflow Templates. If you can’t find them in the template, your ComfyUI may be outdated. (Desktop version’s update will delay sometime)If nodes are missing when loading a workflow, possible reasons:
  1. You are not using the latest ComfyUI version (Nightly version)
  2. Some nodes failed to import at startup

모든 워크플로우에 공통되는 모델

다음 모델들은 텍스트-투-비디오와 이미지-투-비디오 워크플로우 모두에 사용됩니다. 아래 모델들을 다운로드하여 지정된 디렉토리에 저장해주세요: 저장 위치:
ComfyUI/
├── models/
│   ├── text_encoders/
│   │   ├── clip_l.safetensors
│   │   └── llava_llama3_fp8_scaled.safetensors
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors

훈위안 텍스트-투-비디오 워크플로우

훈위안 텍스트-투-비디오는 2024년 12월에 오픈소스화되었으며, 중국어와 영어로 된 자연어 설명을 통해 5초짜리 짧은 비디오 생성을 지원합니다.

1. 워크플로우

아래 이미지를 다운로드해 ComfyUI로 드래그하여 워크플로우를 로드하세요: ComfyUI 워크플로우 - 훈위안 텍스트-투-비디오

2. 수동 모델 설치

hunyuan_video_t2v_720p_bf16.safetensors를 다운로드해 ComfyUI/models/diffusion_models 폴더에 저장하세요. 다음 모델 파일들이 올바른 위치에 있는지 확인하세요:
ComfyUI/
├── models/
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       // 공유 모델
│   │   └── llava_llama3_fp8_scaled.safetensors      // 공유 모델
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors       // 공유 모델
│   └── diffusion_models/
│       └── hunyuan_video_t2v_720p_bf16.safetensors  // T2V 모델

3. 워크플로우 실행 단계

ComfyUI 훈위안 비디오 T2V 워크플로우
  1. DualCLIPLoader 노드가 다음 모델을 로드했는지 확인하세요:
    • clip_name1: clip_l.safetensors
    • clip_name2: llava_llama3_fp8_scaled.safetensors
  2. Load Diffusion Model 노드가 hunyuan_video_t2v_720p_bf16.safetensors를 로드했는지 확인하세요.
  3. Load VAE 노드가 hunyuan_video_vae_bf16.safetensors를 로드했는지 확인하세요.
  4. Queue 버튼을 클릭하거나 단축키 Ctrl(cmd) + Enter를 사용해 워크플로우를 실행하세요.
EmptyHunyuanLatentVideo 노드의 length 파라미터를 1로 설정하면 모델이 정지된 이미지를 생성할 수 있습니다.

훈위안 이미지-투-비디오 워크플로우

훈위안 이미지-투-비디오 모델은 2025년 3월 6일에 훈위안비디오 프레임워크를 기반으로 오픈소스화되었습니다. 이 모델은 정지된 이미지를 부드럽고 고품질의 비디오로 변환하며, 머리카락 성장, 객체 변형 등 특별한 비디오 효과를 맞춤화하기 위한 LoRA 학습 코드도 제공합니다. 현재 훈위안 이미지-투-비디오 모델은 두 가지 버전이 있습니다:
  • v1 “concat”: 더 나은 모션 유연성 대신 이미지 지침에 덜 충실함
  • v2 “replace”: v1 다음날 업데이트된 버전으로, 이미지 지침은 더 나아졌지만 v1보다 다소 덜 역동적인 느낌이 있음

v1 “concat”

HunyuanVideo v1

v2 “replace”

HunyuanVideo v2

v1과 v2 버전 공통 모델

다음 파일을 다운로드해 ComfyUI/models/clip_vision 디렉토리에 저장하세요:

v1 “concat” 이미지-투-비디오 워크플로우

1. 워크플로우 및 자산

아래 워크플로우 이미지를 다운로드해 ComfyUI로 드래그하여 워크플로우를 로드하세요: ComfyUI 워크플로우 - 훈위안 이미지-투-비디오 v1 아래 이미지를 다운로드해 이미지-투-비디오 생성의 시작 프레임으로 사용하세요: 시작 프레임

2. 관련 모델 수동 설치

다음 모델 파일들이 올바른 위치에 있는지 확인하세요:
ComfyUI/
├── models/
│   ├── clip_vision/
│   │   └── llava_llama3_vision.safetensors                     // I2V 공유 모델
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                                  // 공유 모델
│   │   └── llava_llama3_fp8_scaled.safetensors                 // 공유 모델
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors                  // 공유 모델
│   └── diffusion_models/
│       └── hunyuan_video_image_to_video_720p_bf16.safetensors  // I2V v1 "concat" 버전 모델

3. 워크플로우 실행 단계

ComfyUI 훈위안 비디오 I2V v1 워크플로우
  1. DualCLIPLoader가 다음 모델을 로드했는지 확인하세요:
    • clip_name1: clip_l.safetensors
    • clip_name2: llava_llama3_fp8_scaled.safetensors
  2. Load CLIP Visionllava_llama3_vision.safetensors를 로드했는지 확인하세요.
  3. Load Image Modelhunyuan_video_image_to_video_720p_bf16.safetensors를 로드했는지 확인하세요.
  4. Load VAEvae_name: hunyuan_video_vae_bf16.safetensors를 로드했는지 확인하세요.
  5. Load Diffusion Modelhunyuan_video_image_to_video_720p_bf16.safetensors를 로드했는지 확인하세요.
  6. Queue 버튼을 클릭하거나 단축키 Ctrl(cmd) + Enter를 사용해 워크플로우를 실행하세요.

v2 “replace” 이미지-투-비디오 워크플로우

v2 워크플로우는 기본적으로 v1 워크플로우와 동일합니다. 다만 replace 모델을 다운로드해 Load Diffusion Model 노드에 사용하면 됩니다.

1. 워크플로우 및 자산

아래 워크플로우 이미지를 다운로드해 ComfyUI로 드래그하여 워크플로우를 로드하세요: ComfyUI 워크플로우 - 훈위안 이미지-투-비디오 v2 아래 이미지를 다운로드해 이미지-투-비디오 생성의 시작 프레임으로 사용하세요: 시작 프레임

2. 관련 모델 수동 설치

다음 모델 파일들이 올바른 위치에 있는지 확인하세요:
ComfyUI/
├── models/
│   ├── clip_vision/
│   │   └── llava_llama3_vision.safetensors                                // I2V 공유 모델
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                                             // 공유 모델
│   │   └── llava_llama3_fp8_scaled.safetensors                            // 공유 모델
│   ├── vae/
│   │   └── hunyuan_video_vae_bf16.safetensors                             // 공유 모델
│   └── diffusion_models/
│       └── hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors  // V2 "replace" 버전 모델

3. 워크플로우 실행 단계

ComfyUI 훈위안 비디오 I2V v2 워크플로우
  1. DualCLIPLoader 노드가 다음 모델을 로드했는지 확인하세요:
    • clip_name1: clip_l.safetensors
    • clip_name2: llava_llama3_fp8_scaled.safetensors
  2. Load CLIP Vision 노드가 llava_llama3_vision.safetensors를 로드했는지 확인하세요.
  3. Load Image Model 노드가 hunyuan_video_image_to_video_720p_bf16.safetensors를 로드했는지 확인하세요.
  4. Load VAE 노드가 hunyuan_video_vae_bf16.safetensors를 로드했는지 확인하세요.
  5. Load Diffusion Model 노드가 hunyuan_video_v2_replace_image_to_video_720p_bf16.safetensors를 로드했는지 확인하세요.
  6. Queue 버튼을 클릭하거나 단축키 Ctrl(cmd) + Enter를 사용해 워크플로우를 실행하세요.

직접 해보세요

다음은 저희가 제공하는 몇 가지 이미지와 프롬프트입니다. 해당 콘텐츠를 참고하거나 조정해 자신만의 비디오를 만들어보세요. 예시
미래형 로봇이 발레를 추는 모습, 역동적인 움직임, 빠른 속도, 빠른 촬영, 움직이는 장면

예시
검을 휘두르며 카메라를 치는 사무라이. 카메라 앵글 이동, 줌인, 빠른 장면, 초고속, 역동적

예시
날아다니는 차가 빠르게 움직이며 도시를 날아다님

예시
야간 도시에서 벌어지는 사이버펑크 자동차 경주, 역동적, 초고속, 빠른 촬영