メインコンテンツへスキップ
このドキュメントはAI生成です。誤りや改善のご提案がございましたら、ぜひご協力ください。GitHubで編集する TextEncodeHunyuanVideo_ImageToVideo ノードは、テキストプロンプトと画像埋め込みを組み合わせることで、動画生成用の条件付けデータを作成します。CLIPモデルを使用してテキスト入力とCLIPビジョン出力からの視覚情報の両方を処理し、指定された画像インターリーブ設定に従ってこれら2つの情報源を融合したトークンを生成します。

入力

パラメータ説明データ型必須範囲
clipトークン化とエンコードに使用するCLIPモデルCLIPはい-
clip_vision_output画像コンテキストを提供するCLIPビジョンモデルからの視覚埋め込みCLIP_VISION_OUTPUTはい-
プロンプト動画生成をガイドするテキスト説明。複数行入力と動的プロンプトに対応STRINGはい-
画像インターリーブテキストプロンプトと比較して画像が結果に与える影響の度合い。数値が大きいほどテキストプロンプトの影響が強くなります。(デフォルト:2)INTはい1-512

出力

出力名説明データ型
CONDITIONING動画生成のためにテキストと画像情報を組み合わせた条件付けデータCONDITIONING
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集

Source fingerprint (SHA-256): ee748bd1fb1733593eb4cb1187c5cc279171163cfbc389f039378d0e366fc231