KlingLipSyncAudioToVideoNode - ComfyUI 組み込みノードのドキュメント

このドキュメントはAIによって生成されました。誤りを発見された場合、または改善のご提案がある場合は、ぜひご貢献ください！ GitHubで編集する

Kling Lip Sync Audio to Video ノードは、動画ファイル内の口の動きを音声ファイルの内容と同期させる機能を提供します。このノードは音声に含まれる発話パターンを解析し、動画内の顔の動きを調整することで、リアルなリップシンク（口の動きの同期）効果を実現します。この処理には、明確に識別可能な顔が映っている動画ファイルと、はっきりと聞き分けられる発話が含まれている音声ファイルの両方が必要です。

入力

パラメーター	データ型	必須	範囲	説明
`video`	VIDEO	はい	-	リップシンク対象の顔を含む動画ファイル
`audio`	AUDIO	はい	-	動画と同期させる発話を含む音声ファイル
`voice_language`	COMBO	いいえ	`"en"` `"zh"` `"es"` `"fr"` `"de"` `"it"` `"pt"` `"pl"` `"tr"` `"ru"` `"nl"` `"cs"` `"ar"` `"ja"` `"hu"` `"ko"`	音声ファイル内の発話の言語（デフォルト: `"en"`）

重要な制約条件：

音声ファイルのサイズは5MBを超えてはいけません
動画ファイルのサイズは100MBを超えてはいけません
動画の解像度（高さ／幅）は720px～1920pxの範囲内である必要があります
動画の再生時間は2秒～10秒の範囲内である必要があります
音声には明確に聞き分けられる発話が含まれている必要があります
動画には明確に識別可能な顔が映っている必要があります

出力

出力名	データ型	説明
`output`	VIDEO	リップシンク処理済みの動画（口の動きが同期された動画）
`video_id`	STRING	処理済み動画の固有識別子
`duration`	STRING	処理済み動画の再生時間

Documentation Index

​入力

​出力

入力

出力