メインコンテンツへスキップ
このドキュメントはAIによって生成されました。誤りを発見された場合、または改善のご提案がある場合は、ぜひご貢献ください! GitHubで編集する
Kling Lip Sync Audio to Video ノードは、動画ファイル内の口の動きを音声ファイルの内容と同期させる機能を提供します。このノードは音声に含まれる発話パターンを解析し、動画内の顔の動きを調整することで、リアルなリップシンク(口の動きの同期)効果を実現します。この処理には、明確に識別可能な顔が映っている動画ファイルと、はっきりと聞き分けられる発話が含まれている音声ファイルの両方が必要です。

入力

パラメーターデータ型必須範囲説明
videoVIDEOはい-リップシンク対象の顔を含む動画ファイル
audioAUDIOはい-動画と同期させる発話を含む音声ファイル
voice_languageCOMBOいいえ"en"
"zh"
"es"
"fr"
"de"
"it"
"pt"
"pl"
"tr"
"ru"
"nl"
"cs"
"ar"
"ja"
"hu"
"ko"
音声ファイル内の発話の言語(デフォルト: "en"
重要な制約条件:
  • 音声ファイルのサイズは5MBを超えてはいけません
  • 動画ファイルのサイズは100MBを超えてはいけません
  • 動画の解像度(高さ/幅)は720px~1920pxの範囲内である必要があります
  • 動画の再生時間は2秒~10秒の範囲内である必要があります
  • 音声には明確に聞き分けられる発話が含まれている必要があります
  • 動画には明確に識別可能な顔が映っている必要があります

出力

出力名データ型説明
outputVIDEOリップシンク処理済みの動画(口の動きが同期された動画)
video_idSTRING処理済み動画の固有識別子
durationSTRING処理済み動画の再生時間