ElevenLabsSpeechToText - ComfyUI 組み込みノードのドキュメント

このドキュメントは AI によって生成されました。誤りを発見された場合、または改善に関するご提案がある場合は、ぜひご貢献ください！ GitHub で編集

ElevenLabs の音声からテキストへの変換（Speech-to-Text）ノードは、音声ファイルをテキストに書き起こします。このノードでは ElevenLabs の API を使用して、話された言葉を文字による書き起こし（トランスクリプト）に変換します。自動言語検出、複数の話者識別、音楽や笑い声などの非音声イベントのタグ付けといった機能をサポートしています。

入力

パラメーター	データ型	必須	範囲	説明
`audio`	AUDIO	はい	-	書き起こす対象の音声データ。
`model`	COMBO	はい	`"scribe_v2"`	書き起こしに使用するモデル。このモデルを選択すると、追加のパラメーターが表示されます。
`tag_audio_events`	BOOLEAN	いいえ	-	書き起こしテキスト内に（笑い声）、（音楽）などの音声イベントを注釈として付与します。このパラメーターは `"scribe_v2"` モデルを選択した場合に表示されます。（デフォルト：False）
`diarize`	BOOLEAN	いいえ	-	どの話者が話しているかを注釈として付与します。このパラメーターは `"scribe_v2"` モデルを選択した場合に表示されます。（デフォルト：False）
`diarization_threshold`	FLOAT	いいえ	0.1 ～ 0.4	話者分離の感度。値が小さいほど話者切り替えに対して敏感になります。このパラメーターは `"scribe_v2"` モデルを選択し、かつ `diarize` が有効化されている場合に表示されます。（デフォルト：0.22）
`temperature`	FLOAT	いいえ	0.0 ～ 2.0	出力のランダム性を制御するパラメーター。0.0 はモデルのデフォルト値を使用します。値が大きいほどランダム性が高まります。このパラメーターは `"scribe_v2"` モデルを選択した場合に表示されます。（デフォルト：0.0）
`timestamps_granularity`	COMBO	いいえ	`"word"` `"character"` `"none"`	書き起こしテキスト内の単語のタイムスタンプ精度。このパラメーターは `"scribe_v2"` モデルを選択した場合に表示されます。（デフォルト：“word”）
`language_code`	STRING	いいえ	-	ISO-639-1 または ISO-639-3 の言語コード（例：‘en’、‘es’、‘fra’）。空欄のままにすると自動検出が行われます。（デフォルト：""）
`num_speakers`	INT	いいえ	0 ～ 32	予測する最大話者数。0 を指定すると自動検出が行われます。（デフォルト：0）
`seed`	INT	いいえ	0 ～ 2147483647	再現性を確保するためのシード値（決定論的結果は保証されません）。（デフォルト：1）

注意： diarize オプションが有効な場合、num_speakers パラメーターは 0 より大きい値に設定できません。diarize を無効にするか、num_speakers を 0 に設定してください。

出力

出力名	データ型	説明
`text`	STRING	音声から書き起こされたテキスト。
`language_code`	STRING	音声から検出された言語コード。
`words_json`	STRING	単語レベルの詳細情報を含む JSON 形式の文字列。有効化されている場合、タイムスタンプおよび話者ラベルも含まれます。

Documentation Index

​入力

​出力

入力

出力