このドキュメントは AI によって生成されました。誤りを発見された場合、または改善に関するご提案がある場合は、ぜひご貢献ください! GitHub で編集ElevenLabs の音声からテキストへの変換(Speech-to-Text)ノードは、音声ファイルをテキストに書き起こします。このノードでは ElevenLabs の API を使用して、話された言葉を文字による書き起こし(トランスクリプト)に変換します。自動言語検出、複数の話者識別、音楽や笑い声などの非音声イベントのタグ付けといった機能をサポートしています。
入力
| パラメーター | データ型 | 必須 | 範囲 | 説明 |
|---|---|---|---|---|
audio | AUDIO | はい | - | 書き起こす対象の音声データ。 |
model | COMBO | はい | "scribe_v2" | 書き起こしに使用するモデル。このモデルを選択すると、追加のパラメーターが表示されます。 |
tag_audio_events | BOOLEAN | いいえ | - | 書き起こしテキスト内に(笑い声)、(音楽)などの音声イベントを注釈として付与します。このパラメーターは "scribe_v2" モデルを選択した場合に表示されます。(デフォルト:False) |
diarize | BOOLEAN | いいえ | - | どの話者が話しているかを注釈として付与します。このパラメーターは "scribe_v2" モデルを選択した場合に表示されます。(デフォルト:False) |
diarization_threshold | FLOAT | いいえ | 0.1 ~ 0.4 | 話者分離の感度。値が小さいほど話者切り替えに対して敏感になります。このパラメーターは "scribe_v2" モデルを選択し、かつ diarize が有効化されている場合に表示されます。(デフォルト:0.22) |
temperature | FLOAT | いいえ | 0.0 ~ 2.0 | 出力のランダム性を制御するパラメーター。0.0 はモデルのデフォルト値を使用します。値が大きいほどランダム性が高まります。このパラメーターは "scribe_v2" モデルを選択した場合に表示されます。(デフォルト:0.0) |
timestamps_granularity | COMBO | いいえ | "word""character""none" | 書き起こしテキスト内の単語のタイムスタンプ精度。このパラメーターは "scribe_v2" モデルを選択した場合に表示されます。(デフォルト:“word”) |
language_code | STRING | いいえ | - | ISO-639-1 または ISO-639-3 の言語コード(例:‘en’、‘es’、‘fra’)。空欄のままにすると自動検出が行われます。(デフォルト:"") |
num_speakers | INT | いいえ | 0 ~ 32 | 予測する最大話者数。0 を指定すると自動検出が行われます。(デフォルト:0) |
seed | INT | いいえ | 0 ~ 2147483647 | 再現性を確保するためのシード値(決定論的結果は保証されません)。(デフォルト:1) |
diarize オプションが有効な場合、num_speakers パラメーターは 0 より大きい値に設定できません。diarize を無効にするか、num_speakers を 0 に設定してください。
出力
| 出力名 | データ型 | 説明 |
|---|---|---|
text | STRING | 音声から書き起こされたテキスト。 |
language_code | STRING | 音声から検出された言語コード。 |
words_json | STRING | 単語レベルの詳細情報を含む JSON 形式の文字列。有効化されている場合、タイムスタンプおよび話者ラベルも含まれます。 |