メインコンテンツへスキップ
以下が翻訳結果です。 ElevenLabs Speech to Text ノードは、オーディオファイルをテキストに文字起こしします。ElevenLabs の API を使用して、音声を書き起こしテキストに変換します。自動言語検出、話者の識別、音楽や笑い声などの非音声サウンドのタグ付けなどの機能をサポートしています。

入力

パラメータ説明データ型必須範囲
音声文字起こしするオーディオ。AUDIOはい-
モデル文字起こしに使用するモデル。このモデルを選択すると、追加のパラメータが表示されます。COMBOはい"scribe_v2"
tag_audio_events文字起こし内で (笑い声)、(音楽) などの音を注釈します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: False)BOOLEANいいえ-
diarizeどの話者が話しているかを注釈します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: False)BOOLEANいいえ-
diarization_threshold話者分離の感度。値が小さいほど、話者の変更に敏感になります。このパラメータは、"scribe_v2" モデルが選択され、diarize が有効な場合に表示されます。(デフォルト: 0.22)FLOATいいえ0.1 - 0.4
temperatureランダム性の制御。0.0 はモデルのデフォルトを使用します。値が大きいほどランダム性が増します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: 0.0)FLOATいいえ0.0 - 2.0
timestamps_granularity文字起こしの単語に対するタイミングの精度。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: “word”)COMBOいいえ"word"
"character"
"none"
言語コードISO-639-1 または ISO-639-3 言語コード (例: ‘en’、‘es’、‘fra’)。自動検出の場合は空のままにします。(デフォルト: "")STRINGいいえ-
話者数予測する話者の最大数。自動検出の場合は 0 に設定します。(デフォルト: 0)INTいいえ0 - 32
シード値再現性のためのシード (決定性は保証されません)。(デフォルト: 1)INTいいえ0 - 2147483647
注: diarize オプションが有効な場合、num_speakers パラメータを 0 より大きい値に設定することはできません。diarize を無効にするか、num_speakers を 0 に設定する必要があります。

出力

出力名説明データ型
言語コードオーディオから文字起こしされたテキスト。STRING
単語JSON検出されたオーディオの言語コード。STRING
words_jsonタイムスタンプや、有効な場合は話者ラベルを含む、詳細な単語レベルの情報を含む JSON 形式の文字列。STRING
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集

Source fingerprint (SHA-256): aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1