入力
| パラメータ | 説明 | データ型 | 必須 | 範囲 |
|---|---|---|---|---|
音声 | 文字起こしするオーディオ。 | AUDIO | はい | - |
モデル | 文字起こしに使用するモデル。このモデルを選択すると、追加のパラメータが表示されます。 | COMBO | はい | "scribe_v2" |
tag_audio_events | 文字起こし内で (笑い声)、(音楽) などの音を注釈します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: False) | BOOLEAN | いいえ | - |
diarize | どの話者が話しているかを注釈します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: False) | BOOLEAN | いいえ | - |
diarization_threshold | 話者分離の感度。値が小さいほど、話者の変更に敏感になります。このパラメータは、"scribe_v2" モデルが選択され、diarize が有効な場合に表示されます。(デフォルト: 0.22) | FLOAT | いいえ | 0.1 - 0.4 |
temperature | ランダム性の制御。0.0 はモデルのデフォルトを使用します。値が大きいほどランダム性が増します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: 0.0) | FLOAT | いいえ | 0.0 - 2.0 |
timestamps_granularity | 文字起こしの単語に対するタイミングの精度。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: “word”) | COMBO | いいえ | "word""character""none" |
言語コード | ISO-639-1 または ISO-639-3 言語コード (例: ‘en’、‘es’、‘fra’)。自動検出の場合は空のままにします。(デフォルト: "") | STRING | いいえ | - |
話者数 | 予測する話者の最大数。自動検出の場合は 0 に設定します。(デフォルト: 0) | INT | いいえ | 0 - 32 |
シード値 | 再現性のためのシード (決定性は保証されません)。(デフォルト: 1) | INT | いいえ | 0 - 2147483647 |
diarize オプションが有効な場合、num_speakers パラメータを 0 より大きい値に設定することはできません。diarize を無効にするか、num_speakers を 0 に設定する必要があります。
出力
| 出力名 | 説明 | データ型 |
|---|---|---|
言語コード | オーディオから文字起こしされたテキスト。 | STRING |
単語JSON | 検出されたオーディオの言語コード。 | STRING |
words_json | タイムスタンプや、有効な場合は話者ラベルを含む、詳細な単語レベルの情報を含む JSON 形式の文字列。 | STRING |
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集
Source fingerprint (SHA-256):
aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1