输入
| 参数 | 描述 | 数据类型 | 是否必填 | 取值范围 |
|---|---|---|---|---|
音频 | 待转录的音频。 | AUDIO | 是 | - |
模型 | 用于转录的模型。选择此模型后会显示额外参数。 | COMBO | 是 | "scribe_v2" |
tag_audio_events | 在转录文本中标注(笑声)、(音乐)等声音。选择"scribe_v2"模型时显示此参数。(默认值:False) | BOOLEAN | 否 | - |
diarize | 标注当前说话者。选择"scribe_v2"模型时显示此参数。(默认值:False) | BOOLEAN | 否 | - |
diarization_threshold | 说话者分离灵敏度。数值越低对说话者变化越敏感。选择"scribe_v2"模型且启用diarize时显示此参数。(默认值:0.22) | FLOAT | 否 | 0.1 - 0.4 |
temperature | 随机性控制。0.0使用模型默认值,数值越高随机性越大。选择"scribe_v2"模型时显示此参数。(默认值:0.0) | FLOAT | 否 | 0.0 - 2.0 |
timestamps_granularity | 转录单词的时间精度。选择"scribe_v2"模型时显示此参数。(默认值:“word”) | COMBO | 否 | "word""character""none" |
语言代码 | ISO-639-1或ISO-639-3语言代码(例如’en’、‘es’、‘fra’)。留空则自动检测。(默认值:"") | STRING | 否 | - |
说话人数 | 预测的最大说话者数量。设为0表示自动检测。(默认值:0) | INT | 否 | 0 - 32 |
种子 | 用于结果复现的种子(不保证确定性)。(默认值:1) | INT | 否 | 0 - 2147483647 |
diarize选项时,num_speakers参数不能设置为大于0的值。您必须禁用diarize或将num_speakers设为0。
输出
| 输出名称 | 描述 | 数据类型 |
|---|---|---|
语言代码 | 音频转录后的文本。 | STRING |
单词 JSON | 检测到的音频语言代码。 | STRING |
words_json | 包含详细单词级别信息的JSON格式字符串,如果启用则包含时间戳和说话者标签。 | STRING |
本文档由 AI 生成。如果您发现任何错误或有改进建议,欢迎贡献! 在 GitHub 上编辑
Source fingerprint (SHA-256):
aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1