ElevenLabsSpeechToText - ComfyUI Built-in Node Documentation

ElevenLabs语音转文字节点可将音频文件转录为文本。它使用ElevenLabs的API将语音转换为书面文本，支持自动语言检测、识别不同说话者以及标记音乐、笑声等非语音声音。

输入

参数	描述	数据类型	是否必填	取值范围
`音频`	待转录的音频。	AUDIO	是	-
`模型`	用于转录的模型。选择此模型后会显示额外参数。	COMBO	是	`"scribe_v2"`
`tag_audio_events`	在转录文本中标注(笑声)、(音乐)等声音。选择`"scribe_v2"`模型时显示此参数。(默认值：False)	BOOLEAN	否	-
`diarize`	标注当前说话者。选择`"scribe_v2"`模型时显示此参数。(默认值：False)	BOOLEAN	否	-
`diarization_threshold`	说话者分离灵敏度。数值越低对说话者变化越敏感。选择`"scribe_v2"`模型且启用`diarize`时显示此参数。(默认值：0.22)	FLOAT	否	0.1 - 0.4
`temperature`	随机性控制。0.0使用模型默认值，数值越高随机性越大。选择`"scribe_v2"`模型时显示此参数。(默认值：0.0)	FLOAT	否	0.0 - 2.0
`timestamps_granularity`	转录单词的时间精度。选择`"scribe_v2"`模型时显示此参数。(默认值：“word”)	COMBO	否	`"word"` `"character"` `"none"`
`语言代码`	ISO-639-1或ISO-639-3语言代码（例如’en’、‘es’、‘fra’）。留空则自动检测。(默认值："")	STRING	否	-
`说话人数`	预测的最大说话者数量。设为0表示自动检测。(默认值：0)	INT	否	0 - 32
`种子`	用于结果复现的种子（不保证确定性）。(默认值：1)	INT	否	0 - 2147483647

注意： 当启用diarize选项时，num_speakers参数不能设置为大于0的值。您必须禁用diarize或将num_speakers设为0。

输出名称	描述	数据类型
`文本`	音频转录后的文本。	STRING
`语言代码`	检测到的音频语言代码。	STRING
`单词 JSON`	包含详细单词级别信息的JSON格式字符串，如果启用则包含时间戳和说话者标签。	STRING

本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！在 GitHub 上编辑

Source fingerprint (SHA-256): aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1