Stable Audio 3 (GitHub) 是 Stability AI 最新开源的音频生成模型,使用全授权音乐数据训练,可用于商业用途。它使用专用子图节点从文本描述生成高质量立体声音频——包括音乐、音效和乐器声音——并支持可选的 Qwen 分类感知重新提示功能。 Stable Audio 3 提供三个变体:Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
- Small-SFX — 音效和短氛围音,最长 2 分钟。模型小巧,CPU 可运行。
- Small-Music — 短音乐片段,适合设备端使用,最长 2 分钟。
- Medium — 更长曲目,结构和音乐性更完整,最长约 6 分 20 秒。需要 GPU。
可用工作流
Stable Audio 3 Medium
下载工作流
下载 JSON 或在模板库中搜索”Stable Audio 3 Medium”
在 Comfy Cloud 中运行
在 Comfy Cloud 中打开
Stable Audio 3 Medium 工作流是一个完整的文本转音频流水线。你提供一个简短的文本创意、可选时长、种子和类别——工作流会使用 Qwen 配合分类感知的重新提示模板扩展你的提示词,然后通过 Stable Audio 3 检查点生成立体声音频。
使用方法:
- 文本创意 — 输入你想生成的声音、音乐或效果的文字描述(例如”强劲节拍的电子舞曲”)
- 时长 — 设置音频片段长度(秒)
- 种子 — 调整种子值控制可重现性
- 类别 — 选择重新提示预设:音乐(Music)、乐器(Instrument)、音效(SFX) 或 单次音效(One-shot)
- 启用重新提示 — 打开
use_reprompt开关,让 Qwen 将你的短创意扩展为详细提示词后再生成 - 点击运行(
Ctrl/Cmd + Enter)生成音频。文件将保存在ComfyUI/output/audio/目录
Stable Audio 3 Medium Base
下载工作流
下载 JSON 或在模板库中搜索”Stable Audio 3 Medium Base”
在 Comfy Cloud 中运行
在 Comfy Cloud 中打开
简化版本,不包含 Qwen 提示词扩展。接收完整的文本提示词直接传递给模型。当你已经有详细的提示词、希望加快生成速度时使用。
使用方法:
- 文本提示词 — 输入详细的音频描述
- 时长 — 设置音频片段长度(秒)
- 种子 — 控制可重现性
- 点击运行(
Ctrl/Cmd + Enter)生成音频
模型下载
加载工作流时,如果模型缺失,ComfyUI 会提示并提供对应下载链接。如需手动设置,请下载以下文件并放在正确目录。检查点
stable_audio_3_medium.safetensors
用于 Medium 工作流。放入 models/checkpoints/
stable_audio_3_medium_base.safetensors
用于 Medium Base 工作流。放入 models/checkpoints/
文本编码器
t5gemma_b_b_ul2.safetensors
所有 Stable Audio 3 工作流都需要。放入 models/text_encoders/
qwen3.5_2b_bf16.safetensors
Medium 工作流需要(Qwen 重新提示)。放入 models/text_encoders/