Stable Audio 1.0 是 Stability AI 首个开源的音频生成模型。它接收文本提示词,生成一段音频片段。在 ComfyUI 中,它使用标准流水线:CLIP 编码提示词、KSampler 去噪潜空间、VAE 解码为音频。 相关链接:Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
工作流
下载工作流
下载 JSON 或在模板库中搜索”Stable Audio 1.0”
在 Comfy Cloud 中运行
在 Comfy Cloud 中打开
使用标准 ComfyUI 节点,无需自定义节点。加载 Stable Audio 1.0 检查点,CLIP 文本编码器编码提示词,KSampler 在潜空间中降噪,最后 VAE 解码为音频。
使用方法:
- 加载模型 —
CheckpointLoaderSimple使用stable-audio-open-1.0.safetensors - 写提示词 — 在
CLIPTextEncode节点输入描述(例如”heaven church electronic dance music”) - 设置时长 — 调整
EmptyLatentAudio节点的长度值(默认 47.6 秒) - 点击运行(
Ctrl/Cmd + Enter)生成音频。文件将保存在ComfyUI/output/audio/
模型下载
加载工作流时,如果模型缺失,ComfyUI 会提示并提供对应下载链接。如需手动设置,请下载以下文件并放在正确目录。检查点
stable-audio-open-1.0.safetensors
2.3GB。放入 models/checkpoints/
文本编码器
t5-base.safetensors
提示词处理的文本编码器。放入 models/text_encoders/