Stable Audio 1.0 は、Stability AI 初のオープンソース音声生成モデルです。テキストプロンプトを受け取り、音声クリップを生成します。ComfyUI では標準のテキストから音声パイプラインとして動作します:CLIP がプロンプトをエンコードし、KSampler が潜在空間をノイズ除去し、VAE が音声にデコードします。 関連リンク:Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
ワークフロー
ワークフローをダウンロード
JSON をダウンロードするか、テンプレートライブラリで”Stable Audio 1.0”を検索
Comfy Cloud で実行
Comfy Cloud で開く
標準の ComfyUI ノードのみを使用し、カスタムノードは不要です。Stable Audio 1.0 チェックポイントを読み込み、CLIP テキストエンコーダーでプロンプトをエンコードし、KSampler で潜在空間をノイズ除去し、VAE で音声にデコードします。
使用方法:
- モデルを読み込む —
CheckpointLoaderSimpleノードでstable-audio-open-1.0.safetensorsを使用 - プロンプトを書く —
CLIPTextEncodeノードに説明を入力(例:“heaven church electronic dance music”) - 再生時間を設定 —
EmptyLatentAudioノードの長さを調整(デフォルト 47.6 秒) - 実行(
Ctrl/Cmd + Enter)をクリックして生成。音声はComfyUI/output/audio/に保存されます
モデルダウンロード
ワークフローを読み込むと、モデルがない場合に ComfyUI がダウンロードリンクを提示します。手動で設定する場合、以下のファイルをダウンロードして適切なフォルダに配置してください。チェックポイント
stable-audio-open-1.0.safetensors
2.3GB。models/checkpoints/ に配置
テキストエンコーダー
t5-base.safetensors
プロンプト処理用テキストエンコーダー。models/text_encoders/ に配置