Stable Audio 3 (GitHub) は、Stability AI が提供する最新のオープンソース音声生成モデルです。完全にライセンスされた音楽データで学習され、商用利用が可能です。専用サブグラフノードを使用してテキスト記述から高品質なステレオ音声(音楽、効果音、楽器音など)を生成し、オプションで Qwen によるカテゴリ認識リプロンプトを利用できます。 Stable Audio 3 には3つのバリエーションがあります:Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
- Small-SFX — 効果音や短いアンビエンス、最大2分。CPUでも動作可能な小型モデル。
- Small-Music — 短い音楽ループ、デバイス上での使用に最適、最大2分。
- Medium — より長い楽曲、構造と音楽性に優れ、最大約6分20秒。GPUが必要。
利用可能なワークフロー
Stable Audio 3 Medium
ワークフローをダウンロード
JSON をダウンロードするか、テンプレートライブラリで”Stable Audio 3 Medium”を検索
Comfy Cloud で実行
Comfy Cloud で開く
Stable Audio 3 Medium ワークフローは、完全なテキストから音声生成パイプラインです。短いテキストアイデア、任意の再生時間、シード、カテゴリを入力すると、Qwen を使用したカテゴリ認識リプロンプトテンプレートでプロンプトを拡張し、Stable Audio 3 チェックポイントでステレオ音声を生成します。
使用方法:
- テキストアイデア — 生成したい音声の簡単な説明を入力(例:「重いベースのアップテンポなエレクトロニックダンスミュージック」)
- 再生時間 — クリップの長さ(秒)を設定
- シード — 再現性を制御
- カテゴリ — リプロンプトプリセットを選択:Music(音楽)、Instrument(楽器)、SFX(効果音)、One-shot(単発音)
- リプロンプトを有効化 —
use_repromptをオンにして Qwen が短いアイデアを詳細なプロンプトに拡張 - 実行(
Ctrl/Cmd + Enter)をクリックして生成。音声はComfyUI/output/audio/に保存されます
Stable Audio 3 Medium Base
ワークフローをダウンロード
JSON をダウンロードするか、テンプレートライブラリで”Stable Audio 3 Medium Base”を検索
Comfy Cloud で実行
Comfy Cloud で開く
Qwen リプロンプト機能を省いたシンプルなバージョン。完全なテキストプロンプトを直接 Stable Audio 3 モデルに渡します。すでに詳細なプロンプトがある場合や、高速に生成したい場合に使用します。
使用方法:
- テキストプロンプト — 生成したい音声の詳細な説明を入力
- 再生時間 — クリップの長さ(秒)を設定
- シード — 再現性を制御
- 実行(
Ctrl/Cmd + Enter)をクリックして生成
モデルダウンロード
ワークフローを読み込むと、モデルがない場合に ComfyUI がダウンロードリンクを提示します。手動で設定する場合、以下のファイルをダウンロードして適切なフォルダに配置してください。チェックポイント
stable_audio_3_medium.safetensors
Medium ワークフロー用。models/checkpoints/ に配置
stable_audio_3_medium_base.safetensors
Medium Base ワークフロー用。models/checkpoints/ に配置
テキストエンコーダー
t5gemma_b_b_ul2.safetensors
すべての Stable Audio 3 ワークフローで必要。models/text_encoders/ に配置
qwen3.5_2b_bf16.safetensors
Medium ワークフローで必要(Qwen リプロンプト)。models/text_encoders/ に配置