Stable Audio 3 ComfyUI ワークフロー例

ローカルユーザー
クラウドユーザー

ComfyUI が最新版に更新されていることを確認してください。

このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。ワークフローを読み込んだ際にノードが欠落している場合の主な原因：

最新の ComfyUI（Nightly 版）を使用していない
起動時に一部のノードのインポートに失敗している

Stable Audio 3 (GitHub) は、Stability AI が提供する最新のオープンソース音声生成モデルです。完全にライセンスされた音楽データで学習され、商用利用が可能です。専用サブグラフノードを使用してテキスト記述から高品質なステレオ音声（音楽、効果音、楽器音など）を生成し、オプションで Qwen によるカテゴリ認識リプロンプトを利用できます。 Stable Audio 3 には3つのバリエーションがあります：

Small-SFX — 効果音や短いアンビエンス、最大2分。CPUでも動作可能な小型モデル。
Small-Music — 短い音楽ループ、デバイス上での使用に最適、最大2分。
Medium — より長い楽曲、構造と音楽性に優れ、最大約6分20秒。GPUが必要。

関連リンク：

利用可能なワークフロー

Stable Audio 3 Medium

ワークフローをダウンロード

JSON をダウンロードするか、テンプレートライブラリで”Stable Audio 3 Medium”を検索

Comfy Cloud で実行

Comfy Cloud で開く

Stable Audio 3 Medium ワークフローは、完全なテキストから音声生成パイプラインです。短いテキストアイデア、任意の再生時間、シード、カテゴリを入力すると、Qwen を使用したカテゴリ認識リプロンプトテンプレートでプロンプトを拡張し、Stable Audio 3 チェックポイントでステレオ音声を生成します。 使用方法：

テキストアイデア — 生成したい音声の簡単な説明を入力（例：「重いベースのアップテンポなエレクトロニックダンスミュージック」）
再生時間 — クリップの長さ（秒）を設定
シード — 再現性を制御
カテゴリ — リプロンプトプリセットを選択：Music（音楽）、Instrument（楽器）、SFX（効果音）、One-shot（単発音）
リプロンプトを有効化 — use_reprompt をオンにして Qwen が短いアイデアを詳細なプロンプトに拡張
実行（Ctrl/Cmd + Enter）をクリックして生成。音声は ComfyUI/output/audio/ に保存されます

Stable Audio 3 Medium Base

ワークフローをダウンロード

JSON をダウンロードするか、テンプレートライブラリで”Stable Audio 3 Medium Base”を検索

Comfy Cloud で実行

Comfy Cloud で開く

Qwen リプロンプト機能を省いたシンプルなバージョン。完全なテキストプロンプトを直接 Stable Audio 3 モデルに渡します。すでに詳細なプロンプトがある場合や、高速に生成したい場合に使用します。 使用方法：

テキストプロンプト — 生成したい音声の詳細な説明を入力
再生時間 — クリップの長さ（秒）を設定
シード — 再現性を制御
実行（Ctrl/Cmd + Enter）をクリックして生成

モデルダウンロード

ワークフローを読み込むと、モデルがない場合に ComfyUI がダウンロードリンクを提示します。手動で設定する場合、以下のファイルをダウンロードして適切なフォルダに配置してください。

チェックポイント

stable_audio_3_medium.safetensors

Medium ワークフロー用。models/checkpoints/ に配置

stable_audio_3_medium_base.safetensors

Medium Base ワークフロー用。models/checkpoints/ に配置

以下のように配置します：

📂 ComfyUI/
├── 📂 models/
│   └── 📂 checkpoints/
│       ├── stable_audio_3_medium.safetensors
│       └── stable_audio_3_medium_base.safetensors

テキストエンコーダー

t5gemma_b_b_ul2.safetensors

すべての Stable Audio 3 ワークフローで必要。models/text_encoders/ に配置

qwen3.5_2b_bf16.safetensors

Medium ワークフローで必要（Qwen リプロンプト）。models/text_encoders/ に配置

以下のように配置します：

📂 ComfyUI/
├── 📂 models/
│   └── 📂 text_encoders/
│       ├── t5gemma_b_b_ul2.safetensors
│       └── qwen3.5_2b_bf16.safetensors

配置後、ComfyUI で R キーを押してノード定義をリフレッシュすると、最新のモデルが利用可能になります。

はじめに

Agent Tools / MCP

基本概念

インターフェースガイド

チュートリアル

パートナーノード

Stable Audio 3 ComfyUI ワークフロー例

利用可能なワークフロー

Stable Audio 3 Medium

ワークフローをダウンロード

Comfy Cloud で実行

Stable Audio 3 Medium Base

ワークフローをダウンロード

Comfy Cloud で実行

モデルダウンロード

チェックポイント

stable_audio_3_medium.safetensors

stable_audio_3_medium_base.safetensors

テキストエンコーダー

t5gemma_b_b_ul2.safetensors

qwen3.5_2b_bf16.safetensors

​利用可能なワークフロー

​Stable Audio 3 Medium

ワークフローをダウンロード

Comfy Cloud で実行

​Stable Audio 3 Medium Base

ワークフローをダウンロード

Comfy Cloud で実行

​モデルダウンロード

​チェックポイント

stable_audio_3_medium.safetensors

stable_audio_3_medium_base.safetensors

​テキストエンコーダー

t5gemma_b_b_ul2.safetensors

qwen3.5_2b_bf16.safetensors

利用可能なワークフロー

Stable Audio 3 Medium

Stable Audio 3 Medium Base

モデルダウンロード

チェックポイント

テキストエンコーダー