Stability AI Stable Audio 2.5 API ノード：ComfyUI 公式ワークフロー例

Stability AI Stable Audio 2.5 パートナーノードを使用すると、Stability AI の最新音声生成モデルを活用し、テキストプロンプトによる音声生成、既存音声の変換、および音声修復の各機能を通じて高品質な音楽を作成できます。 Stable Audio 2.5 は企業向けに設計されており、音楽構造の向上、プロンプトへの忠実度の向上、および数秒で数分間にわたる楽曲を生成できる能力を特長としています。このモデルは以下の3つの主要なワークフローを提供します：テキストから音声への変換（Text-to-Audio） — 説明文から音楽を生成するための機能、音声から音声への変換（Audio-to-Audio） — 既存の音声を新たな楽曲へと変換するための機能、および音声修復（Audio Inpainting） — 既存のトラックを完成または延長するための機能です。 Stable Audio 2.5 はライセンス付与済みの音声データのみを用いて訓練されており、商用利用が安全です。広告主、ゲームスタジオ、およびプロフェッショナル品質の音声生成とエンタープライズレベルの信頼性を必要とするコンテンツクリエイターにとって最適な選択肢です。

APIノードを使用するには、正しくログインしていることと、許可されたネットワーク環境で使用していることを確認する必要があります。APIノードの使用に必要な具体的な要件については、ドキュメントの「APIノードの概要」セクションをご参照ください。

ポータブル版または自宅サーバーで実行しているユーザー
デスクトップ版またはクラウド版ユーザー

ComfyUI が最新版に更新されていることを確認してください。

このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。（デスクトップ版の更新は若干遅れることがあります）ワークフローを読み込んだ際にノードが欠落している場合の主な原因：

最新の ComfyUI（Nightly 版）を使用していない
起動時に一部のノードのインポートに失敗している

テキストから音声への変換（Text-to-Audio）ワークフロー

テキストから音声への変換では、テキストプロンプトを用いて音声を生成します。生成したい音楽を具体的に記述する必要があります。

JSON ワークフローをダウンロード

テキストプロンプトを編集します。生成したい音楽を表すキーワードを用いて記述してください。
（任意）duration パラメーターを編集します。デフォルト値は 190 です。
Run ボタンをクリックするか、ショートカットキー Ctrl（Cmd）+ Enter を使用して音声生成を実行します。生成された音声は ComfyUI/output/audio ディレクトリに保存されます。

音声から音声への変換（Audio-to-Audio）ワークフロー

音声から音声への変換は、基本的に音楽の再サンプリングです。指定した音声から新しい音楽を生成したり、単にメロディーをハミングして入力し、モデルがその入力音声に基づいて新たな音楽を生成するといった使い方が可能です。

JSON ワークフローをダウンロード

入力音声をダウンロード

このワークフローでは、編集対象の音声（最低6秒以上）を入力するための2つのノードを用意しています：
- 1.1 Record Audio ノード：ハミングしたメロディーなど、ご自身の音楽アイデアを録音するためにご利用いただけます（最低6秒以上必要です）。
- 1.2 LoadAudio ノード：このワークフローで使用する音声ファイルをアップロードするためにご利用いただけます。
テキストプロンプトを編集します。生成したい音楽を表すキーワードを用いて記述してください。
strength パラメーターは、元の音声との差異を制御するために使用されます。値が小さいほど、生成された音声は元の音声に近くなります。
Run ボタンをクリックするか、ショートカットキー Ctrl（Cmd）+ Enter を使用して音声生成を実行します。生成された音声は ComfyUI/output/audio ディレクトリに保存されます。

音声修復（Audio Inpainting）ワークフロー

音声修復は、既存のトラックを完成または延長するために使用されます。たとえば、音楽の欠落部分を補完したり、音楽の再生時間を延長したりする場合に活用できます。修復を開始および終了させる位置を設定する必要があります。

JSON ワークフローをダウンロード

入力音声をダウンロード

LoadAudio ノードに音声ファイルをアップロードします。
テキストプロンプトを編集します。生成したい音楽を表すキーワードを用いて記述してください。
（任意）duration パラメーターを編集します。デフォルト値は 190 です。
（重要）mask_start および mask_end パラメーターを編集します。修復を開始および終了させる位置を設定する必要があります。
Run ボタンをクリックするか、ショートカットキー Ctrl（Cmd）+ Enter を使用して音声生成を実行します。生成された音声は ComfyUI/output/audio ディレクトリに保存されます。

​テキストから音声への変換（Text-to-Audio）ワークフロー

​音声から音声への変換（Audio-to-Audio）ワークフロー

​音声修復（Audio Inpainting）ワークフロー

テキストから音声への変換（Text-to-Audio）ワークフロー

音声から音声への変換（Audio-to-Audio）ワークフロー

音声修復（Audio Inpainting）ワークフロー