音声編集、ボーカル合成、伴奏制作、ボイスクローン、スタイル変換など、さまざまなアプリケーションにおいても、ACE-Step は安定的かつ信頼性の高い技術サポートを提供します。
このような柔軟なアーキテクチャにより、音楽 AI アプリケーションの開発プロセスが大幅に簡素化され、より多くのクリエイターが AI 技術を音楽制作に迅速に活用できるようになります。 現在、ACE-Step は LoRA モデルの学習を含む関連する学習コードをすでに公開しています。今後、対応する ControlNet の学習コードも順次公開される予定です。詳細については、GitHub をご覧ください。
ACE-Step ComfyUI テキストから音声への生成ワークフロー例
1. ワークフローおよび関連モデルのダウンロード
以下のボタンをクリックして、対応するワークフローファイルをダウンロードしてください。ダウンロードしたファイルを ComfyUI にドラッグ&ドロップすることで、ワークフロー情報が読み込まれます。このワークフローには、モデルのダウンロード情報も含まれています。JSON 形式のワークフローファイルをダウンロード
また、ace_step_v1_3.5b.safetensors を手動でダウンロードし、ComfyUI/models/checkpoints フォルダーに保存することもできます。
2. ワークフローをステップごとに実行

Load Checkpointsノードがace_step_v1_3.5b.safetensorsモデルを正しく読み込んでいることを確認してください。- (任意)
EmptyAceStepLatentAudioノードで、生成する音楽の再生時間を設定できます。 - (任意)
LatentOperationTonemapReinhardノードでmultiplierを調整し、ボーカルの音量を制御できます(数値が大きいほどボーカルが目立つようになります)。 - (任意)
TextEncodeAceStepAudioのtagsフィールドに、対応する音楽スタイルなどを入力できます。 - (任意)
TextEncodeAceStepAudioのlyricsフィールドに、対応する歌詞を入力できます。 Runボタンをクリックするか、ショートカットキーCtrl (Cmd) + Enterを使用して音声生成を実行します。- ワークフローの実行が完了すると、
Save Audioノードで生成された音声をプレビューできます。クリックして再生・試聴が可能であり、音声ファイルはComfyUI/output/audioフォルダー内(サブディレクトリはSave Audioノードの設定により決定されます)にも保存されます。
ACE-Step ComfyUI 音声から音声へのワークフロー
画像から画像へのワークフローと同様に、既存の音声ファイルを入力として使用し、以下のワークフローで再サンプリングおよび音声生成を行うことができます。また、Ksampler の denoise パラメーターを調整することで、元の音声との差異度合いを制御できます。
1. ワークフローファイルのダウンロード
以下のボタンをクリックして、対応するワークフローファイルをダウンロードしてください。ダウンロードしたファイルを ComfyUI にドラッグ&ドロップすることで、ワークフロー情報が読み込まれます。JSON 形式のワークフローファイルをダウンロード
以下の音声ファイルを入力音声としてダウンロードしてください:入力用のサンプル音声ファイルをダウンロード
2. ワークフローをステップごとに実行

Load Checkpointsノードがace_step_v1_3.5b.safetensorsモデルを正しく読み込んでいることを確認してください。LoadAudioノードで、提供された音声ファイルをアップロードしてください。- (任意)
TextEncodeAceStepAudioのtagsおよびlyricsフィールドに、対応する音楽スタイルや歌詞を入力できます。音声編集においては、歌詞の入力が非常に重要です。 - (任意)
Ksamplerノードのdenoiseパラメーターを変更し、サンプリング時に加えるノイズ量を調整して、元の音声との類似度を制御できます(値が小さいほど元の音声に近くなります。1.00に設定すると、ほぼ音声入力がない状態と同等になります)。 Runボタンをクリックするか、ショートカットキーCtrl (Cmd) + Enterを使用して音声生成を実行します。- ワークフローの実行が完了すると、
Save Audioノードで生成された音声をプレビューできます。クリックして再生・試聴が可能であり、音声ファイルはComfyUI/output/audioフォルダー内(サブディレクトリはSave Audioノードの設定により決定されます)にも保存されます。
3. 追加のワークフローに関する補足
- サンプルワークフローでは、
TextEncodeAceStepAudioのtagsをmale voiceからfemale voiceに変更することで、女性ボーカルを生成できます。 TextEncodeAceStepAudioのlyricsを変更することで、歌詞を編集し、生成される音声を変更できます。詳細については、ACE-Step プロジェクトページのサンプルをご参照ください。
ACE-Step プロンプトガイド
ACE では現在、tags および lyrics の 2 種類のプロンプトを使用しています。
tags: 主に音楽スタイルやシーンなどを記述するために使用されます。他の生成タスクで使用するプロンプトと同様に、音声全体のスタイルおよび要件を主に記述します。英語のカンマで区切ります。lyrics: 主に歌詞を記述するために使用されます。[verse](ヴァース)、[chorus](コーラス)、[bridge](ブリッジ)などの歌詞構造タグを用いて、歌詞の異なる部分を区別できます。純粋なインストゥルメンタル音楽の場合には、楽器名を入力することも可能です。
tags および lyrics のサンプルは、ACE-Step モデルのホームページ で確認できます。これらのサンプルを参考にして、対応するプロンプトを試すことができます。本ドキュメントのプロンプトガイドは、プロジェクトに基づいて整理されており、目的の効果を素早く得るために、さまざまな組み合わせを簡単に試せるようになっています。
tags(プロンプト)
メインストリーム音楽スタイル
短いタグの組み合わせを用いて、特定の音楽スタイルを生成します。- electronic(エレクトロニック)
- rock(ロック)
- pop(ポップ)
- funk(ファンク)
- soul(ソウル)
- cyberpunk(サイバーパンク)
- Acid jazz(アシッド・ジャズ)
- electro(エレクトロ)
- em(エレクトロニック・ミュージック)
- soft electric drums(ソフト・エレクトリック・ドラム)
- melodic(メロディック)
シーンタイプ
具体的な使用シーンや雰囲気を組み合わせることで、対応するムードに合った音楽を生成します。- background music for parties(パーティーの背景音楽)
- radio broadcasts(ラジオ放送向け音楽)
- workout playlists(フィットネス用プレイリスト)
楽器要素
- saxophone(サックス)
- jazz(ジャズ)
- piano, violin(ピアノ、バイオリン)
ボーカルタイプ
- female voice(女性ボーカル)
- male voice(男性ボーカル)
- clean vocals(クリーン・ボーカル)
専門用語
音楽でよく使われる専門用語を用いることで、音楽効果を正確に制御できます。- 110 bpm(1分間あたりのビート数が110)
- fast tempo(速いテンポ)
- slow tempo(遅いテンポ)
- loops(ループ)
- fills(フィル)
- acoustic guitar(アコースティック・ギター)
- electric bass(エレクトリック・ベース)
歌詞(lyrics)
歌詞構造タグ
- [outro](アウトロ)
- [verse](ヴァース)
- [chorus](コーラス)
- [bridge](ブリッジ)
多言語対応
- ACE-Step V1 は多言語をサポートしています。実際の使用時には、ACE-Step が各言語を英字に変換した後に音楽を生成します。
- ComfyUI では、すべての言語を英字に完全に変換する機能はまだ実装されていません。現時点では、日本語のひらがなおよびカタカナ文字 のみが実装されています。
したがって、複数の言語を用いた音楽生成を行う場合は、まず対象の言語を英字に変換し、その後lyricsの先頭に言語コードの略称(例:中国語は[zh]、韓国語は[ko]など)を入力する必要があります。
- English(英語)
- Chinese: [zh](中国語)
- Russian: [ru](ロシア語)
- Spanish: [es](スペイン語)
- Japanese: [ja](日本語)
- German: [de](ドイツ語)
- French: [fr](フランス語)
- Portuguese: [pt](ポルトガル語)
- Italian: [it](イタリア語)
- Korean: [ko](韓国語)
上記の言語タグは、本ドキュメント作成時点では完全にテストされていません。もし言語タグに誤りがある場合は、ドキュメントリポジトリに Issue を提出してください。速やかに修正いたします。