メインコンテンツへスキップ
ACE-Step は、中国のチーム StepFun と ACE Studio が共同開発したオープンソースの音楽生成基盤モデルであり、音楽クリエイターに効率的で柔軟性が高く、高品質な音楽生成および編集ツールを提供することを目的としています。 このモデルは Apache-2.0 ライセンスのもと公開されており、商用利用も無料で可能です。 強力な音楽生成基盤としての ACE-Step は、豊富な拡張性を備えています。LoRA や ControlNet などのファインチューニング技術を活用することで、開発者は実際のニーズに応じてモデルをカスタマイズできます。
音声編集、ボーカル合成、伴奏制作、ボイスクローン、スタイル変換など、さまざまなアプリケーションにおいても、ACE-Step は安定的かつ信頼性の高い技術サポートを提供します。
このような柔軟なアーキテクチャにより、音楽 AI アプリケーションの開発プロセスが大幅に簡素化され、より多くのクリエイターが AI 技術を音楽制作に迅速に活用できるようになります。
現在、ACE-Step は LoRA モデルの学習を含む関連する学習コードをすでに公開しています。今後、対応する ControlNet の学習コードも順次公開される予定です。詳細については、GitHub をご覧ください。
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

ACE-Step ComfyUI テキストから音声への生成ワークフロー例

1. ワークフローおよび関連モデルのダウンロード

以下のボタンをクリックして、対応するワークフローファイルをダウンロードしてください。ダウンロードしたファイルを ComfyUI にドラッグ&ドロップすることで、ワークフロー情報が読み込まれます。このワークフローには、モデルのダウンロード情報も含まれています。

JSON 形式のワークフローファイルをダウンロード

また、ace_step_v1_3.5b.safetensors を手動でダウンロードし、ComfyUI/models/checkpoints フォルダーに保存することもできます。

2. ワークフローをステップごとに実行

ステップガイド
  1. Load Checkpoints ノードが ace_step_v1_3.5b.safetensors モデルを正しく読み込んでいることを確認してください。
  2. (任意)EmptyAceStepLatentAudio ノードで、生成する音楽の再生時間を設定できます。
  3. (任意)LatentOperationTonemapReinhard ノードで multiplier を調整し、ボーカルの音量を制御できます(数値が大きいほどボーカルが目立つようになります)。
  4. (任意)TextEncodeAceStepAudiotags フィールドに、対応する音楽スタイルなどを入力できます。
  5. (任意)TextEncodeAceStepAudiolyrics フィールドに、対応する歌詞を入力できます。
  6. Run ボタンをクリックするか、ショートカットキー Ctrl (Cmd) + Enter を使用して音声生成を実行します。
  7. ワークフローの実行が完了すると、Save Audio ノードで生成された音声をプレビューできます。クリックして再生・試聴が可能であり、音声ファイルは ComfyUI/output/audio フォルダー内(サブディレクトリは Save Audio ノードの設定により決定されます)にも保存されます。

ACE-Step ComfyUI 音声から音声へのワークフロー

画像から画像へのワークフローと同様に、既存の音声ファイルを入力として使用し、以下のワークフローで再サンプリングおよび音声生成を行うことができます。また、Ksamplerdenoise パラメーターを調整することで、元の音声との差異度合いを制御できます。

1. ワークフローファイルのダウンロード

以下のボタンをクリックして、対応するワークフローファイルをダウンロードしてください。ダウンロードしたファイルを ComfyUI にドラッグ&ドロップすることで、ワークフロー情報が読み込まれます。

JSON 形式のワークフローファイルをダウンロード

以下の音声ファイルを入力音声としてダウンロードしてください:

入力用のサンプル音声ファイルをダウンロード

2. ワークフローをステップごとに実行

ACE-Step ステップガイド
  1. Load Checkpoints ノードが ace_step_v1_3.5b.safetensors モデルを正しく読み込んでいることを確認してください。
  2. LoadAudio ノードで、提供された音声ファイルをアップロードしてください。
  3. (任意)TextEncodeAceStepAudiotags および lyrics フィールドに、対応する音楽スタイルや歌詞を入力できます。音声編集においては、歌詞の入力が非常に重要です。
  4. (任意)Ksampler ノードの denoise パラメーターを変更し、サンプリング時に加えるノイズ量を調整して、元の音声との類似度を制御できます(値が小さいほど元の音声に近くなります。1.00 に設定すると、ほぼ音声入力がない状態と同等になります)。
  5. Run ボタンをクリックするか、ショートカットキー Ctrl (Cmd) + Enter を使用して音声生成を実行します。
  6. ワークフローの実行が完了すると、Save Audio ノードで生成された音声をプレビューできます。クリックして再生・試聴が可能であり、音声ファイルは ComfyUI/output/audio フォルダー内(サブディレクトリは Save Audio ノードの設定により決定されます)にも保存されます。
また、ACE-Step プロジェクトページで紹介されている歌詞編集および編集機能を実装し、オリジナルの歌詞を変更して音声効果を調整することも可能です。

3. 追加のワークフローに関する補足

  1. サンプルワークフローでは、TextEncodeAceStepAudiotagsmale voice から female voice に変更することで、女性ボーカルを生成できます。
  2. TextEncodeAceStepAudiolyrics を変更することで、歌詞を編集し、生成される音声を変更できます。詳細については、ACE-Step プロジェクトページのサンプルをご参照ください。

ACE-Step プロンプトガイド

ACE では現在、tags および lyrics の 2 種類のプロンプトを使用しています。
  • tags: 主に音楽スタイルやシーンなどを記述するために使用されます。他の生成タスクで使用するプロンプトと同様に、音声全体のスタイルおよび要件を主に記述します。英語のカンマで区切ります。
  • lyrics: 主に歌詞を記述するために使用されます。[verse](ヴァース)、[chorus](コーラス)、[bridge](ブリッジ)などの歌詞構造タグを用いて、歌詞の異なる部分を区別できます。純粋なインストゥルメンタル音楽の場合には、楽器名を入力することも可能です。
豊富な tags および lyrics のサンプルは、ACE-Step モデルのホームページ で確認できます。これらのサンプルを参考にして、対応するプロンプトを試すことができます。本ドキュメントのプロンプトガイドは、プロジェクトに基づいて整理されており、目的の効果を素早く得るために、さまざまな組み合わせを簡単に試せるようになっています。

tags(プロンプト)

メインストリーム音楽スタイル

短いタグの組み合わせを用いて、特定の音楽スタイルを生成します。
  • electronic(エレクトロニック)
  • rock(ロック)
  • pop(ポップ)
  • funk(ファンク)
  • soul(ソウル)
  • cyberpunk(サイバーパンク)
  • Acid jazz(アシッド・ジャズ)
  • electro(エレクトロ)
  • em(エレクトロニック・ミュージック)
  • soft electric drums(ソフト・エレクトリック・ドラム)
  • melodic(メロディック)

シーンタイプ

具体的な使用シーンや雰囲気を組み合わせることで、対応するムードに合った音楽を生成します。
  • background music for parties(パーティーの背景音楽)
  • radio broadcasts(ラジオ放送向け音楽)
  • workout playlists(フィットネス用プレイリスト)

楽器要素

  • saxophone(サックス)
  • jazz(ジャズ)
  • piano, violin(ピアノ、バイオリン)

ボーカルタイプ

  • female voice(女性ボーカル)
  • male voice(男性ボーカル)
  • clean vocals(クリーン・ボーカル)

専門用語

音楽でよく使われる専門用語を用いることで、音楽効果を正確に制御できます。
  • 110 bpm(1分間あたりのビート数が110)
  • fast tempo(速いテンポ)
  • slow tempo(遅いテンポ)
  • loops(ループ)
  • fills(フィル)
  • acoustic guitar(アコースティック・ギター)
  • electric bass(エレクトリック・ベース)

歌詞(lyrics)

歌詞構造タグ

  • [outro](アウトロ)
  • [verse](ヴァース)
  • [chorus](コーラス)
  • [bridge](ブリッジ)

多言語対応

  • ACE-Step V1 は多言語をサポートしています。実際の使用時には、ACE-Step が各言語を英字に変換した後に音楽を生成します。
  • ComfyUI では、すべての言語を英字に完全に変換する機能はまだ実装されていません。現時点では、日本語のひらがなおよびカタカナ文字 のみが実装されています。
    したがって、複数の言語を用いた音楽生成を行う場合は、まず対象の言語を英字に変換し、その後 lyrics の先頭に言語コードの略称(例:中国語は [zh]、韓国語は [ko] など)を入力する必要があります。
例:
[verse]

[zh]wo3zou3guo4shen1ye4de5jie1dao4
[zh]leng3feng1chui1luan4si1nian4de5piao4liang4wai4tao4
[zh]ni3de5wei1xiao4xiang4xing1guang1hen3xuan4yao4
[zh]zhao4liang4le5wo3gu1du2de5mei3fen1mei3miao3

[chorus]

[verse]​
[ko]hamkke si-kkeuleo-un sesang-ui sodong-eul pihae​
[ko]honja ogsang-eseo dalbich-ui eolyeompus-ileul balaboda​
[ko]niga salang-eun lideum-i ganghan eum-ag gatdago malhaess-eo​
[ko]han ta han tamada ma-eum-ui ondoga eolmana heojeonhanji ijge hae

[bridge]
[es]cantar mi anhelo por ti sin ocultar
[es]como poesía y pintura, lleno de anhelo indescifrable
[es]tu sombra es tan terca como el viento, inborrable
[es]persiguiéndote en vuelo, brilla como cruzar una mar de nubes

[chorus]
[fr]que tu sois le vent qui souffle sur ma main
[fr]un contact chaud comme la douce pluie printanière
[fr]que tu sois le vent qui s'entoure de mon corps
[fr]un amour profond qui ne s'éloignera jamais
現在、ACE-Step は 19 言語をサポートしていますが、以下の 10 言語のサポートが特に充実しています:
  • English(英語)
  • Chinese: [zh](中国語)
  • Russian: [ru](ロシア語)
  • Spanish: [es](スペイン語)
  • Japanese: [ja](日本語)
  • German: [de](ドイツ語)
  • French: [fr](フランス語)
  • Portuguese: [pt](ポルトガル語)
  • Italian: [it](イタリア語)
  • Korean: [ko](韓国語)
上記の言語タグは、本ドキュメント作成時点では完全にテストされていません。もし言語タグに誤りがある場合は、ドキュメントリポジトリに Issue を提出してください。速やかに修正いたします。

ACE-Step 関連リソース