メインコンテンツへスキップ

ComfyUIにおけるACE-Step 1.5について

ACE-Step 1.5は、オープンソースの音楽生成モデルに対する重大なアップデートであり、現在ComfyUIでネイティブにサポートされています。このモデルは、革新的なハイブリッドアーキテクチャを採用しており、言語モデル(LM)が「万能プランナー」として機能し、シンプルなユーザー入力を包括的な楽曲設計図へと変換します。これにより、ローカルマシン上で商用レベルの高品質な音楽生成が可能になります。 ACE-Step 1.5モデルの主な特徴:
  • 商用レベルの高品質:音楽的整合性において4.72点を達成し、ほとんどの商用音楽モデルを上回る品質を実現
  • 超高速生成:RTX 5090では約1秒、RTX 3090では10秒未満で、4分間のフルトラックをComfyUI上で生成可能
  • 50以上の言語対応:英語、中国語、日本語、韓国語、スペイン語、ドイツ語、フランス語、ポルトガル語、イタリア語、ロシア語などに対応
  • LoRAによるファインチューニング:ComfyUI上で軽量なLoRAトレーニングを実行し、個人向けのスタイル調整が可能
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

オプション1:オールインワンチェックポイント(推奨)

AIO(All-in-One)版は、すべてのモデルを単一のチェックポイントファイルにパッケージ化しており、ダウンロードおよび管理が容易です。

AIOワークフロー

Comfy Cloudで実行

AIOワークフローをComfy Cloud上で直接実行します。

ワークフローをダウンロード

ローカル環境で使用するためのオールインワンチェックポイントワークフローをダウンロードします。

AIOモデルのダウンロード

ace_step_1.5_turbo_aio.safetensors

オールインワンチェックポイントファイル(大多数のユーザーに推奨)。
AIOモデルの保存場所
📂 ComfyUI/
├── 📂 models/
│   └── 📂 checkpoints/
│       └── ace_step_1.5_turbo_aio.safetensors

オプション2:分割モデルファイル

分割版では、個別のモデルコンポーネントをそれぞれ別々にダウンロードできます。

分割モデルワークフロー

Comfy Cloudで実行

分割モデルワークフローをComfy Cloud上で直接実行します。

ワークフローをダウンロード

ローカル環境で使用するための分割モデルワークフローをダウンロードします。

分割モデルのダウンロード

acestep_v1.5_turbo.safetensors

拡散モデル(Diffusion Model)。

qwen_0.6b_ace15.safetensors

テキストエンコーダー(0.6B)。

qwen_1.7b_ace15.safetensors

テキストエンコーダー(1.7B)。

ace_1.5_vae.safetensors

VAEモデル。
分割モデルの保存場所
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── acestep_v1.5_turbo.safetensors
│   ├── 📂 text_encoders/
│   │   ├── qwen_0.6b_ace15.safetensors
│   │   └── qwen_1.7b_ace15.safetensors
│   └── 📂 vae/
│       └── ace_1.5_vae.safetensors

ComfyUIにおけるACE-Step 1.5の主要機能

思考連鎖(Chain-of-Thought)によるプランニング

ACE-Step 1.5モデルは、思考連鎖(Chain-of-Thought)推論を用いてメタデータ、歌詞、キャプションを統合し、拡散プロセスを効果的に制御します。その結果、より整合性の高い長尺楽曲の生成が可能になります。

ハイブリッドLM+DiTアーキテクチャ

ACE-Step 1.5は、楽曲構造を計画する言語モデル(LM)と、音声合成を担当する拡散トランスフォーマー(DiT)を組み合わせたハイブリッドアーキテクチャを採用しており、両者がComfyUI上でネイティブに動作します。

ComfyUIへの今後の追加予定機能

以下の機能はACE-Step 1.5には既に実装済みですが、現時点ではComfyUIではまだサポートされていません:
  • カバー(Cover):任意の楽曲を入力として与え、新しいプロンプトおよび歌詞とともに提示すると、モデルが全く異なるスタイルでその楽曲を再解釈・再構成します
  • リペイント(Repaint):音声の一部区間を選択し、その部分のみを再生成します。モデルは他の部分を一切変更せずに、再生成した区間をシームレスに挿入・統合します

ACE-Step 1.5関連のComfyUIリソース