ComfyUI ACE-Step 1.5 AI音楽生成ガイド

ComfyUIにおけるACE-Step 1.5について

ACE-Step 1.5は、オープンソースの音楽生成モデルに対する重大なアップデートであり、現在ComfyUIでネイティブにサポートされています。このモデルは、革新的なハイブリッドアーキテクチャを採用しており、言語モデル（LM）が「万能プランナー」として機能し、シンプルなユーザー入力を包括的な楽曲設計図へと変換します。これにより、ローカルマシン上で商用レベルの高品質な音楽生成が可能になります。 ACE-Step 1.5モデルの主な特徴：

商用レベルの高品質：音楽的整合性において4.72点を達成し、ほとんどの商用音楽モデルを上回る品質を実現
超高速生成：RTX 5090では約1秒、RTX 3090では10秒未満で、4分間のフルトラックをComfyUI上で生成可能
50以上の言語対応：英語、中国語、日本語、韓国語、スペイン語、ドイツ語、フランス語、ポルトガル語、イタリア語、ロシア語などに対応
LoRAによるファインチューニング：ComfyUI上で軽量なLoRAトレーニングを実行し、個人向けのスタイル調整が可能

ポータブル版または自宅サーバーで実行しているユーザー
デスクトップ版またはクラウド版ユーザー

ComfyUI が最新版に更新されていることを確認してください。

このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。（デスクトップ版の更新は若干遅れることがあります）ワークフローを読み込んだ際にノードが欠落している場合の主な原因：

最新の ComfyUI（Nightly 版）を使用していない
起動時に一部のノードのインポートに失敗している

オプション1：オールインワンチェックポイント（推奨）

AIO（All-in-One）版は、すべてのモデルを単一のチェックポイントファイルにパッケージ化しており、ダウンロードおよび管理が容易です。

AIOワークフロー

Comfy Cloudで実行

AIOワークフローをComfy Cloud上で直接実行します。

ワークフローをダウンロード

ローカル環境で使用するためのオールインワンチェックポイントワークフローをダウンロードします。

AIOモデルのダウンロード

ace_step_1.5_turbo_aio.safetensors

オールインワンチェックポイントファイル（大多数のユーザーに推奨）。

AIOモデルの保存場所

📂 ComfyUI/
├── 📂 models/
│   └── 📂 checkpoints/
│       └── ace_step_1.5_turbo_aio.safetensors

オプション2：分割モデルファイル

分割版では、個別のモデルコンポーネントをそれぞれ別々にダウンロードできます。

分割モデルワークフロー

Comfy Cloudで実行

分割モデルワークフローをComfy Cloud上で直接実行します。

ワークフローをダウンロード

ローカル環境で使用するための分割モデルワークフローをダウンロードします。

分割モデルのダウンロード

acestep_v1.5_turbo.safetensors

拡散モデル（Diffusion Model）。

qwen_0.6b_ace15.safetensors

テキストエンコーダー（0.6B）。

qwen_1.7b_ace15.safetensors

テキストエンコーダー（1.7B）。

ace_1.5_vae.safetensors

VAEモデル。

分割モデルの保存場所

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── acestep_v1.5_turbo.safetensors
│   ├── 📂 text_encoders/
│   │   ├── qwen_0.6b_ace15.safetensors
│   │   └── qwen_1.7b_ace15.safetensors
│   └── 📂 vae/
│       └── ace_1.5_vae.safetensors

ComfyUIにおけるACE-Step 1.5の主要機能

思考連鎖（Chain-of-Thought）によるプランニング

ACE-Step 1.5モデルは、思考連鎖（Chain-of-Thought）推論を用いてメタデータ、歌詞、キャプションを統合し、拡散プロセスを効果的に制御します。その結果、より整合性の高い長尺楽曲の生成が可能になります。

ハイブリッドLM＋DiTアーキテクチャ

ACE-Step 1.5は、楽曲構造を計画する言語モデル（LM）と、音声合成を担当する拡散トランスフォーマー（DiT）を組み合わせたハイブリッドアーキテクチャを採用しており、両者がComfyUI上でネイティブに動作します。

ComfyUIへの今後の追加予定機能

以下の機能はACE-Step 1.5には既に実装済みですが、現時点ではComfyUIではまだサポートされていません：

カバー（Cover）：任意の楽曲を入力として与え、新しいプロンプトおよび歌詞とともに提示すると、モデルが全く異なるスタイルでその楽曲を再解釈・再構成します
リペイント（Repaint）：音声の一部区間を選択し、その部分のみを再生成します。モデルは他の部分を一切変更せずに、再生成した区間をシームレスに挿入・統合します

Documentation Index

​ComfyUIにおけるACE-Step 1.5について

​オプション1：オールインワンチェックポイント（推奨）

​AIOワークフロー

Comfy Cloudで実行

ワークフローをダウンロード

​AIOモデルのダウンロード

ace_step_1.5_turbo_aio.safetensors

​オプション2：分割モデルファイル

​分割モデルワークフロー

Comfy Cloudで実行

ワークフローをダウンロード

​分割モデルのダウンロード

acestep_v1.5_turbo.safetensors

qwen_0.6b_ace15.safetensors

qwen_1.7b_ace15.safetensors

ace_1.5_vae.safetensors

​ComfyUIにおけるACE-Step 1.5の主要機能

​思考連鎖（Chain-of-Thought）によるプランニング

​ハイブリッドLM＋DiTアーキテクチャ

​ComfyUIへの今後の追加予定機能

​ACE-Step 1.5関連のComfyUIリソース

ComfyUIにおけるACE-Step 1.5について

オプション1：オールインワンチェックポイント（推奨）

AIOワークフロー

AIOモデルのダウンロード

オプション2：分割モデルファイル

分割モデルワークフロー

分割モデルのダウンロード

ComfyUIにおけるACE-Step 1.5の主要機能

思考連鎖（Chain-of-Thought）によるプランニング

ハイブリッドLM＋DiTアーキテクチャ

ComfyUIへの今後の追加予定機能

ACE-Step 1.5関連のComfyUIリソース