ComfyUIにおけるACE-Step 1.5について
ACE-Step 1.5は、オープンソースの音楽生成モデルに対する重大なアップデートであり、現在ComfyUIでネイティブにサポートされています。このモデルは、革新的なハイブリッドアーキテクチャを採用しており、言語モデル(LM)が「万能プランナー」として機能し、シンプルなユーザー入力を包括的な楽曲設計図へと変換します。これにより、ローカルマシン上で商用レベルの高品質な音楽生成が可能になります。 ACE-Step 1.5モデルの主な特徴:- 商用レベルの高品質:音楽的整合性において4.72点を達成し、ほとんどの商用音楽モデルを上回る品質を実現
- 超高速生成:RTX 5090では約1秒、RTX 3090では10秒未満で、4分間のフルトラックをComfyUI上で生成可能
- 50以上の言語対応:英語、中国語、日本語、韓国語、スペイン語、ドイツ語、フランス語、ポルトガル語、イタリア語、ロシア語などに対応
- LoRAによるファインチューニング:ComfyUI上で軽量なLoRAトレーニングを実行し、個人向けのスタイル調整が可能
オプション1:オールインワンチェックポイント(推奨)
AIO(All-in-One)版は、すべてのモデルを単一のチェックポイントファイルにパッケージ化しており、ダウンロードおよび管理が容易です。AIOワークフロー
Comfy Cloudで実行
AIOワークフローをComfy Cloud上で直接実行します。
ワークフローをダウンロード
ローカル環境で使用するためのオールインワンチェックポイントワークフローをダウンロードします。
AIOモデルのダウンロード
ace_step_1.5_turbo_aio.safetensors
オールインワンチェックポイントファイル(大多数のユーザーに推奨)。
オプション2:分割モデルファイル
分割版では、個別のモデルコンポーネントをそれぞれ別々にダウンロードできます。分割モデルワークフロー
Comfy Cloudで実行
分割モデルワークフローをComfy Cloud上で直接実行します。
ワークフローをダウンロード
ローカル環境で使用するための分割モデルワークフローをダウンロードします。
分割モデルのダウンロード
acestep_v1.5_turbo.safetensors
拡散モデル(Diffusion Model)。
qwen_0.6b_ace15.safetensors
テキストエンコーダー(0.6B)。
qwen_1.7b_ace15.safetensors
テキストエンコーダー(1.7B)。
ace_1.5_vae.safetensors
VAEモデル。
ComfyUIにおけるACE-Step 1.5の主要機能
思考連鎖(Chain-of-Thought)によるプランニング
ACE-Step 1.5モデルは、思考連鎖(Chain-of-Thought)推論を用いてメタデータ、歌詞、キャプションを統合し、拡散プロセスを効果的に制御します。その結果、より整合性の高い長尺楽曲の生成が可能になります。ハイブリッドLM+DiTアーキテクチャ
ACE-Step 1.5は、楽曲構造を計画する言語モデル(LM)と、音声合成を担当する拡散トランスフォーマー(DiT)を組み合わせたハイブリッドアーキテクチャを採用しており、両者がComfyUI上でネイティブに動作します。ComfyUIへの今後の追加予定機能
以下の機能はACE-Step 1.5には既に実装済みですが、現時点ではComfyUIではまだサポートされていません:- カバー(Cover):任意の楽曲を入力として与え、新しいプロンプトおよび歌詞とともに提示すると、モデルが全く異なるスタイルでその楽曲を再解釈・再構成します
- リペイント(Repaint):音声の一部区間を選択し、その部分のみを再生成します。モデルは他の部分を一切変更せずに、再生成した区間をシームレスに挿入・統合します