メインコンテンツへスキップ
Cosmos-Predict2 は、NVIDIA が開発した次世代の物理世界向け基礎モデルであり、物理AIシナリオにおける高品質な視覚生成および予測タスクに特化して設計されています。
このモデルは、卓越した物理的正確性、環境との相互作用能力、および細部の再現性能を備えており、複雑な物理現象や動的なシーンをリアルにシミュレートすることが可能です。
Cosmos-Predict2 は、テキストから画像へ(Text-to-Image)や動画から3Dワールドへ(Video-to-World)など、さまざまな生成手法をサポートしており、産業用シミュレーション、自動運転、都市計画、科学研究などの分野で広く活用されています。 GitHub: Cosmos-predict2
Hugging Face: Cosmos-Predict2
本ガイドでは、ComfyUI における テキストから画像へ(Text-to-Image) のワークフローの実行手順を解説します。 動画生成に関するセクションについては、以下のリンクをご参照ください:

Cosmos Predict2 動画生成

Cosmos-Predict2 を用いた動画生成
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している