メインコンテンツへスキップ

ComfyUI MoGe の紹介

MoGe(CVPR 2025、Microsoft Research)は、オープンドメインの単一画像から3D幾何情報を復元する強力な単眼幾何モデルです。メートルスケールのポイントマップ、深度マップ、法線マップ、カメラFOVを1回のフォワードパスで推定します。 主な機能:
  • 正確な3D幾何推定:単一画像からポイントマップ、深度マップ、法線マップを同時出力
  • メートルスケール(MoGe-2):実世界スケールのポイントマップと深度マップ
  • 柔軟な解像度:様々な解像度とアスペクト比(2:1〜1:2)に対応
  • 高速推論:A100 / RTX 3090 で約60ms/枚(FP16、ViT-L)
  • 透視画像およびパノラマ画像からのメッシュ生成
MoGe は2つのバージョンを提供:
ファイルバージョンメートルスケール法線マップパラメータ数
moge_1_vitl_fp16MoGe-1--314M
moge_2_vitl_normal_fp16MoGe-2331M
MoGe-2 はメートルスケールと高品質な法線マップ推定を追加、よりシャープなビジュアル詳細と低レイテンシを実現。MoGe-2 with normal(moge_2_vitl_normal_fp16)を推奨します。
ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している
ComfyUI は MoGe ノードをネイティブサポートしています。始める前に ComfyUI を最新バージョンに更新してください。生成された .glb モデルは ComfyUI/output/mesh フォルダに出力されます。

モデルのインストール

MoGe チェックポイントをダウンロードし、ComfyUI の該当フォルダに保存します:
ComfyUI/
├── models/
│   ├── geometry_estimation/
│   │   ├── moge_2_vitl_normal_fp16.safetensors
│   │   └── moge_1_vitl_fp16.safetensors

ワークフロー例


1. 深度推定

機能: 単一画像からメートルスケールの深度マップ、カラー深度プレビュー、マスクを生成——MoGe が1回の推論で推定するメートルスケール深度をそのまま出力します。シーンの深度リファレンスとしてコンポジットや深度エフェクトに有用で、メッシュ生成の前処理としても使えます。 MoGe は画像からカメラFOVも自動推定します。必要に応じて実際のFOVを入力するとさらに精度が向上します。

ワークフローをダウンロード

JSONをダウンロード、またはテンプレートライブラリで “MoGe Depth Estimation” を検索

サンプル画像をダウンロード

このワークフローで使用するサンプル入力画像を取得

1.2 実行手順

  1. LoadMoGeModel ノードが MoGe チェックポイントをロードしていることを確認
  2. Load Image ノードに画像をロード
  3. Queue ボタン、またはショートカット Ctrl(cmd) + Enter で実行
  4. カラー深度プレビュー、生深度プレビュー、マスクが出力されます

2. 透視写真を3Dメッシュに変換

機能: 単一の透視写真をテクスチャ付きGLBメッシュに変換し、法線と深度のプレビューも生成します。MoGe が可視シーンからポイントマップ、深度、法線を推定し、メッシュに変換します。これは単眼幾何推定であり、オクルージョン領域や物体の裏側は欠落や断片が生じます。シーンのラピッドプロトタイピングや参照ジオメトリ、深度/法線のメッシュ可視化には有用ですが、マルチビュー3D再構築の代替にはなりません。

ワークフローをダウンロード

JSONをダウンロード、またはテンプレートライブラリで “3D MoGe Perspective to Mesh” を検索

サンプル画像をダウンロード

このワークフローで使用するサンプル入力画像を取得

2.1 実行手順

  1. LoadMoGeModel ノードが MoGe チェックポイントをロードしていることを確認
  2. Load Image ノードに透視写真をロード
  3. (オプション)OpenGL および DirectX の法線プレビューを表示
  4. Queue または Ctrl(cmd) + Enter で実行

3. パノラマをメッシュに変換

機能: 360°パノラマ(正距円筒図法)をテクスチャ付きGLBメッシュに変換します。MoGePanoramaInference がパノラマを12の視点に分割し、それぞれで独立して単眼幾何推定を実行、単一のメッシュに統合します。各セグメントは単一視点からの推定であるため、結果は大まかなシーン再構築——360°シーンの空間概要を得るには有用ですが、オクルージョン領域や表面背後は欠落や断片が生じます。

ワークフローをダウンロード

JSONをダウンロード、またはテンプレートライブラリで “3D MoGe Panorama to Mesh” を検索

サンプル画像をダウンロード

このワークフローで使用するサンプル入力画像を取得

3.1 実行手順

  1. LoadMoGeModel ノードが MoGe チェックポイントをロードしていることを確認
  2. Load Image ノードに正距円筒図法のパノラマ画像をロード
  3. Queue ボタン、または Ctrl(cmd) + Enter で実行

コミュニティリソース