メインコンテンツへスキップ
Ovis-Image は、Ovis-U1 を基盤として構築された7B規模のテキストから画像を生成するモデルで、特に高品質なテキストレンダリングに最適化されています。このモデルは、Qwen-Image などのより大規模な20Bクラスのシステムと同等のテキストレンダリング品質を実現しつつ、広く普及しているハードウェア上で実行可能なほどコンパクトなサイズを維持しています。 モデルの主な特長:
  • 7B規模における優れたテキストレンダリング性能: Qwen-Image などの大規模な20Bクラスのシステムと同等のテキストレンダリング品質を提供し、GPT-4o などの主要なクローズドソースモデルと比較しても、テキスト中心のタスクにおいて競争力のある性能を発揮します
  • テキスト量の多いプロンプトに対する高忠実度: ポスターやバナー、ロゴ、UIモックアップ、インフォグラフィックなど、言語的内容とレンダリングされたタイポグラフィの厳密な整合性が求められるプロンプトに対して特に優れています
  • 正確なバイリンガルテキストレンダリング: 多様なフォント、文字サイズ、アスペクト比において、読みやすく、スペルが正しく、意味的に一貫性のある中国語および英語のテキストを生成します
  • 効率性と展開容易性: 高性能GPU1台(中程度のメモリ容量)で実行可能であり、低遅延の対話型利用をサポートします
関連リンク:

Ovis-Image のテキストから画像を生成するワークフロー

JSONワークフローファイルをダウンロード

ComfyUI Cloud 上で実行

ComfyUI が最新版に更新されていることを確認してください。このガイドで紹介するワークフローは、ワークフローテンプレートから入手できます。
テンプレート内に該当のワークフローが見つからない場合、ComfyUI のバージョンが古くなっている可能性があります。(デスクトップ版の更新は若干遅れることがあります)
ワークフローを読み込んだ際にノードが欠落している場合の主な原因:
  1. 最新の ComfyUI(Nightly 版)を使用していない
  2. 起動時に一部のノードのインポートに失敗している

モデル関連リンク

text_encoders(テキストエンコーダ) diffusion_models(拡散モデル) vae モデルの保存場所
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── ovis_2.5.safetensors
│   ├── 📂 diffusion_models/
│   │      └── ovis_image_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors