Gemma 4 は Google DeepMind による次世代の軽量オープン LLM ファミリーで、テキスト生成、画像理解、動画分析、音声文字起こし、構造化ツール使用のために設計されています。ComfyUI ではネイティブの Text Generation モデルとして統合されています。 モデルのハイライト:Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
- マルチモーダル設計 — テキスト、画像、動画、音声入力を同時に受け付け可能
- 3 サイズから選択:
- E2B(2B) — 高速・軽量、コンシューマー GPU に最適
- E4B(4B) — バランスの取れた性能、推奨デフォルト
- 31B — 最高品質、より多くの VRAM が必要
- 思考モード — 回答生成前の段階的推論を内蔵
- 長いコンテキスト — 最大 128K トークン(E2B/E4B)、256K トークン(31B)
- 多言語対応 — 35+ 言語を即座にサポート、140+ 言語で事前学習
- 関数呼び出し — 構造化ツール使用とエージェント型ワークフローをネイティブサポート
- ComfyUI ネイティブ — 組み込みの
TextGenerateノードとCLIPLoaderノードで読み込み・実行
利用可能なワークフロー
Gemma 4:テキスト生成
ワークフローをダウンロード
JSON をダウンロード、またはテンプレートライブラリで “Gemma 4 Text Generation” を検索
Comfy Cloud で実行
Comfy Cloud で開く
このワークフローは Gemma 4 のコアとなるテキスト生成機能を示しています。テキストプロンプトに加えて、オプションで画像、音声、動画を追加コンテキストとして入力でき、推論・コーディング・多言語プロンプトに対応した自然言語出力を生成します。
入力:
- テキストプロンプト — 質問または指示
- 画像(オプション)— 視覚理解タスク用(OCR、物体検出、チャート読み取りなど)
- 音声(オプション)— 音声認識・文字起こし用
- 動画(オプション)— フレーム単位の動画理解用(内部で 1 FPS にサブサンプリング)
- Max length — 生成する最大トークン数(デフォルト 256)
- Sampling mode — サンプリングのオン/オフ、temperature、top-k、top-p、繰り返しペナルティ、シードを調整
- Thinking mode — 最終回答前の段階的推論を有効化
- Use default template — モデル内蔵のシステムプロンプトテンプレートを使用
- Generated text — モデルが生成したテキスト応答
Subgraph について
このワークフローは Subgraph ノードを使用してモジュール処理を実現しています。Subgraph ドキュメントでカスタマイズと拡張の方法を確認してください。
モデルのダウンロード
Gemma 4 モデルは ComfyUI ではテキストエンコーダー(text encoder)として読み込まれます。該当するモデルファイルをダウンロードし、正しいディレクトリに配置してください:Gemma 4 2B (E2B IT FP8)
高速・軽量、コンシューマー GPU に最適。
Gemma 4 4B (E4B IT FP8)
バランスの取れた性能。ワークフローのデフォルトモデル。
全バリアントを表示
すべての Gemma 4 モデルウェイトを閲覧。
.safetensors ファイルを以下のディレクトリに配置してください: