Gemma 4 是 Google DeepMind 的新一代轻量级开源 LLM 系列,专为文本生成、图像理解、视频分析、音频转录和结构化工具调用而设计。在 ComfyUI 中作为原生 文本生成(Text Generation) 模型提供原生支持。 模型亮点:Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
- 原生多模态 — 可同时接收文本、图像、视频和音频输入
- 三种尺寸可选:
- E2B(2B) — 快速轻量,适合消费级 GPU
- E4B(4B) — 性能均衡,推荐默认选择
- 31B — 最佳质量,需要更高显存
- 思考模式 — 内置逐步推理能力,生成答案前先进行逻辑推演
- 长上下文 — 最高 128K tokens(E2B/E4B)和 256K tokens(31B)
- 多语言 — 开箱支持 35+ 种语言,预训练覆盖 140+
- 函数调用 — 原生支持结构化工具调用和 Agent 工作流
- ComfyUI 原生支持 — 通过内置的
TextGenerate和CLIPLoader节点加载和使用
可用工作流
Gemma 4:文本生成
下载工作流
下载 JSON 或在模板库中搜索 “Gemma 4 Text Generation”
在 Comfy Cloud 中运行
在 Comfy Cloud 中打开
该工作流展示了 Gemma 4 的核心文本生成能力。它可以在文本提示词之外,额外接受可选的图像、音频或视频作为上下文输入,并生成自然语言输出——支持推理、编程和多语言提示。
输入:
- 文本提示词 — 你的问题或指令
- 图像(可选)— 用于视觉理解任务(OCR、目标检测、图表阅读等)
- 音频(可选)— 用于语音识别或转录
- 视频(可选)— 用于视频帧理解(内部按 1 FPS 采样)
- Max length — 生成的最大 token 数(默认 256)
- Sampling mode — 开关采样,调节 temperature、top-k、top-p、重复惩罚和随机种子
- Thinking mode — 启用逐步推理,在最终答案前展示思考过程
- Use default template — 使用模型内置的系统提示词模板
- Generated text — 模型生成的文本响应
了解 Subgraph
该工作流使用 Subgraph 节点实现模块化处理。查看 Subgraph 文档了解如何自定义和扩展工作流。
模型下载
Gemma 4 模型在 ComfyUI 中以文本编码器(text encoder)形式加载。下载对应的模型文件并放入正确的目录:Gemma 4 2B (E2B IT FP8)
快速轻量,推荐消费级 GPU 使用。
Gemma 4 4B (E4B IT FP8)
性能均衡,工作流默认使用此模型。
查看所有变体
浏览所有 Gemma 4 模型权重。
.safetensors 文件放入以下目录: