Gemini Omni Flash：对话式视频生成

Gemini Omni Flash 是 Google DeepMind 推出的高质量、经济高效的视频生成与对话式编辑模型。该模型于 Google I/O 2026 作为 Gemini Omni 家族成员首次亮相，将 Gemini 的多模态推理能力与原生的视频创建功能结合，使开发者能够通过自然对话生成、编辑和重新混合视频。

使用 API 节点需要保证你已经正常登录，并在受许可的网络环境下使用，请参考API 节点总览部分文档来了解使用 API 节点的具体使用要求。

便携版或手动安装用户
桌面版或云端用户

请确保你的 ComfyUI 已经更新。

本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到，可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失，可能原因有：

你用的不是最新开发版（nightly）。
你用的是稳定版或桌面版（没有包含最新的更新）。
启动时有些节点导入失败。

Gemini Omni Flash 提供的功能

对话式视频编辑：使用自然语言精炼和编辑视频——替换角色、重新布光、改变角度、添加或移除物体，同时保留原始音视频轨道
多模态输入：结合文本、图像和视频输入来引导生成。每次输出视频时原生生成同步音频
世界知识与模拟：将物理理解与 Gemini 在历史、科学及文化背景方面的知识相结合，实现超越照片真实感的有意义叙事
文本与动作同步：直接在视频中渲染清晰文本和图形，使动态排版与屏幕上的运动同步
定价：每秒钟视频输出 $0.10，与 Veo 3.1 Fast 定价一致

工作流

文本转视频

在 Comfy Cloud 中运行

在 Comfy Cloud 中打开

下载工作流

下载 JSON，或在模板库中搜索“Gemini Omni Flash”

根据自然语言提示生成电影级视频。将文本描述转换为具有世界感知的运动、光照和声音的视频输出。非常适合社交媒体内容创作、快速视频原型制作以及迭代式视觉叙事。

图像转视频

在 Comfy Cloud 中运行

在 Comfy Cloud 中打开

下载工作流

下载 JSON，或在模板库中搜索“Gemini Omni Flash”

下载示例图像 1

获取此工作流的示例输入图像

下载示例图像 2

获取第二张示例输入图像

使用 Gemini Omni Flash 从两张图像生成视频。解释自然语言提示以控制时长和画面比例。非常适合制作简短品牌剪辑、动态社交媒体内容，以及通过对话式提示进行迭代视频编辑。

视频编辑

在 Comfy Cloud 中运行

在 Comfy Cloud 中打开

下载工作流

下载 JSON，或在模板库中搜索“Gemini Omni Flash”

下载示例视频

获取此工作流的示例输入视频

使用 Gemini Omni Flash 以自然语言编辑视频。根据描述性指令将单个输入视频转换为经过编辑的输出。在提示中指定时长和画面比例。非常适合快速社交媒体混剪、电影场景调整以及迭代视频精修。

开始使用

将 ComfyUI 更新到最新版本
双击画布，搜索“Gemini Omni Flash”节点
或者进入模板库，使用现成的工作流
选择与输入类型（文本、图像或视频）匹配的工作流
输入提示并生成

为获得最佳效果，可将 Gemini Omni Flash 与 Nano Banana 2 Lite 组合使用：先高速生成图像，再用 Gemini Omni Flash 将它们动画化为视频。

Google Gemini 合作伙伴节点 ComfyUI 官方示例

Nano Banana Pro：工作室级 AI 图像生成

开始使用

Agent Tools / MCP

基础概念

界面指南

教程

合作伙伴节点

Gemini Omni Flash：对话式视频生成

Gemini Omni Flash 提供的功能

工作流

文本转视频

在 Comfy Cloud 中运行

下载工作流

图像转视频

在 Comfy Cloud 中运行

下载工作流

下载示例图像 1

下载示例图像 2

视频编辑

在 Comfy Cloud 中运行

下载工作流

下载示例视频

开始使用

​Gemini Omni Flash 提供的功能

​工作流

​文本转视频

在 Comfy Cloud 中运行

下载工作流

​图像转视频

在 Comfy Cloud 中运行

下载工作流

下载示例图像 1

下载示例图像 2

​视频编辑

在 Comfy Cloud 中运行

下载工作流

下载示例视频

​开始使用

Gemini Omni Flash 提供的功能

工作流

文本转视频

图像转视频

视频编辑

开始使用