跳转到主要内容
Gemini Omni Flash 是 Google DeepMind 推出的高质量、经济高效的视频生成与对话式编辑模型。该模型于 Google I/O 2026 作为 Gemini Omni 家族成员首次亮相,将 Gemini 的多模态推理能力与原生的视频创建功能结合,使开发者能够通过自然对话生成、编辑和重新混合视频。
使用 API 节点需要保证你已经正常登录,并在受许可的网络环境下使用,请参考API 节点总览部分文档来了解使用 API 节点的具体使用要求。
请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。

Gemini Omni Flash 提供的功能

  • 对话式视频编辑:使用自然语言精炼和编辑视频——替换角色、重新布光、改变角度、添加或移除物体,同时保留原始音视频轨道
  • 多模态输入:结合文本、图像和视频输入来引导生成。每次输出视频时原生生成同步音频
  • 世界知识与模拟:将物理理解与 Gemini 在历史、科学及文化背景方面的知识相结合,实现超越照片真实感的有意义叙事
  • 文本与动作同步:直接在视频中渲染清晰文本和图形,使动态排版与屏幕上的运动同步
  • 定价:每秒钟视频输出 $0.10,与 Veo 3.1 Fast 定价一致

工作流

文本转视频

在 Comfy Cloud 中运行

在 Comfy Cloud 中打开

下载工作流

下载 JSON,或在模板库中搜索“Gemini Omni Flash”
根据自然语言提示生成电影级视频。将文本描述转换为具有世界感知的运动、光照和声音的视频输出。非常适合社交媒体内容创作、快速视频原型制作以及迭代式视觉叙事。

图像转视频

在 Comfy Cloud 中运行

在 Comfy Cloud 中打开

下载工作流

下载 JSON,或在模板库中搜索“Gemini Omni Flash”

下载示例图像 1

获取此工作流的示例输入图像

下载示例图像 2

获取第二张示例输入图像
使用 Gemini Omni Flash 从两张图像生成视频。解释自然语言提示以控制时长和画面比例。非常适合制作简短品牌剪辑、动态社交媒体内容,以及通过对话式提示进行迭代视频编辑。

视频编辑

在 Comfy Cloud 中运行

在 Comfy Cloud 中打开

下载工作流

下载 JSON,或在模板库中搜索“Gemini Omni Flash”

下载示例视频

获取此工作流的示例输入视频
使用 Gemini Omni Flash 以自然语言编辑视频。根据描述性指令将单个输入视频转换为经过编辑的输出。在提示中指定时长和画面比例。非常适合快速社交媒体混剪、电影场景调整以及迭代视频精修。

开始使用

  1. 将 ComfyUI 更新到最新版本
  2. 双击画布,搜索“Gemini Omni Flash”节点
  3. 或者进入模板库,使用现成的工作流
  4. 选择与输入类型(文本、图像或视频)匹配的工作流
  5. 输入提示并生成
为获得最佳效果,可将 Gemini Omni Flash 与 Nano Banana 2 Lite 组合使用:先高速生成图像,再用 Gemini Omni Flash 将它们动画化为视频。