Grok Imagine Video 1.5 图生视频 ComfyUI 官方示例 - ComfyUI

Grok Imagine Video 1.5 Partner Node 可从单张图片生成带原生音频的高质量视频。由 xAI 最新 Grok 模型驱动，最高支持 1080p 分辨率。节点通过 model 参数支持两种模型变体：

grok-imagine-video — 上一代模型，图片为可选输入
grok-imagine-video-1.5 — 最新模型，必须提供输入图片，支持 1080p 输出

两种变体均生成原生音频——音效、环境音和对话在同一推理过程中合成，无需额外音频管线。视频时长范围为 1 到 15 秒。

使用 API 节点需要保证你已经正常登录，并在受许可的网络环境下使用，请参考API 节点总览部分文档来了解使用 API 节点的具体使用要求。

本地用户
云端用户

请确保你的 ComfyUI 已经更新。

本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到，可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失，可能原因有：

你用的不是最新开发版（nightly）。
启动时有些节点导入失败。

Grok Imagine Video 1.5: 图生视频

Grok Imagine Video 1.5 工作流

在 Comfy Cloud 中运行

打开 Comfy Cloud

下载工作流

下载 JSON 或在模板库中搜索 “Grok Imagine Video 1.5”

工作流总览

该工作流使用三个节点：

LoadImage — 提供起始图片帧
GrokVideoNode — 核心节点，配置为 grok-imagine-video-1.5 模型
SaveVideo — 保存生成的带原生音频的视频

运行步骤

上传起始图片 — 使用 LoadImage 节点加载参考图片
输入提示词 — 在 GrokVideoNode 中描述运动效果、氛围和场景动态
选择模型 — 确保选择了 grok-imagine-video-1.5
设置分辨率 — 选择输出分辨率（推荐 720p）
设置时长 — 选择视频的秒数
设置种子 — 控制结果的可复现性
执行 — 按下 Ctrl+Enter 生成

输出

生成的视频包含与运动同步的原生音频，通过 SaveVideo 节点自动保存。

小贴士

使用高质量的输入图片可获得最佳效果
提示词最好同时描述视觉场景和运动动态
尝试不同的种子值可获得多样化的结果