Google Gemini Omni

4 个可用模型

提供商: Google

更新于: 最近

Google Gemini Omni 是一款多模态视频生成与编辑模型，可将文本、图像和视频参考转化为连贯视频，并提供稳定场景一致性、世界理解能力和自然语言控制。

可用模型

Gemini Omni 参考生视频

gemini-omni-r2v

Gemini Omni 参考生视频模型支持基于 1-5 张参考图片来生成视频。

Gemini Omni 视频转视频

gemini-omni-extend

Gemini Omni Extend 模型支持视频转视频（续写或编辑）功能，可附加1至5张参考图片。

Gemini Omni 图生视频

gemini-omni-i2v

Google Gemini Omni 图生视频模型支持参考首帧、首尾帧以及三张图像进行视频融合。

Gemini Omni 文生视频

gemini-omni-t2v

Google Gemini Omni 文生视频版本模型。

多模态 AI 视频

Gemini Omni API：
万物皆可创作

让 Gemini 的推理能力与创造力相遇，一个模型搞定文生视频, 真实物理, 对话式编辑.

查看文档

10s+

单片时长

1080p

输出分辨率

生成模式

提示词示例

弹珠在连锁机关轨道上飞速滚动，一镜到底，物理效果精准...

四种模式，一个智能引擎

Gemini Omni 融合 Gemini 的世界理解与生成式媒体，覆盖从创意到成片的完整链路。

文生视频

Text to Video

用自然语言描述任意场景，模型自动生成连贯运动、精准物理与电影级细节的画面。

直觉级重力与流体物理
基于真实世界知识
MovieGenBench 领先

图生视频

Image to Video

用首帧（可选尾帧）让静态图片动起来。锁定起止状态，模型补全自然可信的运动过程。

首帧 / 尾帧锚定
自然流畅的运动
精准起止控制

参考图生视频

Reference to Video

上传最多 5 张参考图，锁定角色、风格与场景。每个镜头都保持完美一致性。

最多 5 张参考图
角色与风格一致
参考还原度领先

视频续写

Video Extension

延续已有片段，或一步步编辑它。每一次调整都建立在上一次之上，全程保持场景连贯。

无缝片段续写
多轮逐步编辑
场景始终连贯

为真实创作而生

把 Gemini Omni 变成实用工具的能力——而不只是演示。

用对话编辑视频

用自然语言一步步精修场景——换环境、调动作、替换对象、转镜头或加特效，同时保持原有场景连贯。无需每次重写整段提示词。

每一帧都符合真实逻辑

Gemini Omni 把视觉创作与物理、历史、生物、文化和叙事逻辑打通——场景、对象和动作都按应有的方式呈现，成片更有意图，而非随机。

多模态参考，真正可用

把文本、最多 5 张参考图和源视频融合为一个可控的创作过程。从真实素材出发，而非空白提示词，并让主体与风格在每个镜头里保持一致。

数字形象与角色表演

让角色的存在感、表情与演绎融入完整场景——而非单薄的视觉图层。非常适合演讲片段、角色叙事与互动媒体。

用 Gemini Omni API 接入

把 Gemini Omni 嵌入你的 SaaS、游戏引擎或创意工具。异步生成 + 任务轮询，让大规模负载稳稳跑起来。

标准 REST API

兼容 OpenAI 的 /v1/videos 接口

异步任务轮询

排队、追踪、取结果都轻松

获取 API Key

# Gemini Omni 视频生成
payload = {
  "model": "gemini-omni-t2v", # or -i2v / -r2v / -extend
  "prompt": "弹珠在连锁机关轨道上飞速滚动，一镜到底",
  "aspect_ratio": "16:9"
}

response = requests.post(
  "https://api.apipod.ai/v1/videos/generations",
  json=payload,
  headers={"Authorization": "Bearer Key"}
)

技术规格

在 Gemini Omni 系列上规划生产级负载所需的一切。

模型变体

t2v · i2v · r2v · extend

一个模型，四种生成模式

单片时长

10 秒

用续写模式延长成片

分辨率

720p · 1080p

高清与全高清输出

画面比例

16:9 · 9:16 · 1:1

横屏、竖屏与方形

参考图数量

最多 5 张

用于 r2v 与 extend 模式

提示词长度

4,000 字符

支持丰富细腻的描述

常见问题

Gemini Omni 是什么？

Gemini Omni 是 Google 的多模态视频生成与编辑模型。它把 Gemini 的推理与世界理解能力与生成式媒体结合，把任意文本、图片与视频组合转化为连贯、符合物理规律的视频。

提供哪些生成模式？

四种模式：文生视频（gemini-omni-t2v）、首尾帧图生视频（gemini-omni-i2v）、最多 5 张参考图生视频（gemini-omni-r2v）以及视频续写 / 编辑（gemini-omni-extend）。

最多能用几张参考图？

参考图生视频（r2v）支持最多 5 张参考图，用于锁定角色、风格与场景；图生视频（i2v）接受首帧，并可选尾帧。

Gemini Omni 会生成原生音频吗？

是的。原生音频生成是 Gemini Omni 系列的核心能力，能生成与画面动作同步的音效。

每段视频多长？

每段视频 10 秒。如需更长内容，可使用视频续写模式延续片段，同时保持场景连贯。

支持哪些画面比例？

支持 16:9（电影级横屏）、9:16（竖屏 / 短视频）和 1:1（方形），分辨率可选 720p 或 1080p。

生成的内容可以商用吗？

API 生成的内容受安全过滤保护，版权通常归生成它的账户持有人所有，可用于商业用途。详情请查阅服务条款。

万物皆可创作

Gemini Omni 已上线 APIPod，支持生产级调用。

联系我们

Google Gemini Omni

可用模型

Gemini Omni 参考生视频

Gemini Omni 视频转视频

Gemini Omni 图生视频

Gemini Omni 文生视频

Gemini Omni API： 万物皆可创作

四种模式，一个智能引擎

Text to Video

Image to Video

Reference to Video

Video Extension

为真实创作而生

用对话编辑视频

每一帧都符合真实逻辑

多模态参考，真正可用

数字形象与角色表演

用 Gemini Omni API 接入

技术规格

常见问题

万物皆可创作

Gemini Omni API：
万物皆可创作