Gemini Omni — Google I/O 2026 任意输入到任意输出多模态
Google 在 2026-05-19 I/O 上发布 Gemini Omni——单一模型内统一文本、图像、音频、视频的理解与生成。上传既有视频后用自然语言编辑:换背景、换风格、改场景内容、换镜头角度、添加同步音效、替换角色与物体。创作以你自己数字分身为主角的视频。全球面向 Google AI Plus / Pro / Ultra 订阅者通过 Gemini app 与 Google Flow 推出;YouTube Shorts 下周接入;开发者 / 企业 API 几周内开放。本页解读发布内容,以及 BibiGPT 用户如何把 Omni 生成内容与深度视频追问搭配使用。
核心事实(90 秒速读)
Google 在 2026-05-19 I/O 上发布 Gemini Omni——首个把文本、图像、音频、视频的理解与生成统一到一个系统的任意输入到任意输出多模态模型。上传既有视频后用自然语言编辑:换背景、换风格、改场景、改镜头角度、添加同步音效、替换角色或物体。创作以你自己数字分身为主角的视频。发布当日全球面向 Google AI Plus / Pro / Ultra 订阅者通过 Gemini app 与 Google Flow 推出;YouTube Shorts 下周接入;开发者 / 企业 API 几周内开放。BibiGPT 天然互补——把任意 Omni 生成视频 URL 贴进来做转录锚定总结、带时间戳追问与 5 语言(zh / en / ja / ko / zh-tw)字幕翻译。
Features
Gemini Omni 是什么
把文本、图像、音频、视频生成统一到单一模型的任意输入到任意输出多模态模型——按 Google 说法,是首个具备此范围的顶级模型。
任意输入 → 任意输出
可同时输入图像、音频、视频、文本。Omni 在四种模态间统一推理,并以四种模态中的任一种产生一致输出。这种统一设计让自然语言视频编辑变得可行——模型在同一表征下理解源视频与编辑指令。
自然语言视频编辑
上传既有视频,用语言描述编辑:换背景环境、换风格、改场景内容、改镜头角度、添加随视觉事件触发的音效、替换角色与物体。Omni 在保留其余画面的同时应用编辑。
数字分身创作
用你自己的数字分身——可作为主持人或演员出现在新生成视频中。Omni 把文本到视频、角色控制、音频配音整合在一个工具内。
推出与可用性
在哪、何时能真正用到 Gemini Omni。
全球面向 Google AI Plus / Pro / Ultra
发布当日全球开始面向 Google AI Plus / Pro / Ultra 订阅者通过 Gemini app 与 Google Flow 推出。消费端不限美国,与近期许多 Google AI 功能不同。
YouTube Shorts 下周接入
下周 YouTube Shorts 接入 Omni 驱动的视频生成与编辑。Shorts 创作者可直接在编辑流程里做风格迁移、换背景、生成分身主导视频。
开发者 + 企业 API 几周内
开发者与企业团队的 API 访问稍迟几周。开放后,第三方应用即可程序化集成 Omni 做视频生成、编辑与分身驱动内容。
BibiGPT 如何与 Omni 生成内容搭配
Omni 生成与编辑视频。BibiGPT 处理理解、总结、追问与翻译——含 Omni 生成的视频。两者天然互补。
5 语言总结 Omni 生成视频
把任意 Omni 生成的 YouTube Shorts URL 贴进 BibiGPT。在 zh / en / ja / ko / zh-tw 任一语言下拿到转录锚定的总结与带时间戳跳转。把分身主导讲解视频分享给跨语言地区受众时尤其有用。
对 Omni 编辑教程做追问
用 Omni 自然语言编辑组装教程视频(插场景、换背景、加音效)。再用 BibiGPT 让成片可搜索——观众追问,BibiGPT 在转录基础上作答并带时间戳跳转到对应步骤。
翻译 Omni 配音内容触达全球
Omni 的音频输出按原生成语言导出。BibiGPT 接管多语字幕翻译与烧录(SRT/VTT、浏览器内 ffmpeg.wasm),让 Omni 配音作品在不重新生成源的前提下触达母语观众。
5 条关键事实(90 秒速读)
Google Gemini Omni 在 2026-05-19 I/O 上的关键改变。
- 1
任意输入到任意输出——首个具备此范围的顶级模型
文本、图像、音频、视频的理解与生成在单一模型内统一。四种模态可任意组合输入;Omni 在四种模态间统一推理,并以任一模态产生一致输出。按 Google 定位是首个具备此任意输入到任意输出统一性的顶级 AI 系统。
- 2
对既有视频做自然语言编辑
上传视频,描述编辑:换背景环境、换风格、改场景内容、改镜头角度、添加随视觉事件触发的音效、替换角色与物体。Omni 在保留其余画面的同时应用编辑。
- 3
数字分身创作
用你自己的数字分身——可作为主持人或演员出现在新生成视频中。文本到视频、角色控制、音频配音整合在一个工具里。
- 4
全球面向 Plus / Pro / Ultra;Shorts 下周接入
发布当日全球面向 Google AI Plus / Pro / Ultra 订阅者通过 Gemini app 与 Google Flow 推出。下周 YouTube Shorts 接入 Omni 驱动视频生成与编辑。开发者 / 企业 API 几周内开放。
- 5
BibiGPT 在理解与翻译上天然互补
Omni 生成与编辑视频;BibiGPT 做转录锚定总结、带时间戳追问与多语字幕翻译(zh / en / ja / ko / zh-tw)。任意 Omni 生成的 YouTube Shorts URL 接进 BibiGPT 即可得到面向全球受众的成品。
BibiGPT + Omni 用户的 3 个典型场景
Omni 生成与 BibiGPT 理解层最干净的搭配点。
分身主导讲解 → 多语触达
用 Omni 生成分身主导讲解视频。把成片 URL 接进 BibiGPT 拿到 zh / en / ja / ko / zh-tw 的转录锚定总结。再用 BibiGPT 字幕翻译 + 烧录为每个目标市场产出母语版本,不需重新生成源视频。
Omni 编辑教程 → 可搜索追问
用 Omni 自然语言编辑组装多步骤教程(插演示场景、换背景、加点击触发的音效)。把成片 URL 上传到 BibiGPT。观众追问,得到转录锚定的回答与带时间戳跳转到对应步骤。
Shorts 内容 → 跨语言二次利用
用 Omni 在 YouTube Shorts 上生成竖屏内容。把每个 Shorts URL 贴进 BibiGPT 抽转录与多语总结。二次产出为长文社交贴、newsletter 摘要与线程总结——全锚定到原始口播。
深受创作者、学生和研究人员的喜爱
看看大家为什么每天都用 BibiGPT 把视频转成文字。
全球 50,000+ 用户的信赖之选
“贴上链接几秒钟就拿到干净的字幕文字,每周帮我省下好几个小时的手动整理时间。”
Maya R.
内容创作者 · 二次创作短视频
“导出逐字稿后我可以按自己的节奏复习生词,再也不用反复暂停视频了。”
Daniel K.
语言学习者 · 用真实视频学外语
“准确、带时间戳的文字可以直接引用,它已经悄悄成为我日常工作流的一部分。”
Priya S.
研究人员 · 引用公开演讲
常见问题
常见问题解答
有问题?问我们!
用 BibiGPT 总结、搜索、翻译任意 Gemini Omni 生成视频
把任意 YouTube/B 站/播客/上传视频 URL(含 Omni 生成内容)贴进 BibiGPT。拿到转录锚定的总结、带时间戳跳转、思维导图、追问与 zh / en / ja / ko / zh-tw 多语字幕生成。免费档可用,无 Premium 门,任意浏览器。