Gemini Omni — Google I/O 2026 任意輸入到任意輸出多模態

Google 在 2026-05-19 I/O 上發布 Gemini Omni——單一模型內統一文字、圖像、音訊、影片的理解與產生。上傳既有影片後用自然語言編輯:換背景、換風格、改場景內容、改鏡頭角度、加入同步音效、替換角色與物體。創作以你自己數位分身為主角的影片。全球面向 Google AI Plus / Pro / Ultra 訂閱者通過 Gemini app 與 Google Flow 推出;YouTube Shorts 下週接入;開發者 / 企業 API 幾週內開放。本頁解讀發布內容,以及 BibiGPT 使用者如何把 Omni 產生內容與深度影片追問搭配使用。

發布 · I/O 2026-05-19 全球 Plus / Pro / Ultra Shorts · 下週

核心事實(90 秒速讀)

Google 在 2026-05-19 I/O 上發布 Gemini Omni——首個把文字、圖像、音訊、影片的理解與產生統一到一個系統的任意輸入到任意輸出多模態模型。上傳既有影片後用自然語言編輯:換背景、換風格、改場景、改鏡頭角度、加入同步音效、替換角色或物體。創作以你自己數位分身為主角的影片。發布當日全球面向 Google AI Plus / Pro / Ultra 訂閱者通過 Gemini app 與 Google Flow 推出;YouTube Shorts 下週接入;開發者 / 企業 API 幾週內開放。BibiGPT 天然互補——把任意 Omni 產生影片 URL 貼進來做轉錄錨定總結、帶時間戳追問與 5 語言(zh / en / ja / ko / zh-tw)字幕翻譯。

Features

Gemini Omni 是什麼

把文字、圖像、音訊、影片產生統一到單一模型的任意輸入到任意輸出多模態模型——按 Google 說法,是首個具備此範圍的頂級模型。

任意輸入 → 任意輸出

可同時輸入圖像、音訊、影片、文字。Omni 在四種模態間統一推理,並以四種模態中的任一種產生一致輸出。這種統一設計讓自然語言影片編輯變得可行——模型在同一表徵下理解源影片與編輯指令。

自然語言影片編輯

上傳既有影片,用語言描述編輯:換背景環境、換風格、改場景內容、改鏡頭角度、加入隨視覺事件觸發的音效、替換角色與物體。Omni 在保留其餘畫面的同時應用編輯。

數位分身創作

用你自己的數位分身——可作為主持人或演員出現在新產生影片中。Omni 把文字到影片、角色控制、音訊配音整合在一個工具內。

推出與可用性

在哪、何時能真正用到 Gemini Omni。

全球面向 Google AI Plus / Pro / Ultra

發布當日全球開始面向 Google AI Plus / Pro / Ultra 訂閱者通過 Gemini app 與 Google Flow 推出。消費端不限美國,與近期許多 Google AI 功能不同。

YouTube Shorts 下週接入

下週 YouTube Shorts 接入 Omni 驅動的影片產生與編輯。Shorts 創作者可直接在編輯流程裡做風格遷移、換背景、產生分身主導影片。

開發者 + 企業 API 幾週內

開發者與企業團隊的 API 存取稍遲幾週。開放後,第三方應用即可程式化整合 Omni 做影片產生、編輯與分身驅動內容。

BibiGPT 如何與 Omni 產生內容搭配

Omni 產生與編輯影片。BibiGPT 處理理解、總結、追問與翻譯——含 Omni 產生的影片。兩者天然互補。

5 語言總結 Omni 產生影片

把任意 Omni 產生的 YouTube Shorts URL 貼進 BibiGPT。在 zh / en / ja / ko / zh-tw 任一語言下拿到轉錄錨定的總結與帶時間戳跳轉。把分身主導講解影片分享給跨語言地區受眾時尤其有用。

對 Omni 編輯教程做追問

用 Omni 自然語言編輯組裝教程影片(插場景、換背景、加音效)。再用 BibiGPT 讓成片可搜尋——觀眾追問,BibiGPT 在轉錄基礎上作答並帶時間戳跳轉到對應步驟。

翻譯 Omni 配音內容觸達全球

Omni 的音訊輸出按原產生語言匯出。BibiGPT 接管多語字幕翻譯與燒錄(SRT/VTT、瀏覽器內 ffmpeg.wasm),讓 Omni 配音作品在不重新產生源的前提下觸達母語觀眾。

5 條關鍵事實(90 秒速讀)

Google Gemini Omni 在 2026-05-19 I/O 上的關鍵改變。

  1. 1

    任意輸入到任意輸出——首個具備此範圍的頂級模型

    文字、圖像、音訊、影片的理解與產生在單一模型內統一。四種模態可任意組合輸入;Omni 在四種模態間統一推理,並以任一模態產生一致輸出。按 Google 定位是首個具備此任意輸入到任意輸出統一性的頂級 AI 系統。

  2. 2

    對既有影片做自然語言編輯

    上傳影片,描述編輯:換背景環境、換風格、改場景內容、改鏡頭角度、加入隨視覺事件觸發的音效、替換角色與物體。Omni 在保留其餘畫面的同時應用編輯。

  3. 3

    數位分身創作

    用你自己的數位分身——可作為主持人或演員出現在新產生影片中。文字到影片、角色控制、音訊配音整合在一個工具裡。

  4. 4

    全球面向 Plus / Pro / Ultra;Shorts 下週接入

    發布當日全球面向 Google AI Plus / Pro / Ultra 訂閱者通過 Gemini app 與 Google Flow 推出。下週 YouTube Shorts 接入 Omni 驅動影片產生與編輯。開發者 / 企業 API 幾週內開放。

  5. 5

    BibiGPT 在理解與翻譯上天然互補

    Omni 產生與編輯影片;BibiGPT 做轉錄錨定總結、帶時間戳追問與多語字幕翻譯(zh / en / ja / ko / zh-tw)。任意 Omni 產生的 YouTube Shorts URL 接進 BibiGPT 即可得到面向全球受眾的成品。

BibiGPT + Omni 使用者的 3 個典型場景

Omni 產生與 BibiGPT 理解層最乾淨的搭配點。

分身主導講解 → 多語觸達

用 Omni 產生分身主導講解影片。把成片 URL 接進 BibiGPT 拿到 zh / en / ja / ko / zh-tw 的轉錄錨定總結。再用 BibiGPT 字幕翻譯 + 燒錄為每個目標市場產出母語版本,不需重新產生源影片。

Omni 編輯教程 → 可搜尋追問

用 Omni 自然語言編輯組裝多步驟教程(插示範場景、換背景、加點擊觸發的音效)。把成片 URL 上傳到 BibiGPT。觀眾追問,得到轉錄錨定的回答與帶時間戳跳轉到對應步驟。

Shorts 內容 → 跨語言二次利用

用 Omni 在 YouTube Shorts 上產生直幅內容。把每個 Shorts URL 貼進 BibiGPT 抽轉錄與多語總結。二次產出為長文社交貼、newsletter 摘要與線程總結——全錨定到原始口播。

深受創作者、學生和研究人員的喜愛

看看大家為什麼每天都用 BibiGPT 把影片轉成文字。

全球 50,000+ 使用者的信賴之選

★★★★★

“貼上連結幾秒鐘就拿到乾淨的字幕文字,每週幫我省下好幾個小時的手動整理時間。”

Maya R.

內容創作者 · 二次創作短影片

★★★★★

“匯出逐字稿後我可以按自己的節奏複習生詞,再也不用反覆暫停影片了。”

Daniel K.

語言學習者 · 用真實影片學外語

★★★★★

“準確、帶時間戳的文字可以直接引用,它已經悄悄成為我日常工作流程的一部分。”

Priya S.

研究人員 · 引用公開演講

常見問題

歡迎提問!

用 BibiGPT 總結、搜尋、翻譯任意 Gemini Omni 產生影片

把任意 YouTube/Bilibili/Podcast/上傳影片 URL(含 Omni 產生內容)貼進 BibiGPT。拿到轉錄錨定的總結、帶時間戳跳轉、思維導圖、追問與 zh / en / ja / ko / zh-tw 多語字幕產生。免費檔可用,無 Premium 門,任意瀏覽器。