GPT-Realtime-2 × BibiGPT

OpenAI 在 2026-05-07 發布 GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper——語音智慧 API 三件組。128K 脈絡(原 32K)、GPT-5 級推理、70+→13 語種即時同傳、串流 Whisper STT。BibiGPT 長影片字幕生成、多語翻譯、Agent 追問會按情境路由到新 API,無需自己處理遷移。

發布 · 2026-05-07 128K 脈絡 · GPT-5 級 Translate $0.034/分鐘 · Whisper $0.017/分鐘

核心事實(90 秒速讀)

截至 2026-05-09,OpenAI 在 2026-05-07 發布 GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper——語音智慧 API 三件組。128K 脈絡(原 32K)、GPT-5 級推理、70+→13 語種即時同傳、串流 Whisper STT。價格:Realtime-2 $32/$64 每 MTok,Translate $0.034/分鐘,Whisper $0.017/分鐘。BibiGPT 路由層已把新端點納入長影片字幕、多語翻譯、Agent 追問的輪詢。

Features

GPT-Realtime-2 是什麼?

OpenAI 2026-05-07 語音智慧 API 升級——三個新端點(Realtime-2、Realtime-Translate、Realtime-Whisper),128K 脈絡、GPT-5 級推理,按分鐘計費的翻譯與 STT。

128K 脈絡視窗

Realtime-2 從原本 32K 上限躍升到 128K token,足以在一個語音工作階段裝下完整長講座或多小時 Podcast,不需切片。

GPT-5 級語音推理

OpenAI 把 Realtime-2 定位為 GPT-5 推理品質的語音對應版本——多輪一致性更穩,工具呼叫也更可靠。

70+→13 語種即時同傳

Realtime-Translate 接受 70+ 來源語言,輸出 13 個目標語言,低延遲串流同傳可用於即時通話——價格 $0.034/分鐘音訊。

對 BibiGPT 使用者意味著什麼

BibiGPT 把長影片字幕生成、翻譯、Agent 追問跨多家語音/ASR 供應商路由。新一代 Realtime API 三件組重塑最難語音任務的路由策略。

更便宜的串流字幕

Realtime-Whisper 把串流 STT 降到 $0.017/分鐘——大約是同類即時 ASR 的一半。BibiGPT 的 YouTube/Bilibili/Podcast 字幕流水線可以切到它。

一站式語音翻譯

Realtime-Translate 把 STT + 翻譯 + 串流輸出折疊到一個端點。BibiGPT 翻譯流水線可在支援語對上壓縮鏈路,得到更乾淨的輸出。

長脈絡語音追問

128K 語音脈絡讓 BibiGPT 的 Agent 可一次回答 90 分鐘講座的追問——不必重新摘要也不丟前段論點。

5 條關鍵變化(90 秒速讀)

OpenAI 語音 API 2026-05-07 發布的關鍵改變。

  1. 1

    三個新語音端點

    Realtime-2、Realtime-Translate、Realtime-Whisper 作為三件組發布。呼叫方按用例選端點,而非一個通用 API 處理所有。

  2. 2

    脈絡 32K → 128K

    Realtime-2 裝 4 倍語音脈絡。長講座、多小時 Podcast、整場會議可一次工作階段裝下,不需切片也無丟脈絡的接縫。

  3. 3

    語音上的 GPT-5 級推理

    Realtime-2 定位為 GPT-5 推理的語音對應版本。多輪語音 Agent、工具呼叫、結構化檢索同享推理升級。

  4. 4

    Translate $0.034/分鐘,STT $0.017/分鐘

    Realtime-Translate 覆蓋 70+ 來源 → 13 目標語種,按音訊分鐘計費。Realtime-Whisper 串流 STT 大約是上一代 Realtime ASR 的一半價格。

  5. 5

    BibiGPT 使用者由路由層吸收

    如果你透過 BibiGPT 而非自接 OpenAI,路由層會把 Realtime-2 / Translate / Whisper 輪詢到影片字幕與翻譯。終端使用者拿到的是更佳輸出而無需寫遷移程式碼。

BibiGPT 使用者的 3 個典型情境

新語音 API 三件組最受益的情境集中在哪裡。

長影片字幕生成

90 分鐘 Bilibili 講座或 2 小時 YouTube Podcast。Realtime-Whisper 串流 STT $0.017/分鐘把字幕成本砍掉一半。BibiGPT 路由層會把音軌切到新端點,端到端更便宜更快。

即時多語翻譯

技術演講 ja → en、產品評測 zh → ko、法務講解 en → zh-TW。Realtime-Translate 把 STT + 翻譯折疊到一個串流端點,$0.034/分鐘。BibiGPT 翻譯流水線在支援語對上可用它得到更乾淨低延遲的輸出。

長影片之上的 Agent 追問

BibiGPT 出摘要後,使用者繼續語音追問:"演講者在第 47 分鐘怎麼說定價?"。128K 語音脈絡 + GPT-5 級推理讓 Agent 一次工作階段回答整場講座,不需重摘也不丟早段論點。

常見問題

歡迎提問!

用 BibiGPT 做影片字幕與翻譯——背後就有 Realtime-2 等級語音模型

BibiGPT 自動在 OpenAI Realtime、Anthropic、Gemini 之間路由——影片字幕、多語翻譯、追問。你按情境拿到合適的語音模型,不用自己處理遷移與按分鐘計費。