GPT-Realtime-2 × BibiGPT
OpenAI 在 2026-05-07 發布 GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper——語音智慧 API 三件組。128K 脈絡(原 32K)、GPT-5 級推理、70+→13 語種即時同傳、串流 Whisper STT。BibiGPT 長影片字幕生成、多語翻譯、Agent 追問會按情境路由到新 API,無需自己處理遷移。
核心事實(90 秒速讀)
截至 2026-05-09,OpenAI 在 2026-05-07 發布 GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper——語音智慧 API 三件組。128K 脈絡(原 32K)、GPT-5 級推理、70+→13 語種即時同傳、串流 Whisper STT。價格:Realtime-2 $32/$64 每 MTok,Translate $0.034/分鐘,Whisper $0.017/分鐘。BibiGPT 路由層已把新端點納入長影片字幕、多語翻譯、Agent 追問的輪詢。
Features
GPT-Realtime-2 是什麼?
OpenAI 2026-05-07 語音智慧 API 升級——三個新端點(Realtime-2、Realtime-Translate、Realtime-Whisper),128K 脈絡、GPT-5 級推理,按分鐘計費的翻譯與 STT。
128K 脈絡視窗
Realtime-2 從原本 32K 上限躍升到 128K token,足以在一個語音工作階段裝下完整長講座或多小時 Podcast,不需切片。
GPT-5 級語音推理
OpenAI 把 Realtime-2 定位為 GPT-5 推理品質的語音對應版本——多輪一致性更穩,工具呼叫也更可靠。
70+→13 語種即時同傳
Realtime-Translate 接受 70+ 來源語言,輸出 13 個目標語言,低延遲串流同傳可用於即時通話——價格 $0.034/分鐘音訊。
對 BibiGPT 使用者意味著什麼
BibiGPT 把長影片字幕生成、翻譯、Agent 追問跨多家語音/ASR 供應商路由。新一代 Realtime API 三件組重塑最難語音任務的路由策略。
更便宜的串流字幕
Realtime-Whisper 把串流 STT 降到 $0.017/分鐘——大約是同類即時 ASR 的一半。BibiGPT 的 YouTube/Bilibili/Podcast 字幕流水線可以切到它。
一站式語音翻譯
Realtime-Translate 把 STT + 翻譯 + 串流輸出折疊到一個端點。BibiGPT 翻譯流水線可在支援語對上壓縮鏈路,得到更乾淨的輸出。
長脈絡語音追問
128K 語音脈絡讓 BibiGPT 的 Agent 可一次回答 90 分鐘講座的追問——不必重新摘要也不丟前段論點。
5 條關鍵變化(90 秒速讀)
OpenAI 語音 API 2026-05-07 發布的關鍵改變。
- 1
三個新語音端點
Realtime-2、Realtime-Translate、Realtime-Whisper 作為三件組發布。呼叫方按用例選端點,而非一個通用 API 處理所有。
- 2
脈絡 32K → 128K
Realtime-2 裝 4 倍語音脈絡。長講座、多小時 Podcast、整場會議可一次工作階段裝下,不需切片也無丟脈絡的接縫。
- 3
語音上的 GPT-5 級推理
Realtime-2 定位為 GPT-5 推理的語音對應版本。多輪語音 Agent、工具呼叫、結構化檢索同享推理升級。
- 4
Translate $0.034/分鐘,STT $0.017/分鐘
Realtime-Translate 覆蓋 70+ 來源 → 13 目標語種,按音訊分鐘計費。Realtime-Whisper 串流 STT 大約是上一代 Realtime ASR 的一半價格。
- 5
BibiGPT 使用者由路由層吸收
如果你透過 BibiGPT 而非自接 OpenAI,路由層會把 Realtime-2 / Translate / Whisper 輪詢到影片字幕與翻譯。終端使用者拿到的是更佳輸出而無需寫遷移程式碼。
BibiGPT 使用者的 3 個典型情境
新語音 API 三件組最受益的情境集中在哪裡。
長影片字幕生成
90 分鐘 Bilibili 講座或 2 小時 YouTube Podcast。Realtime-Whisper 串流 STT $0.017/分鐘把字幕成本砍掉一半。BibiGPT 路由層會把音軌切到新端點,端到端更便宜更快。
即時多語翻譯
技術演講 ja → en、產品評測 zh → ko、法務講解 en → zh-TW。Realtime-Translate 把 STT + 翻譯折疊到一個串流端點,$0.034/分鐘。BibiGPT 翻譯流水線在支援語對上可用它得到更乾淨低延遲的輸出。
長影片之上的 Agent 追問
BibiGPT 出摘要後,使用者繼續語音追問:"演講者在第 47 分鐘怎麼說定價?"。128K 語音脈絡 + GPT-5 級推理讓 Agent 一次工作階段回答整場講座,不需重摘也不丟早段論點。
FAQ
常見問題
歡迎提問!
用 BibiGPT 做影片字幕與翻譯——背後就有 Realtime-2 等級語音模型
BibiGPT 自動在 OpenAI Realtime、Anthropic、Gemini 之間路由——影片字幕、多語翻譯、追問。你按情境拿到合適的語音模型,不用自己處理遷移與按分鐘計費。