OpenAI GPT-Realtime-Translate × BibiGPT
OpenAI 2026-05-07 與 Realtime-2 三件套一同發布 GPT-Realtime-Translate。70+ 來源語言流式同傳到 13 目標語言,$0.034/分鐘音訊,把語音轉文字 + 翻譯 + 語音輸出折疊在一個端點內。本頁解讀它如何重塑多語種字幕工作流,以及 BibiGPT 翻譯流水線如何在影片與 Podcast 場景下接入。
核心事實(90 秒速讀)
OpenAI 2026-05-07 發布 GPT-Realtime-Translate 作為 Realtime-2 三件套之一。70+ 來源語言流式同傳到 13 目標語言,$0.034/分鐘音訊,把語音轉文字 + 翻譯 + 語音輸出折疊到一個端點。對多語種字幕工作流意義重大:帳單從按 token 翻到按分鐘、分段邊界跟說話人節奏而非源文句號、語音疊加不再需要單獨 TTS。BibiGPT 翻譯流水線把支援的來源-目標對路由到新端點,不支援對保留回退。
Features
Realtime-Translate 究竟做了什麼
本次發布前多語種字幕流水線通常串三次呼叫:語音轉文字 → 單獨翻譯模型 → 可選 TTS。Realtime-Translate 把三步折疊到一個按音訊分鐘計費的流式端點。
70+ 來源 → 13 目標語言
覆蓋英語、普通話、西班牙、葡萄牙、法、德、義、日、韓、印地、俄、阿等 60+。目標輸出 13 最常請求的生產語種,字幕文本與即時語音同傳均優化。
$0.034/分鐘音訊
按輸入音訊分鐘數計費而非 token。90 分鐘講座譯到一個目標語言約 $3.06,含流式輸出。
即時延遲
來源音訊到達後幾秒內開始輸出目標語音。可用於即時通話、直播字幕、當前播放影片字幕疊加。
如何變更多語種字幕工作流
三個具體轉變,對內容創作者、教育者、內容團隊怎樣製作影片/Podcast 譯製字幕意義最大。
字幕按說話人節奏切分
直接從語音流式輸出,分段邊界跟說話人停頓與語調走而非源文句號。烧入字幕在現場錄製場景讀起來更自然。
成本從按 token 翻到按分鐘
長內容以前貴——token 計費隨轉錄長度與譯文長度同步放大。按分鐘計費讓 2 小時 Podcast 成本與說話人說多說少無關。
回放語音覆蓋變可行
因為接口也輸出語音,把錄製講座配音到 13 目標語言之一不再需要單獨 TTS 步驟。
BibiGPT 如何接入新介面
BibiGPT 多語種字幕翻譯流水線本來就串 Whisper 風格轉錄 + 單獨翻譯模型。新端點在影片與 Podcast 場景接管。
長影片字幕翻譯
YouTube、B 站、Podcast、上傳檔案流水線按支援的來源-目標對路由到 Realtime-Translate。輸出 SRT/VTT,附說話人對齊切分。
影片字幕焼錄
翻譯後用瀏覽器內 ffmpeg.wasm 把譯製軌道印到影片上。端到端:來源影片 URL 進,譯製影片檔案出。
譯製內容追問
BibiGPT 把譯製轉錄索引在手,使用者可對來源軌道與譯製軌道雙向追問。
5 條關鍵變化(90 秒速讀)
OpenAI 翻譯 API 2026-05-07 發布的關鍵改變。
- 1
一個端點替代三次呼叫
原先:Whisper 做語音轉文字 → GPT-4 做翻譯 → 單獨 TTS 做語音輸出。Realtime-Translate 把三步折疊到一次按音訊分鐘計費的流式呼叫。
- 2
70+ → 13 語言 $0.034/分鐘
來源覆蓋 70+ 主流語言。目標輸出 13 最常請求的生產語種。成本可預測——$0.034/輸入音訊分鐘,與說話人說多說少無關。
- 3
字幕切分跟說話人停頓走
因為輸出直接從語音流式而出,分段邊界匹配語調與停頓。烧入字幕在現場錄製場景讀起來比文本驅動的翻譯更自然。
- 4
回放語音疊加變可行
包含語音輸出,所以把錄製講座配音到 13 目標語言之一不再需要單獨 TTS 步驟。教育者可發布雙語講座回放。
- 5
BibiGPT 透明路由支援語對
BibiGPT 翻譯流水線把支援的來源-目標對派到 Realtime-Translate,不支援對回退到原串聯工作流。使用者可見流程不變。
BibiGPT 使用者的 3 個典型場景
Realtime-Translate + BibiGPT 回報最高的場景。
YouTube 講座 → 譯製 SRT + 焼錄
把 90 分鐘 YouTube 大學講座貼進 BibiGPT。翻譯流水線按目標語言路由到 Realtime-Translate(端到端 $3.06)。下載譯製 SRT,或用瀏覽器內 ffmpeg.wasm 字幕焼錄工具直接印到來源影片上。
B 站 Podcast → 雙語回放
B 站中文技術 Podcast,目標受眾讀英文。Realtime-Translate 流式輸出英文字幕,分段按說話人節奏走。BibiGPT 同時索引來源轉錄與譯製轉錄,聽眾可雙語追問。
大會回放 → 5 語言字幕包
年度大會發布到 YouTube。把每個 session 通過 BibiGPT 翻成 13 種目標語言中的 5 種(英中日韓西)。按分鐘計費讓捆綁可預測——4 小時大會 × 5 語言約 $40.80。每語言輸出 SRT。
FAQ
常見問題
歡迎提問!
用 BibiGPT 翻譯任意影片字幕——支援語對已路由到 Realtime-Translate
把 YouTube/B 站/Podcast/上傳影片 URL 貼進 BibiGPT,選目標語言。翻譯流水線在 13 個支援目標上呼叫 OpenAI Realtime-Translate,不支援對回退到原工作流。輸出 SRT/VTT 或直接焼錄到影片——全程瀏覽器內完成。