OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI 2026-05-07 與 Realtime-2 三件套一同發布 GPT-Realtime-Translate。70+ 來源語言流式同傳到 13 目標語言,$0.034/分鐘音訊,把語音轉文字 + 翻譯 + 語音輸出折疊在一個端點內。本頁解讀它如何重塑多語種字幕工作流,以及 BibiGPT 翻譯流水線如何在影片與 Podcast 場景下接入。

發布 · 2026-05-07 70+ → 13 語言 $0.034 / 分鐘音訊

核心事實(90 秒速讀)

OpenAI 2026-05-07 發布 GPT-Realtime-Translate 作為 Realtime-2 三件套之一。70+ 來源語言流式同傳到 13 目標語言,$0.034/分鐘音訊,把語音轉文字 + 翻譯 + 語音輸出折疊到一個端點。對多語種字幕工作流意義重大:帳單從按 token 翻到按分鐘、分段邊界跟說話人節奏而非源文句號、語音疊加不再需要單獨 TTS。BibiGPT 翻譯流水線把支援的來源-目標對路由到新端點,不支援對保留回退。

Features

Realtime-Translate 究竟做了什麼

本次發布前多語種字幕流水線通常串三次呼叫:語音轉文字 → 單獨翻譯模型 → 可選 TTS。Realtime-Translate 把三步折疊到一個按音訊分鐘計費的流式端點。

70+ 來源 → 13 目標語言

覆蓋英語、普通話、西班牙、葡萄牙、法、德、義、日、韓、印地、俄、阿等 60+。目標輸出 13 最常請求的生產語種,字幕文本與即時語音同傳均優化。

$0.034/分鐘音訊

按輸入音訊分鐘數計費而非 token。90 分鐘講座譯到一個目標語言約 $3.06,含流式輸出。

即時延遲

來源音訊到達後幾秒內開始輸出目標語音。可用於即時通話、直播字幕、當前播放影片字幕疊加。

如何變更多語種字幕工作流

三個具體轉變,對內容創作者、教育者、內容團隊怎樣製作影片/Podcast 譯製字幕意義最大。

字幕按說話人節奏切分

直接從語音流式輸出,分段邊界跟說話人停頓與語調走而非源文句號。烧入字幕在現場錄製場景讀起來更自然。

成本從按 token 翻到按分鐘

長內容以前貴——token 計費隨轉錄長度與譯文長度同步放大。按分鐘計費讓 2 小時 Podcast 成本與說話人說多說少無關。

回放語音覆蓋變可行

因為接口也輸出語音,把錄製講座配音到 13 目標語言之一不再需要單獨 TTS 步驟。

BibiGPT 如何接入新介面

BibiGPT 多語種字幕翻譯流水線本來就串 Whisper 風格轉錄 + 單獨翻譯模型。新端點在影片與 Podcast 場景接管。

長影片字幕翻譯

YouTube、B 站、Podcast、上傳檔案流水線按支援的來源-目標對路由到 Realtime-Translate。輸出 SRT/VTT,附說話人對齊切分。

影片字幕焼錄

翻譯後用瀏覽器內 ffmpeg.wasm 把譯製軌道印到影片上。端到端:來源影片 URL 進,譯製影片檔案出。

譯製內容追問

BibiGPT 把譯製轉錄索引在手,使用者可對來源軌道與譯製軌道雙向追問。

5 條關鍵變化(90 秒速讀)

OpenAI 翻譯 API 2026-05-07 發布的關鍵改變。

  1. 1

    一個端點替代三次呼叫

    原先:Whisper 做語音轉文字 → GPT-4 做翻譯 → 單獨 TTS 做語音輸出。Realtime-Translate 把三步折疊到一次按音訊分鐘計費的流式呼叫。

  2. 2

    70+ → 13 語言 $0.034/分鐘

    來源覆蓋 70+ 主流語言。目標輸出 13 最常請求的生產語種。成本可預測——$0.034/輸入音訊分鐘,與說話人說多說少無關。

  3. 3

    字幕切分跟說話人停頓走

    因為輸出直接從語音流式而出,分段邊界匹配語調與停頓。烧入字幕在現場錄製場景讀起來比文本驅動的翻譯更自然。

  4. 4

    回放語音疊加變可行

    包含語音輸出,所以把錄製講座配音到 13 目標語言之一不再需要單獨 TTS 步驟。教育者可發布雙語講座回放。

  5. 5

    BibiGPT 透明路由支援語對

    BibiGPT 翻譯流水線把支援的來源-目標對派到 Realtime-Translate,不支援對回退到原串聯工作流。使用者可見流程不變。

BibiGPT 使用者的 3 個典型場景

Realtime-Translate + BibiGPT 回報最高的場景。

YouTube 講座 → 譯製 SRT + 焼錄

把 90 分鐘 YouTube 大學講座貼進 BibiGPT。翻譯流水線按目標語言路由到 Realtime-Translate(端到端 $3.06)。下載譯製 SRT,或用瀏覽器內 ffmpeg.wasm 字幕焼錄工具直接印到來源影片上。

B 站 Podcast → 雙語回放

B 站中文技術 Podcast,目標受眾讀英文。Realtime-Translate 流式輸出英文字幕,分段按說話人節奏走。BibiGPT 同時索引來源轉錄與譯製轉錄,聽眾可雙語追問。

大會回放 → 5 語言字幕包

年度大會發布到 YouTube。把每個 session 通過 BibiGPT 翻成 13 種目標語言中的 5 種(英中日韓西)。按分鐘計費讓捆綁可預測——4 小時大會 × 5 語言約 $40.80。每語言輸出 SRT。

常見問題

歡迎提問!

用 BibiGPT 翻譯任意影片字幕——支援語對已路由到 Realtime-Translate

把 YouTube/B 站/Podcast/上傳影片 URL 貼進 BibiGPT,選目標語言。翻譯流水線在 13 個支援目標上呼叫 OpenAI Realtime-Translate,不支援對回退到原工作流。輸出 SRT/VTT 或直接焼錄到影片——全程瀏覽器內完成。