OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI 在 2026-05-07 发布 GPT-Realtime-Translate,与 GPT-Realtime-2 和 GPT-Realtime-Whisper 一同推出。70+ 源语言流式同传到 13 目标语言,$0.034/分钟音频,把语音转文字 + 翻译 + 语音输出折叠在一个端点内。本页解读它如何重塑多语种字幕工作流,以及 BibiGPT 的翻译流水线如何在视频和播客场景下接入。

发布 · 2026-05-07 70+ → 13 语言 $0.034 / 分钟音频

核心事实(90 秒速读)

OpenAI 2026-05-07 发布 GPT-Realtime-Translate 作为 Realtime-2 三件套之一。70+ 源语言流式同传到 13 目标语言,$0.034/分钟音频,把语音转文字 + 翻译 + 语音输出折叠到一个端点。本次对多语种字幕工作流意义重大:账单从按 token 翻到按分钟、分段边界跟说话人节奏而非源文句号、语音叠加不再需要单独 TTS。BibiGPT 翻译流水线把支持的源-目标对路由到新端点,不支持对保留回退。

Features

Realtime-Translate 到底做了什么

本次发布之前,多语种字幕流水线通常串三次调用:语音转文字 → 单独翻译模型 → 可选 TTS。Realtime-Translate 把三步折叠到一个按音频分钟计费的流式端点。

70+ 源 → 13 目标语言

源语言覆盖英语、普通话、西班牙语、葡萄牙语、法语、德语、意大利语、日语、韩语、印地语、俄语、阿拉伯语及 60+ 其他。目标语言覆盖 13 个最常请求的生产语种,字幕文本与实时语音同传均做了优化。

$0.034/分钟音频

按输入音频分钟数计费,而非 token。长内容成本可预测:90 分钟讲座译到一个目标语言端到端约 $3.06,含流式输出。

实时延迟

为流式同传设计:源音频到达后几秒内即开始输出目标语音。可用于实时通话、直播字幕、当前播放视频上的字幕叠加。

如何变更多语种字幕工作流

三个具体转变,对内容创作者、教育者、内容团队怎样制作视频/播客的译制字幕意义最大。

字幕按说话人节奏切分,不按源语言段落

因为 Realtime-Translate 直接从语音流式输出,分段边界跟随说话人停顿与语调而非源文句子断点。烧入字幕在现场录制场景(讲座、播客、访谈)读起来更自然。

成本从按 token 翻到按分钟

长内容(1+ 小时)以前贵——token 计费随转录长度与译文长度同步放大。按分钟计费让 2 小时播客的成本与说话人说多说少无关。

回放语音覆盖变得可行

因为接口也输出语音,把录制讲座配音到 13 目标语言之一不再需要单独 TTS 步骤。教育者可以发布带语音翻译叠加的讲座回放。

BibiGPT 如何接入新接口

BibiGPT 多语种字幕翻译流水线本来就在串 Whisper 风格转录 + 单独翻译模型。新端点在视频与播客场景下接管。

长视频字幕翻译

YouTube、B 站、播客、上传文件流水线按支持的源-目标对路由到 Realtime-Translate。输出落到 SRT/VTT,附带 Realtime-Translate 生成的说话人对齐切分。

视频字幕烧录

翻译后,BibiGPT 现有字幕烧录工具可用浏览器内 ffmpeg.wasm 把译制轨道直接印到视频上。端到端:源视频 URL 进,译制视频文件出。

译制内容追问

仅翻译不等于理解。BibiGPT 把译制转录索引在手,用户可对源轨道与译制轨道双向追问(「演讲者第 47 分钟的意思是?」)。

5 条关键变化(90 秒速读)

OpenAI 翻译 API 2026-05-07 发布的关键改变。

  1. 1

    一个端点替代三次调用

    原先:Whisper 做语音转文字 → GPT-4 做翻译 → 单独 TTS 做语音输出。Realtime-Translate 把三步折叠到一次按音频分钟计费的流式调用。

  2. 2

    70+ → 13 语言 $0.034/分钟

    源覆盖 70+ 主流语言。目标输出 13 最常请求的生产语种。成本可预测——$0.034/输入音频分钟,与说话人说多说少无关。

  3. 3

    字幕切分跟说话人停顿走

    因为输出直接从语音流式而出,分段边界匹配语调与停顿。烧入字幕在现场录制场景(讲座、播客、访谈)读起来比文本驱动的翻译更自然。

  4. 4

    回放语音叠加变可行

    包含语音输出,所以把录制讲座配音到 13 目标语言之一不再需要单独 TTS 步骤。教育者可发布双语讲座回放。

  5. 5

    BibiGPT 透明路由支持语对

    BibiGPT 翻译流水线把支持的源-目标对派到 Realtime-Translate,不支持对回退到原串联工作流。用户可见流程——贴 URL、选目标语言——不变。

BibiGPT 用户的 3 个典型场景

Realtime-Translate + BibiGPT 回报最高的场景。

YouTube 讲座 → 译制 SRT + 烧录

把 90 分钟 YouTube 大学讲座贴进 BibiGPT。翻译流水线按目标语言路由到 Realtime-Translate(端到端 $3.06)。下载译制 SRT,或用 BibiGPT 浏览器内 ffmpeg.wasm 字幕烧录工具直接印到源视频上。

B 站播客 → 双语回放

B 站中文技术播客,目标受众读英文。Realtime-Translate 流式输出英文字幕,分段按说话人节奏走。BibiGPT 同时索引源转录与译制转录,听众可双语追问。

大会回放 → 5 语言字幕包

年度大会发布到 YouTube。把每个 session 通过 BibiGPT 翻成 13 种目标语言中的 5 种(英中日韩西)。按分钟计费让捆绑可预测——4 小时大会 × 5 语言约 $40.80。每语言输出 SRT,可二次上传。

常见问题解答

有问题?问我们!

用 BibiGPT 翻译任意视频字幕——支持语对已路由到 Realtime-Translate

把 YouTube/B 站/播客/上传视频 URL 贴进 BibiGPT,选目标语言。翻译流水线在 13 个支持目标上调 OpenAI Realtime-Translate,不支持对回退到原工作流。输出 SRT/VTT,或直接把字幕烧进视频——全程浏览器内完成。