GPT-Realtime-2 × BibiGPT

OpenAI 在 2026-05-07 发布 GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper——语音智能 API 三件套。128K 上下文(原 32K)、GPT-5 级推理、70+→13 语种实时同传、流式 Whisper STT。BibiGPT 长视频字幕生成、多语翻译、Agent 追问会按场景路由到新 API,无需自己处理迁移。

发布 · 2026-05-07 128K 上下文 · GPT-5 级 Translate $0.034/分钟 · Whisper $0.017/分钟

核心事实(90 秒速读)

截至 2026-05-09,OpenAI 在 2026-05-07 发布 GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper——语音智能 API 三件套。128K 上下文(原 32K)、GPT-5 级推理、70+→13 语种实时同传、流式 Whisper STT。价格:Realtime-2 $32/$64 每 MTok,Translate $0.034/分钟,Whisper $0.017/分钟。BibiGPT 路由层已把新端点纳入长视频字幕、多语翻译、Agent 追问的轮询。

Features

GPT-Realtime-2 是什么?

OpenAI 2026-05-07 语音智能 API 升级——三个新端点(Realtime-2、Realtime-Translate、Realtime-Whisper),128K 上下文、GPT-5 级推理,按分钟计费的翻译与 STT。

128K 上下文窗口

Realtime-2 从原本 32K 上限跃升到 128K token,足以在一个语音会话里装下完整长讲座或多小时播客,不需切片。

GPT-5 级语音推理

OpenAI 把 Realtime-2 定位为 GPT-5 推理质量的语音对应版——多轮一致性更稳,工具调用也更可靠。

70+→13 语种实时同传

Realtime-Translate 接受 70+ 源语言,输出 13 个目标语言,低延迟流式同传可用于实时通话——价格 $0.034/分钟音频。

对 BibiGPT 用户意味着什么

BibiGPT 把长视频字幕生成、翻译、Agent 追问跨多家语音/ASR 提供商路由。新一代 Realtime API 三件套重塑最难语音任务的路由策略。

更便宜的流式字幕

Realtime-Whisper 把流式 STT 降到 $0.017/分钟——大约是同类实时 ASR 的一半。BibiGPT 的 YouTube/Bilibili/播客字幕流水线可以切到它。

一站式语音翻译

Realtime-Translate 把 STT + 翻译 + 流式输出折叠到一个端点。BibiGPT 翻译流水线可在支持的语对上压缩链路,得到更干净的输出。

长上下文语音追问

128K 语音上下文让 BibiGPT 的 Agent 可以一次性回答 90 分钟讲座的追问——不必重新总结也不丢前段论点。

5 条关键变化(90 秒速读)

OpenAI 语音 API 2026-05-07 发布的关键改变。

  1. 1

    三个新语音端点

    Realtime-2、Realtime-Translate、Realtime-Whisper 作为三件套发布。调用方按用例选端点,而非一个通用 API 处理所有。

  2. 2

    上下文 32K → 128K

    Realtime-2 装 4 倍语音上下文。长讲座、多小时播客、整场会议可一次会话装下,不需切片也无丢上下文的接缝。

  3. 3

    语音上的 GPT-5 级推理

    Realtime-2 定位为 GPT-5 推理的语音对应版。多轮语音 Agent、工具调用、结构化检索同享推理升级。

  4. 4

    Translate $0.034/分钟,STT $0.017/分钟

    Realtime-Translate 覆盖 70+ 源 → 13 目标语种,按音频分钟计费。Realtime-Whisper 流式 STT 大约是上一代 Realtime ASR 的一半价格。

  5. 5

    BibiGPT 用户由路由层吸收

    如果你通过 BibiGPT 而非自接 OpenAI,路由层会把 Realtime-2 / Translate / Whisper 轮询到视频字幕与翻译。终端用户拿到的是更优输出而无需写迁移代码。

BibiGPT 用户的 3 个典型场景

新语音 API 三件套最受益的场景集中在哪里。

长视频字幕生成

90 分钟 Bilibili 讲座或 2 小时 YouTube 播客。Realtime-Whisper 流式 STT $0.017/分钟把字幕成本砍掉一半。BibiGPT 路由层会把音轨切到新端点,端到端更便宜更快。

实时多语翻译

技术演讲 ja → en、产品评测 zh → ko、法务讲解 en → zh-TW。Realtime-Translate 把 STT + 翻译折叠到一个流式端点,$0.034/分钟。BibiGPT 翻译流水线在支持语对上可用它得到更干净低延迟的输出。

长视频之上的 Agent 追问

BibiGPT 出总结后,用户继续语音追问:"演讲者在第 47 分钟怎么说定价?"。128K 语音上下文 + GPT-5 级推理让 Agent 一次会话回答整场讲座,不需重摘也不丢早段论点。

常见问题解答

有问题?问我们!

用 BibiGPT 做视频字幕与翻译——背后就有 Realtime-2 档语音模型

BibiGPT 自动在 OpenAI Realtime、Anthropic、Gemini 之间路由——视频字幕、多语翻译、追问。你按场景拿到合适的语音模型,不用自己处理迁移与按分钟计费。