GPT-Realtime-2 × BibiGPT

OpenAI が 2026-05-07 に GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper を発表——音声インテリジェンス API の三点セット。128K コンテキスト(旧 32K)、GPT-5 クラスの推論、70+→13 言語リアルタイム同時通訳、ストリーミング Whisper STT。BibiGPT は長尺動画の字幕生成・多言語翻訳・Agent 追加質問を場面に応じて新 API にルーティングします。マイグレーションコードは不要です。

公開 · 2026-05-07 128K コンテキスト · GPT-5 クラス Translate $0.034/分 · Whisper $0.017/分

重要な事実(90 秒で読む)

2026-05-09 時点で、OpenAI は 2026-05-07 に GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper を発表——音声インテリジェンス API の三点セット。128K コンテキスト(旧 32K)、GPT-5 クラス推論、70+→13 言語リアルタイム同時通訳、ストリーミング Whisper STT。価格:Realtime-2 $32/$64 per MTok、Translate $0.034/分、Whisper $0.017/分。BibiGPT のルーティング層は既に長尺字幕、多言語翻訳、Agent 追加質問のローテーションに新エンドポイントを含めている。

Features

GPT-Realtime-2 とは?

OpenAI 2026-05-07 の音声インテリジェンス API アップデート——3 つの新エンドポイント(Realtime-2、Realtime-Translate、Realtime-Whisper)。128K コンテキスト、GPT-5 クラス推論、翻訳と STT は分単位課金。

128K コンテキストウィンドウ

Realtime-2 は従来の 32K から 128K トークンへ。長尺講義やマルチアワーポッドキャストを 1 セッションで保持でき、チャンク分割が不要に。

音声での GPT-5 クラス推論

OpenAI は Realtime-2 を GPT-5 推論品質の音声版と位置づけ。マルチターン整合性とツール呼び出しが従来より安定。

70+→13 言語のリアルタイム同時通訳

Realtime-Translate は 70+ ソース言語を受け、13 ターゲット言語に出力。低遅延ストリーミングでライブ通話に使える——音声 1 分あたり $0.034。

BibiGPT ユーザーへの意味

BibiGPT は長尺動画の字幕生成・翻訳・Agent 追加質問を複数の音声/ASR プロバイダ間でルーティング。新世代 Realtime API 三点セットは最も難しい音声タスクのルーティングを再構成。

より安価なストリーミング字幕

Realtime-Whisper はストリーミング STT を $0.017/分まで引き下げ——同等のリアルタイム ASR の約半額。BibiGPT は YouTube/Bilibili/ポッドキャストの字幕パイプラインに使えます。

ワンステップ音声翻訳

Realtime-Translate は STT + 翻訳 + ストリーミング出力を 1 エンドポイントに折りたたむ。BibiGPT 翻訳パイプラインはサポート言語ペアでチェーンを短縮、よりクリーンな出力を得られる。

長コンテキストの音声追加質問

128K 音声コンテキストにより、BibiGPT の Agent は 90 分講義の追加質問に 1 セッションで回答——再要約や前半の主張のロストなし。

5 つの主要な変化(90 秒で読む)

OpenAI 音声 API 2026-05-07 リリースの主要な変化。

  1. 1

    3 つの新音声エンドポイント

    Realtime-2、Realtime-Translate、Realtime-Whisper を三点セットとして発表。呼び出し側はユースケースごとにエンドポイントを選ぶ——汎用 API で全部処理ではない。

  2. 2

    コンテキスト 32K → 128K

    Realtime-2 は 4 倍の音声コンテキストを保持。長尺講義、マルチアワーポッドキャスト、フルミーティングを 1 セッションで——チャンク分割やコンテキストロストの境界なし。

  3. 3

    音声での GPT-5 クラス推論

    Realtime-2 は GPT-5 推論の音声版として位置づけ。マルチターン音声 Agent、ツール呼び出し、構造化検索が同じ推論アップを享受。

  4. 4

    Translate $0.034/分、STT $0.017/分

    Realtime-Translate は 70+ ソース → 13 ターゲット言語をカバー、音声分単位課金。Realtime-Whisper ストリーミング STT は前世代 Realtime ASR の約半額。

  5. 5

    BibiGPT ユーザーはルーティング層が吸収

    OpenAI 直結ではなく BibiGPT 経由なら、ルーティング層が Realtime-2 / Translate / Whisper を動画字幕と翻訳にローテート。エンドユーザーはマイグレーションコードを書かずに、より良い出力を得る。

BibiGPT ユーザーの 3 つの典型シナリオ

新音声 API 三点セットが最も効くシナリオ。

長尺動画字幕生成

90 分の Bilibili 講義や 2 時間の YouTube ポッドキャスト。Realtime-Whisper ストリーミング STT $0.017/分は字幕コストをほぼ半減。BibiGPT のルーティング層が音声トラックを新エンドポイントへ切り替え、エンドツーエンドでより安く・速く。

ライブ多言語翻訳

技術トーク ja → en、製品レビュー zh → ko、法務解説 en → zh-TW。Realtime-Translate は STT + 翻訳を 1 つのストリーミングエンドポイントに折りたたみ、$0.034/分。BibiGPT 翻訳パイプラインはサポート言語ペアでこれを使い、よりクリーンで低遅延の出力を得る。

長尺動画上の Agent 追加質問

BibiGPT が要約を出した後、ユーザーは音声で追加質問:「47 分目で講演者は価格について何と言ったか?」。128K 音声コンテキスト + GPT-5 クラス推論で、Agent はフル講義を 1 セッションで回答——再要約なし、前半の主張も失わない。

よくある質問

ご質問はありますか?お気軽にどうぞ!

BibiGPT で動画字幕と翻訳を——裏には Realtime-2 クラスの音声モデル

BibiGPT は OpenAI Realtime、Anthropic、Gemini の間で自動ルーティング——動画字幕、多言語翻訳、追加質問。マイグレーションや分単位課金を自分で管理せず、適切な音声モデルが場面ごとに選ばれる。