GPT-Realtime-2 × BibiGPT
OpenAI が 2026-05-07 に GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper を発表——音声インテリジェンス API の三点セット。128K コンテキスト(旧 32K)、GPT-5 クラスの推論、70+→13 言語リアルタイム同時通訳、ストリーミング Whisper STT。BibiGPT は長尺動画の字幕生成・多言語翻訳・Agent 追加質問を場面に応じて新 API にルーティングします。マイグレーションコードは不要です。
重要な事実(90 秒で読む)
2026-05-09 時点で、OpenAI は 2026-05-07 に GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper を発表——音声インテリジェンス API の三点セット。128K コンテキスト(旧 32K)、GPT-5 クラス推論、70+→13 言語リアルタイム同時通訳、ストリーミング Whisper STT。価格:Realtime-2 $32/$64 per MTok、Translate $0.034/分、Whisper $0.017/分。BibiGPT のルーティング層は既に長尺字幕、多言語翻訳、Agent 追加質問のローテーションに新エンドポイントを含めている。
Features
GPT-Realtime-2 とは?
OpenAI 2026-05-07 の音声インテリジェンス API アップデート——3 つの新エンドポイント(Realtime-2、Realtime-Translate、Realtime-Whisper)。128K コンテキスト、GPT-5 クラス推論、翻訳と STT は分単位課金。
128K コンテキストウィンドウ
Realtime-2 は従来の 32K から 128K トークンへ。長尺講義やマルチアワーポッドキャストを 1 セッションで保持でき、チャンク分割が不要に。
音声での GPT-5 クラス推論
OpenAI は Realtime-2 を GPT-5 推論品質の音声版と位置づけ。マルチターン整合性とツール呼び出しが従来より安定。
70+→13 言語のリアルタイム同時通訳
Realtime-Translate は 70+ ソース言語を受け、13 ターゲット言語に出力。低遅延ストリーミングでライブ通話に使える——音声 1 分あたり $0.034。
BibiGPT ユーザーへの意味
BibiGPT は長尺動画の字幕生成・翻訳・Agent 追加質問を複数の音声/ASR プロバイダ間でルーティング。新世代 Realtime API 三点セットは最も難しい音声タスクのルーティングを再構成。
より安価なストリーミング字幕
Realtime-Whisper はストリーミング STT を $0.017/分まで引き下げ——同等のリアルタイム ASR の約半額。BibiGPT は YouTube/Bilibili/ポッドキャストの字幕パイプラインに使えます。
ワンステップ音声翻訳
Realtime-Translate は STT + 翻訳 + ストリーミング出力を 1 エンドポイントに折りたたむ。BibiGPT 翻訳パイプラインはサポート言語ペアでチェーンを短縮、よりクリーンな出力を得られる。
長コンテキストの音声追加質問
128K 音声コンテキストにより、BibiGPT の Agent は 90 分講義の追加質問に 1 セッションで回答——再要約や前半の主張のロストなし。
5 つの主要な変化(90 秒で読む)
OpenAI 音声 API 2026-05-07 リリースの主要な変化。
- 1
3 つの新音声エンドポイント
Realtime-2、Realtime-Translate、Realtime-Whisper を三点セットとして発表。呼び出し側はユースケースごとにエンドポイントを選ぶ——汎用 API で全部処理ではない。
- 2
コンテキスト 32K → 128K
Realtime-2 は 4 倍の音声コンテキストを保持。長尺講義、マルチアワーポッドキャスト、フルミーティングを 1 セッションで——チャンク分割やコンテキストロストの境界なし。
- 3
音声での GPT-5 クラス推論
Realtime-2 は GPT-5 推論の音声版として位置づけ。マルチターン音声 Agent、ツール呼び出し、構造化検索が同じ推論アップを享受。
- 4
Translate $0.034/分、STT $0.017/分
Realtime-Translate は 70+ ソース → 13 ターゲット言語をカバー、音声分単位課金。Realtime-Whisper ストリーミング STT は前世代 Realtime ASR の約半額。
- 5
BibiGPT ユーザーはルーティング層が吸収
OpenAI 直結ではなく BibiGPT 経由なら、ルーティング層が Realtime-2 / Translate / Whisper を動画字幕と翻訳にローテート。エンドユーザーはマイグレーションコードを書かずに、より良い出力を得る。
BibiGPT ユーザーの 3 つの典型シナリオ
新音声 API 三点セットが最も効くシナリオ。
長尺動画字幕生成
90 分の Bilibili 講義や 2 時間の YouTube ポッドキャスト。Realtime-Whisper ストリーミング STT $0.017/分は字幕コストをほぼ半減。BibiGPT のルーティング層が音声トラックを新エンドポイントへ切り替え、エンドツーエンドでより安く・速く。
ライブ多言語翻訳
技術トーク ja → en、製品レビュー zh → ko、法務解説 en → zh-TW。Realtime-Translate は STT + 翻訳を 1 つのストリーミングエンドポイントに折りたたみ、$0.034/分。BibiGPT 翻訳パイプラインはサポート言語ペアでこれを使い、よりクリーンで低遅延の出力を得る。
長尺動画上の Agent 追加質問
BibiGPT が要約を出した後、ユーザーは音声で追加質問:「47 分目で講演者は価格について何と言ったか?」。128K 音声コンテキスト + GPT-5 クラス推論で、Agent はフル講義を 1 セッションで回答——再要約なし、前半の主張も失わない。
よくある質問
よくある質問
ご質問はありますか?お気軽にどうぞ!
BibiGPT で動画字幕と翻訳を——裏には Realtime-2 クラスの音声モデル
BibiGPT は OpenAI Realtime、Anthropic、Gemini の間で自動ルーティング——動画字幕、多言語翻訳、追加質問。マイグレーションや分単位課金を自分で管理せず、適切な音声モデルが場面ごとに選ばれる。