OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI が 2026-05-07 に GPT-Realtime-Translate を GPT-Realtime-2 / GPT-Realtime-Whisper と同時発表。70+ ソース言語を 13 ターゲット言語へストリーミング同時通訳、音声 1 分あたり $0.034。音声認識 + 翻訳 + 音声出力を 1 エンドポイントに統合。本ページは API が多言語字幕ワークフローをどう変えるか、BibiGPT 翻訳パイプラインがどう統合するかを解説します。

発表 · 2026-05-07 70+ → 13 言語 $0.034 / 音声 1 分

核心事実(90 秒)

OpenAI が 2026-05-07 に GPT-Realtime-Translate を Realtime-2 音声 API トリオの一部として発表。70+ ソース言語を 13 ターゲット言語へストリーミング通訳、音声 1 分あたり $0.034、音声認識 + 翻訳 + 音声出力を 1 エンドポイントに統合。多言語字幕ワークフローに重要:課金がトークンから分単位に反転、セグメント境界が話者の発話に従い、音声オーバーレイ吹き替えに別の TTS ステップが不要。BibiGPT 翻訳パイプラインはサポートペアを新エンドポイントにルーティングしつつ非サポートペアの既存フォールバックを維持。

Features

Realtime-Translate が実際にすること

従来は3つの呼び出しを連鎖:音声→テキスト、別の翻訳モデル、オプションで音声合成。Realtime-Translate は3つを音声 1 分単位課金の単一ストリーミングエンドポイントに集約。

70+ ソース → 13 ターゲット言語

ソースカバレッジは英語、中国語、スペイン語、ポルトガル語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ヒンディー語、ロシア語、アラビア語など 60+。ターゲット出力は最も要求の多い 13 言語、字幕テキストとライブ音声同時通訳の両方に最適化。

音声 1 分あたり $0.034

トークン課金ではなく音声入力分単位の課金。長尺コンテンツのコストが予測可能:90 分講義を 1 ターゲット言語に翻訳すると約 $3.06(ストリーミング出力込み)。

リアルタイム遅延

ストリーミング通訳向け設計:ソース音声到着から数秒以内にターゲット言語音声出力開始。ライブ通話、ライブ字幕、再生中動画への字幕オーバーレイに適する。

多言語字幕ワークフローへの変化

クリエイター、教育者、コンテンツチームの動画/ポッドキャスト翻訳字幕制作における 3 つの具体的変化。

字幕が話者の発話に追従、ソース言語段落ではない

Realtime-Translate は音声から直接ストリーミングするため、セグメント境界が話者の間や抑揚に従い、ソーステキストの文区切りには従わない。焼き込み字幕がライブ収録音声(講義、ポッドキャスト、インタビュー)で自然に読める。

コスト計算がトークン単位から分単位へ反転

長尺コンテンツ(1 時間以上)はトークン課金で文字起こし長×翻訳長で増大していた。分単位課金により、2 時間のポッドキャストは話者がよく喋るか否かに関わらず同じ価格。

再生コンテンツへの音声オーバーレイが実現可能

API は音声出力も発するため、収録講義を 13 ターゲット言語の 1 つに吹き替える際、別の TTS ステップが不要に。教育者は音声翻訳をオーバーレイした講義再生を公開できる。

BibiGPT による新 API の統合

BibiGPT の多言語字幕翻訳パイプラインは元々 Whisper 風文字起こしと別の翻訳モデルを連鎖していた。新エンドポイントが動画/ポッドキャストワークフローに組み込まれる。

長尺動画字幕翻訳

YouTube、Bilibili、ポッドキャスト、アップロードファイルパイプラインがサポートされるソース-ターゲットペアで Realtime-Translate にルーティング。出力は Realtime-Translate が生成する話者整合セグメント付き SRT/VTT。

ダウンロード動画への字幕焼き込み

翻訳後、BibiGPT 既存の字幕焼き込みツールはブラウザ内 ffmpeg.wasm を使って翻訳トラックを動画に直接スタンプ可能。端から端まで:ソース動画 URL 入力、翻訳済み動画ファイル出力。

翻訳済みコンテンツへの追加質問

翻訳だけでは理解にならない。BibiGPT が翻訳された文字起こしをインデックス化したまま保持し、ユーザーがソーストラックと翻訳トラックの両方で追加質問(「演者は 47 分にどういう意味だった?」)可能。

5 つの主要変更(90 秒)

OpenAI 翻訳 API 2026-05-07 発表の主要シフト。

  1. 1

    1 つのエンドポイントが 3 つの呼び出しを置換

    従来:音声認識に Whisper、翻訳に GPT-4、音声出力に別の TTS。Realtime-Translate は 3 つを音声分単位課金の単一ストリーミング呼び出しに統合。

  2. 2

    70+ → 13 言語、分あたり $0.034

    ソースカバレッジ 70+ 主要言語。ターゲット出力は最も要求の多い 13 言語。コストが入力音声分あたり $0.034 で予測可能——話者の喋りの多寡に依存しない。

  3. 3

    字幕セグメント分割が話者の間に従う

    出力が音声から直接ストリーミングするため、セグメント境界が抑揚と間に合う。焼き込み字幕がライブ収録音声(講義、ポッドキャスト、インタビュー)でテキスト駆動翻訳より自然に読める。

  4. 4

    再生への音声オーバーレイが実現可能に

    音声出力が含まれるため、収録講義を 13 ターゲット言語の 1 つに吹き替える際、別の音声合成ステップが不要に。教育者は二言語講義再生を公開できる。

  5. 5

    BibiGPT がサポートペアを透過的にルーティング

    BibiGPT 翻訳パイプラインがサポートされるソース-ターゲットペアを Realtime-Translate にディスパッチ。非サポートペアは既存の連鎖ワークフローにフォールバック。ユーザーが見るフロー——URL 貼付、ターゲット言語選択——は変わらない。

BibiGPT ユーザーの 3 つの典型シナリオ

Realtime-Translate と BibiGPT の組み合わせが最も効果的なシナリオ。

YouTube 講義 → 翻訳 SRT + 焼き込み

90 分の YouTube 大学講義を BibiGPT に貼付。翻訳パイプラインが選択ターゲット言語に Realtime-Translate をルーティング(端から端まで $3.06)。翻訳 SRT をダウンロード、または BibiGPT のブラウザ内 ffmpeg.wasm 字幕焼き込みでソース動画に直接焼き込み。

Bilibili ポッドキャスト → 二言語再生

中国語の Bilibili 技術ポッドキャスト、ターゲット視聴者は英語を読む。Realtime-Translate が話者ペースのセグメント境界で英語字幕をストリーミング。BibiGPT がソースと翻訳の両方の文字起こしをインデックス化、リスナーはどちらの言語でも追加質問可能。

カンファレンス再生 → 5 言語字幕バンドル

年次カンファレンスを YouTube 動画として公開。各セッションを BibiGPT で 13 ターゲット言語のうち 5 つ(英、中、日、韓、西)に翻訳。分単位課金でバンドルが予測可能——4 時間カンファレンス×5 言語で約 $40.80。各言語の SRT として出力、再アップロード準備完了。

よくある質問

ご質問はありますか?お気軽にどうぞ!

BibiGPT で任意の動画字幕を翻訳——サポートペアは Realtime-Translate にルーティング

YouTube、Bilibili、ポッドキャスト、アップロード動画の URL を BibiGPT に貼付。ターゲット言語を選択。翻訳パイプラインが 13 サポートターゲットに対し OpenAI Realtime-Translate を呼び、非サポートペアは既存ワークフローにフォールバック。SRT/VTT として出力、または動画に字幕を直接焼き込み——すべてブラウザ内で完結。