GPT-Realtime-Translate とは正確には？

OpenAI が 2026-05-07 に Realtime-2 トリオの一部として発表したストリーミングライブ翻訳 API エンドポイント。70+ ソース言語を受け、13 ターゲット言語を出力、音声認識 + 翻訳 + 音声出力を 1 呼び出しに統合。音声 1 分あたり $0.034 課金。コンパニオンエンドポイントは GPT-Realtime-2（128K コンテキスト汎用音声 Agent）と GPT-Realtime-Whisper（ストリーミング音声認識 $0.017/分）。

Whisper + GPT-4 + TTS の連鎖とどう違う？

3 つの違い。第一、Realtime-Translate はストリーミング——ターゲット言語出力がソース音声到着から数秒以内に開始、完全な文字起こしを待たない。第二、セグメント境界が話者の発話（間、抑揚）に従い、ソーステキストの文区切りに従わない、字幕として自然に読める。第三、課金が 3 つのトークン単位メーターから 1 つの分単位メーターに集約、長尺のコストが予測可能。

なぜ多言語字幕ワークフローに重要？

長尺動画（講義、ポッドキャスト、ライブ再生）の翻訳が安くなる——課金が音声分単位、トークンではない。90 分講義を 1 ターゲット言語にすると約 $3.06。字幕が自然に読める——セグメント境界が話者の間に合う。13 ターゲット言語の 1 つへの音声オーバーレイ吹き替えに別の TTS ステップが不要に。

Realtime-Translate vs Realtime-2 vs Realtime-Whisper の使い分けは？

サポートペア（70+ ソース、13 ターゲット）のライブまたは録音通訳には Realtime-Translate——音声分単位課金。元言語の純粋文字起こしには Realtime-Whisper——分あたり $0.017。汎用音声 Agent——マルチターン推論、ツール呼び出し、カスタム音声——には Realtime-2、トークン単位課金。3 つは単一アプリケーション内で組み合わせ可能。

BibiGPT による統合方法は？

BibiGPT の多言語字幕翻訳パイプラインは元々 YouTube、Bilibili、ポッドキャスト、アップロード動画ソースをカバー。本発表後、ルーティング層がサポートされるソース-ターゲットペア（非サポートペアは既存の連鎖パイプラインにフォールバック）に Realtime-Translate をディスパッチ。ユーザーが見るフロー——URL 貼付、ターゲット言語選択、翻訳字幕（オプションで焼き込み）入手——は変わらない。サポートペアでのコストと品質が透明に改善。

OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI が 2026-05-07 に GPT-Realtime-Translate を GPT-Realtime-2 / GPT-Realtime-Whisper と同時発表。70+ ソース言語を 13 ターゲット言語へストリーミング同時通訳、音声 1 分あたり $0.034。音声認識 + 翻訳 + 音声出力を 1 エンドポイントに統合。本ページは API が多言語字幕ワークフローをどう変えるか、BibiGPT 翻訳パイプラインがどう統合するかを解説します。

BibiGPT で字幕を翻訳

発表 · 2026-05-07 70+ → 13 言語 $0.034 / 音声 1 分

核心事実（90 秒）

OpenAI が 2026-05-07 に GPT-Realtime-Translate を Realtime-2 音声 API トリオの一部として発表。70+ ソース言語を 13 ターゲット言語へストリーミング通訳、音声 1 分あたり $0.034、音声認識 + 翻訳 + 音声出力を 1 エンドポイントに統合。多言語字幕ワークフローに重要：課金がトークンから分単位に反転、セグメント境界が話者の発話に従い、音声オーバーレイ吹き替えに別の TTS ステップが不要。BibiGPT 翻訳パイプラインはサポートペアを新エンドポイントにルーティングしつつ非サポートペアの既存フォールバックを維持。

Realtime-Translate が実際にすること

従来は3つの呼び出しを連鎖：音声→テキスト、別の翻訳モデル、オプションで音声合成。Realtime-Translate は3つを音声 1 分単位課金の単一ストリーミングエンドポイントに集約。

70+ ソース → 13 ターゲット言語

ソースカバレッジは英語、中国語、スペイン語、ポルトガル語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ヒンディー語、ロシア語、アラビア語など 60+。ターゲット出力は最も要求の多い 13 言語、字幕テキストとライブ音声同時通訳の両方に最適化。

音声 1 分あたり $0.034

トークン課金ではなく音声入力分単位の課金。長尺コンテンツのコストが予測可能：90 分講義を 1 ターゲット言語に翻訳すると約 $3.06（ストリーミング出力込み）。

リアルタイム遅延

ストリーミング通訳向け設計：ソース音声到着から数秒以内にターゲット言語音声出力開始。ライブ通話、ライブ字幕、再生中動画への字幕オーバーレイに適する。

多言語字幕ワークフローへの変化

クリエイター、教育者、コンテンツチームの動画／ポッドキャスト翻訳字幕制作における 3 つの具体的変化。

字幕が話者の発話に追従、ソース言語段落ではない

Realtime-Translate は音声から直接ストリーミングするため、セグメント境界が話者の間や抑揚に従い、ソーステキストの文区切りには従わない。焼き込み字幕がライブ収録音声（講義、ポッドキャスト、インタビュー）で自然に読める。

コスト計算がトークン単位から分単位へ反転

長尺コンテンツ（1 時間以上）はトークン課金で文字起こし長×翻訳長で増大していた。分単位課金により、2 時間のポッドキャストは話者がよく喋るか否かに関わらず同じ価格。

再生コンテンツへの音声オーバーレイが実現可能

API は音声出力も発するため、収録講義を 13 ターゲット言語の 1 つに吹き替える際、別の TTS ステップが不要に。教育者は音声翻訳をオーバーレイした講義再生を公開できる。

BibiGPT による新 API の統合

BibiGPT の多言語字幕翻訳パイプラインは元々 Whisper 風文字起こしと別の翻訳モデルを連鎖していた。新エンドポイントが動画／ポッドキャストワークフローに組み込まれる。

長尺動画字幕翻訳

YouTube、Bilibili、ポッドキャスト、アップロードファイルパイプラインがサポートされるソース-ターゲットペアで Realtime-Translate にルーティング。出力は Realtime-Translate が生成する話者整合セグメント付き SRT/VTT。

ダウンロード動画への字幕焼き込み

翻訳後、BibiGPT 既存の字幕焼き込みツールはブラウザ内 ffmpeg.wasm を使って翻訳トラックを動画に直接スタンプ可能。端から端まで：ソース動画 URL 入力、翻訳済み動画ファイル出力。

翻訳済みコンテンツへの追加質問

翻訳だけでは理解にならない。BibiGPT が翻訳された文字起こしをインデックス化したまま保持し、ユーザーがソーストラックと翻訳トラックの両方で追加質問（「演者は 47 分にどういう意味だった？」）可能。

5 つの主要変更（90 秒）

OpenAI 翻訳 API 2026-05-07 発表の主要シフト。

1

1 つのエンドポイントが 3 つの呼び出しを置換

従来：音声認識に Whisper、翻訳に GPT-4、音声出力に別の TTS。Realtime-Translate は 3 つを音声分単位課金の単一ストリーミング呼び出しに統合。
2

70+ → 13 言語、分あたり $0.034

ソースカバレッジ 70+ 主要言語。ターゲット出力は最も要求の多い 13 言語。コストが入力音声分あたり $0.034 で予測可能——話者の喋りの多寡に依存しない。
3

字幕セグメント分割が話者の間に従う

出力が音声から直接ストリーミングするため、セグメント境界が抑揚と間に合う。焼き込み字幕がライブ収録音声（講義、ポッドキャスト、インタビュー）でテキスト駆動翻訳より自然に読める。
4

再生への音声オーバーレイが実現可能に

音声出力が含まれるため、収録講義を 13 ターゲット言語の 1 つに吹き替える際、別の音声合成ステップが不要に。教育者は二言語講義再生を公開できる。
5

BibiGPT がサポートペアを透過的にルーティング

BibiGPT 翻訳パイプラインがサポートされるソース-ターゲットペアを Realtime-Translate にディスパッチ。非サポートペアは既存の連鎖ワークフローにフォールバック。ユーザーが見るフロー——URL 貼付、ターゲット言語選択——は変わらない。

BibiGPT ユーザーの 3 つの典型シナリオ

Realtime-Translate と BibiGPT の組み合わせが最も効果的なシナリオ。

YouTube 講義 → 翻訳 SRT + 焼き込み

90 分の YouTube 大学講義を BibiGPT に貼付。翻訳パイプラインが選択ターゲット言語に Realtime-Translate をルーティング（端から端まで $3.06）。翻訳 SRT をダウンロード、または BibiGPT のブラウザ内 ffmpeg.wasm 字幕焼き込みでソース動画に直接焼き込み。

Bilibili ポッドキャスト → 二言語再生

中国語の Bilibili 技術ポッドキャスト、ターゲット視聴者は英語を読む。Realtime-Translate が話者ペースのセグメント境界で英語字幕をストリーミング。BibiGPT がソースと翻訳の両方の文字起こしをインデックス化、リスナーはどちらの言語でも追加質問可能。

カンファレンス再生 → 5 言語字幕バンドル

年次カンファレンスを YouTube 動画として公開。各セッションを BibiGPT で 13 ターゲット言語のうち 5 つ（英、中、日、韓、西）に翻訳。分単位課金でバンドルが予測可能——4 時間カンファレンス×5 言語で約 $40.80。各言語の SRT として出力、再アップロード準備完了。

クリエイター・学生・研究者に愛用されています

動画をテキスト化するために、毎日 BibiGPT が選ばれている理由。

全世界 50,000 人以上のユーザーが利用中

★★★★★

“リンクを貼るだけで数秒でクリーンな字幕テキストが手に入り、毎週何時間もの書き起こし作業が不要になりました。”

Maya R.

コンテンツクリエイター · ショート動画を再編集

★★★★★

“文字起こしをエクスポートできるので、動画を何度も止めずに自分のペースで新しい単語を復習できます。”

Daniel K.

語学学習者 · 生の動画で学習

★★★★★

“タイムスタンプ付きの正確なテキストをそのまま引用できます。いつの間にか毎日のワークフローの一部になりました。”

Priya S.

研究者 · 公開講演を引用

よくある質問

ご質問はありますか？お気軽にどうぞ！

BibiGPT で任意の動画字幕を翻訳——サポートペアは Realtime-Translate にルーティング

YouTube、Bilibili、ポッドキャスト、アップロード動画の URL を BibiGPT に貼付。ターゲット言語を選択。翻訳パイプラインが 13 サポートターゲットに対し OpenAI Realtime-Translate を呼び、非サポートペアは既存ワークフローにフォールバック。SRT/VTT として出力、または動画に字幕を直接焼き込み——すべてブラウザ内で完結。

BibiGPT を無料で試す

OpenAI GPT-Realtime-Translate × BibiGPT

核心事実（90 秒）

Features

Realtime-Translate が実際にすること

70+ ソース → 13 ターゲット言語

音声 1 分あたり $0.034

リアルタイム遅延

多言語字幕ワークフローへの変化

字幕が話者の発話に追従、ソース言語段落ではない

コスト計算がトークン単位から分単位へ反転

再生コンテンツへの音声オーバーレイが実現可能

BibiGPT による新 API の統合

長尺動画字幕翻訳

ダウンロード動画への字幕焼き込み

翻訳済みコンテンツへの追加質問

5 つの主要変更（90 秒）

1 つのエンドポイントが 3 つの呼び出しを置換

70+ → 13 言語、分あたり $0.034

字幕セグメント分割が話者の間に従う

再生への音声オーバーレイが実現可能に

BibiGPT がサポートペアを透過的にルーティング

BibiGPT ユーザーの 3 つの典型シナリオ

YouTube 講義 → 翻訳 SRT + 焼き込み

Bilibili ポッドキャスト → 二言語再生

カンファレンス再生 → 5 言語字幕バンドル

クリエイター・学生・研究者に愛用されています

よくある質問

その他の無料ツール

Gemini Flash TTS × BibiGPT

OpenClaw × BibiGPT Skill

NotebookLM 2026 Update × BibiGPT

Cohere Transcribe 03-2026 × BibiGPT

BibiGPT で任意の動画字幕を翻訳——サポートペアは Realtime-Translate にルーティング