OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI hat am 2026-05-07 GPT-Realtime-Translate zusammen mit GPT-Realtime-2 und GPT-Realtime-Whisper veröffentlicht. Streaming-Live-Dolmetschen aus 70+ Quellsprachen in 13 Zielsprachen zu $0,034 pro Audio-Minute, das Spracherkennung + Übersetzung + Sprachausgabe in einem Endpoint zusammenfasst. Diese Seite zeigt, wie die API mehrsprachige Untertitel-Workflows umgestaltet und wie sich BibiGPTs Übersetzungspipeline für Video- und Podcast-Inhalte integriert.

Veröffentlicht · 2026-05-07 70+ → 13 Sprachen $0,034 / Audio-Minute

Kernfakten (90 Sekunden)

Am 2026-05-07 veröffentlichte OpenAI GPT-Realtime-Translate als Teil des Realtime-2-Sprach-API-Trios. Es streamt Live-Dolmetschung über 70+ Quellsprachen in 13 Zielsprachen zu $0,034 pro Audio-Minute, fasst Spracherkennung + Übersetzung + Sprachausgabe in einem Endpoint zusammen. Der Release ist wichtig für mehrsprachige Untertitel-Workflows, weil Abrechnung von pro-Token zu pro-Minute kippt, Segmentgrenzen Sprecher-Delivery folgen statt Quelltext-Brüchen und Sprach-Overlay-Synchronisation keinen separaten TTS-Schritt mehr benötigt. BibiGPTs Übersetzungspipeline routet unterstützte Quell-Ziel-Paare über den neuen Endpoint, behält den bestehenden Fallback für nicht unterstützte Paare.

Features

Was Realtime-Translate tatsächlich tut

Vor diesem Release verketteten mehrsprachige Untertitel-Pipelines typischerweise drei Aufrufe: Spracherkennung, dann separates Übersetzungsmodell, dann optional TTS. Realtime-Translate fasst alle drei in einem Streaming-Endpoint zusammen, der pro Audio-Minute abrechnet.

70+ Quell- → 13 Zielsprachen

Quellabdeckung umfasst Englisch, Mandarin, Spanisch, Portugiesisch, Französisch, Deutsch, Italienisch, Japanisch, Koreanisch, Hindi, Russisch, Arabisch und 60+ weitere. Zielausgabe deckt die 13 meistgefragten Produktionssprachen ab.

$0,034 pro Audio-Minute

Abrechnung nach Eingangs-Audio-Minute statt nach Token, was Kosten für lange Inhalte vorhersehbar macht. Eine 90-minütige Vorlesung in eine Zielsprache kostet etwa $3,06 end-to-end.

Live-Latenz

Für Streaming-Dolmetschen konzipiert: Zielsprachen-Audio beginnt innerhalb von Sekunden nach Ankunft des Quell-Audios. Geeignet für Live-Anrufe, Livestream-Untertitel und Overlay-Übersetzung auf aktuell abspielendem Video.

Wie es mehrsprachige Untertitel-Workflows verändert

Drei konkrete Verschiebungen darin, wie Creator, Pädagogen und Content-Teams übersetzte Untertitel für Video- und Podcast-Inhalte produzieren.

Untertitel folgen Sprecher-Delivery, nicht Quellsprachen-Absätzen

Da Realtime-Translate direkt aus Sprache streamt, folgen Segmentgrenzen Sprecherpausen und Intonation statt Quelltext-Satzgrenzen. Eingebrannte Untertitel lesen sich natürlicher für live aufgenommene Sprache (Vorlesungen, Podcasts, Interviews).

Kosten kippen von pro-Token zu pro-Minute

Lange Inhalte (1+ Stunde) waren teuer, weil Token-Abrechnung mit sowohl Transkript- als auch Übersetzungslänge skalierte. Pro-Minuten-Abrechnung macht einen 2-Stunden-Podcast gleich teuer, egal wie gesprächig der Sprecher ist.

Sprach-Overlay wird für Replay-Inhalte machbar

Da die API auch Sprachausgabe ausgibt, erfordert das Synchronisieren einer aufgezeichneten Vorlesung in eine der 13 Zielsprachen keinen separaten TTS-Schritt mehr.

Wie BibiGPT die neue API integriert

BibiGPTs mehrsprachige Untertitel-Übersetzungspipeline verkettete bereits Whisper-artige Transkription mit separaten Übersetzungsmodellen. Der neue Endpoint übernimmt für Video- und Podcast-Workflows.

Langform-Video-Untertitelübersetzung

YouTube-, Bilibili-, Podcast- und Upload-Datei-Pipelines routen über Realtime-Translate für unterstützte Quell-Ziel-Paare. Ausgaben landen als SRT/VTT mit sprecher-ausgerichteter Segmentierung.

Untertitel-Einbrennen für heruntergeladene Videos

Nach der Übersetzung kann BibiGPTs bestehendes Untertitel-Einbrenntool den übersetzten Track direkt auf das Video stempeln, mit ffmpeg.wasm im Browser. End-to-End: Quell-Video-URL rein, übersetzte Videodatei raus.

Folgefragen zu übersetzten Inhalten

BibiGPT hält das übersetzte Transkript indiziert und lässt Nutzer Folgefragen über sowohl den Quell- als auch den übersetzten Track stellen.

5 zentrale Änderungen (90 Sekunden)

Schlagzeilen der OpenAI Translation API Veröffentlichung am 2026-05-07.

  1. 1

    Ein Endpoint ersetzt drei Aufrufe

    Zuvor: Whisper für Spracherkennung, dann GPT-4 für Übersetzung, dann separates TTS für Sprachausgabe. Realtime-Translate fasst alle drei in einen Streaming-Aufruf zusammen, abgerechnet pro Audio-Minute.

  2. 2

    70+ → 13 Sprachen zu $0,034/Min

    Quellabdeckung erreicht 70+ Hauptsprachen. Zielausgabe deckt die 13 meistgefragten Produktionssprachen ab. Kosten vorhersehbar zu $0,034 pro Eingangs-Audio-Minute — unabhängig davon, wie gesprächig der Sprecher ist.

  3. 3

    Untertitelsegmentierung folgt Sprecherpausen

    Da die Ausgabe direkt aus Sprache streamt, entsprechen Segmentgrenzen Intonation und Pausen. Eingebrannte Untertitel lesen sich natürlicher für live aufgenommene Sprache als textgesteuerte Übersetzungen.

  4. 4

    Sprach-Overlay wird für Replays machbar

    Sprachausgabe ist enthalten, also benötigt die Synchronisation einer aufgezeichneten Vorlesung in eine der 13 Zielsprachen keinen separaten Text-zu-Sprache-Schritt mehr. Pädagogen können zweisprachige Vorlesungs-Replays veröffentlichen.

  5. 5

    BibiGPT routet unterstützte Paare transparent

    BibiGPTs Übersetzungspipeline versendet unterstützte Quell-Ziel-Paare an Realtime-Translate. Nicht unterstützte Paare fallen auf den bestehenden verketteten Workflow zurück. Der benutzersichtbare Fluss — URL einfügen, Zielsprache wählen — ist unverändert.

3 typische Szenarien für BibiGPT-Nutzer

Wo Realtime-Translate gepaart mit BibiGPT den meisten Wert bringt.

YouTube-Vorlesung → übersetzte SRT + Einbrennen

Eine 90-minütige YouTube-Universitätsvorlesung in BibiGPT einfügen. Die Übersetzungspipeline routet über Realtime-Translate für die gewählte Zielsprache ($3,06 end-to-end). Übersetzte SRT herunterladen oder direkt in das Quellvideo einbrennen mit BibiGPTs ffmpeg.wasm-Untertitel-Einbrenntool im Browser.

Bilibili-Podcast → zweisprachiges Replay

Bilibili Technik-Podcast auf Mandarin, Zielpublikum liest Englisch. Realtime-Translate streamt englische Untertitel mit sprecher-pacenden Segmentgrenzen. BibiGPT hält sowohl Quell- als auch übersetzte Transkripte indiziert, sodass Zuhörer in beiden Sprachen Folgefragen stellen können.

Konferenz-Replay → 5-Sprachen-Untertitel-Bundle

Jahreskonferenz als YouTube-Videos veröffentlicht. Jede Sitzung durch BibiGPT in 5 der 13 Zielsprachen (en, zh, ja, ko, es) ausführen. Pro-Minuten-Abrechnung macht das Bundle vorhersehbar — eine 4-stündige Konferenz in 5 Sprachen kostet ungefähr $40,80. Ausgabe als SRT für jede Sprache, bereit zum Re-Upload.

Loved by creators, students & researchers

Why people use BibiGPT to turn videos into text every day.

Trusted by 50,000+ users worldwide

★★★★★

“I paste a link and get clean captions in seconds — it saves me hours of retyping every single week.”

Maya R.

Content Creator · Repurposes short videos

★★★★★

“Exporting the transcript lets me review new words at my own pace instead of pausing the video constantly.”

Daniel K.

Language Learner · Studies with real videos

★★★★★

“Accurate, timestamped text I can quote directly. It has quietly become part of my daily workflow.”

Priya S.

Researcher · Cites public talks

Häufig gestellte Fragen

Fragen Sie uns!

Beliebige Video-Untertitel mit BibiGPT übersetzen — jetzt für unterstützte Paare über Realtime-Translate geroutet

YouTube-, Bilibili-, Podcast- oder Upload-Video-URL in BibiGPT einfügen. Zielsprache wählen. Die Übersetzungspipeline routet über OpenAI Realtime-Translate für die 13 unterstützten Ziele und fällt für nicht unterstützte Paare auf den bestehenden Workflow zurück. Ausgabe als SRT/VTT oder Untertitel direkt ins Video einbrennen — alles im Browser.