OpenAI GPT-Realtime-Translate × BibiGPT
OpenAI hat am 2026-05-07 GPT-Realtime-Translate zusammen mit GPT-Realtime-2 und GPT-Realtime-Whisper veröffentlicht. Streaming-Live-Dolmetschen aus 70+ Quellsprachen in 13 Zielsprachen zu $0,034 pro Audio-Minute, das Spracherkennung + Übersetzung + Sprachausgabe in einem Endpoint zusammenfasst. Diese Seite zeigt, wie die API mehrsprachige Untertitel-Workflows umgestaltet und wie sich BibiGPTs Übersetzungspipeline für Video- und Podcast-Inhalte integriert.
Kernfakten (90 Sekunden)
Am 2026-05-07 veröffentlichte OpenAI GPT-Realtime-Translate als Teil des Realtime-2-Sprach-API-Trios. Es streamt Live-Dolmetschung über 70+ Quellsprachen in 13 Zielsprachen zu $0,034 pro Audio-Minute, fasst Spracherkennung + Übersetzung + Sprachausgabe in einem Endpoint zusammen. Der Release ist wichtig für mehrsprachige Untertitel-Workflows, weil Abrechnung von pro-Token zu pro-Minute kippt, Segmentgrenzen Sprecher-Delivery folgen statt Quelltext-Brüchen und Sprach-Overlay-Synchronisation keinen separaten TTS-Schritt mehr benötigt. BibiGPTs Übersetzungspipeline routet unterstützte Quell-Ziel-Paare über den neuen Endpoint, behält den bestehenden Fallback für nicht unterstützte Paare.
Features
Was Realtime-Translate tatsächlich tut
Vor diesem Release verketteten mehrsprachige Untertitel-Pipelines typischerweise drei Aufrufe: Spracherkennung, dann separates Übersetzungsmodell, dann optional TTS. Realtime-Translate fasst alle drei in einem Streaming-Endpoint zusammen, der pro Audio-Minute abrechnet.
70+ Quell- → 13 Zielsprachen
Quellabdeckung umfasst Englisch, Mandarin, Spanisch, Portugiesisch, Französisch, Deutsch, Italienisch, Japanisch, Koreanisch, Hindi, Russisch, Arabisch und 60+ weitere. Zielausgabe deckt die 13 meistgefragten Produktionssprachen ab.
$0,034 pro Audio-Minute
Abrechnung nach Eingangs-Audio-Minute statt nach Token, was Kosten für lange Inhalte vorhersehbar macht. Eine 90-minütige Vorlesung in eine Zielsprache kostet etwa $3,06 end-to-end.
Live-Latenz
Für Streaming-Dolmetschen konzipiert: Zielsprachen-Audio beginnt innerhalb von Sekunden nach Ankunft des Quell-Audios. Geeignet für Live-Anrufe, Livestream-Untertitel und Overlay-Übersetzung auf aktuell abspielendem Video.
Wie es mehrsprachige Untertitel-Workflows verändert
Drei konkrete Verschiebungen darin, wie Creator, Pädagogen und Content-Teams übersetzte Untertitel für Video- und Podcast-Inhalte produzieren.
Untertitel folgen Sprecher-Delivery, nicht Quellsprachen-Absätzen
Da Realtime-Translate direkt aus Sprache streamt, folgen Segmentgrenzen Sprecherpausen und Intonation statt Quelltext-Satzgrenzen. Eingebrannte Untertitel lesen sich natürlicher für live aufgenommene Sprache (Vorlesungen, Podcasts, Interviews).
Kosten kippen von pro-Token zu pro-Minute
Lange Inhalte (1+ Stunde) waren teuer, weil Token-Abrechnung mit sowohl Transkript- als auch Übersetzungslänge skalierte. Pro-Minuten-Abrechnung macht einen 2-Stunden-Podcast gleich teuer, egal wie gesprächig der Sprecher ist.
Sprach-Overlay wird für Replay-Inhalte machbar
Da die API auch Sprachausgabe ausgibt, erfordert das Synchronisieren einer aufgezeichneten Vorlesung in eine der 13 Zielsprachen keinen separaten TTS-Schritt mehr.
Wie BibiGPT die neue API integriert
BibiGPTs mehrsprachige Untertitel-Übersetzungspipeline verkettete bereits Whisper-artige Transkription mit separaten Übersetzungsmodellen. Der neue Endpoint übernimmt für Video- und Podcast-Workflows.
Langform-Video-Untertitelübersetzung
YouTube-, Bilibili-, Podcast- und Upload-Datei-Pipelines routen über Realtime-Translate für unterstützte Quell-Ziel-Paare. Ausgaben landen als SRT/VTT mit sprecher-ausgerichteter Segmentierung.
Untertitel-Einbrennen für heruntergeladene Videos
Nach der Übersetzung kann BibiGPTs bestehendes Untertitel-Einbrenntool den übersetzten Track direkt auf das Video stempeln, mit ffmpeg.wasm im Browser. End-to-End: Quell-Video-URL rein, übersetzte Videodatei raus.
Folgefragen zu übersetzten Inhalten
BibiGPT hält das übersetzte Transkript indiziert und lässt Nutzer Folgefragen über sowohl den Quell- als auch den übersetzten Track stellen.
5 zentrale Änderungen (90 Sekunden)
Schlagzeilen der OpenAI Translation API Veröffentlichung am 2026-05-07.
- 1
Ein Endpoint ersetzt drei Aufrufe
Zuvor: Whisper für Spracherkennung, dann GPT-4 für Übersetzung, dann separates TTS für Sprachausgabe. Realtime-Translate fasst alle drei in einen Streaming-Aufruf zusammen, abgerechnet pro Audio-Minute.
- 2
70+ → 13 Sprachen zu $0,034/Min
Quellabdeckung erreicht 70+ Hauptsprachen. Zielausgabe deckt die 13 meistgefragten Produktionssprachen ab. Kosten vorhersehbar zu $0,034 pro Eingangs-Audio-Minute — unabhängig davon, wie gesprächig der Sprecher ist.
- 3
Untertitelsegmentierung folgt Sprecherpausen
Da die Ausgabe direkt aus Sprache streamt, entsprechen Segmentgrenzen Intonation und Pausen. Eingebrannte Untertitel lesen sich natürlicher für live aufgenommene Sprache als textgesteuerte Übersetzungen.
- 4
Sprach-Overlay wird für Replays machbar
Sprachausgabe ist enthalten, also benötigt die Synchronisation einer aufgezeichneten Vorlesung in eine der 13 Zielsprachen keinen separaten Text-zu-Sprache-Schritt mehr. Pädagogen können zweisprachige Vorlesungs-Replays veröffentlichen.
- 5
BibiGPT routet unterstützte Paare transparent
BibiGPTs Übersetzungspipeline versendet unterstützte Quell-Ziel-Paare an Realtime-Translate. Nicht unterstützte Paare fallen auf den bestehenden verketteten Workflow zurück. Der benutzersichtbare Fluss — URL einfügen, Zielsprache wählen — ist unverändert.
3 typische Szenarien für BibiGPT-Nutzer
Wo Realtime-Translate gepaart mit BibiGPT den meisten Wert bringt.
YouTube-Vorlesung → übersetzte SRT + Einbrennen
Eine 90-minütige YouTube-Universitätsvorlesung in BibiGPT einfügen. Die Übersetzungspipeline routet über Realtime-Translate für die gewählte Zielsprache ($3,06 end-to-end). Übersetzte SRT herunterladen oder direkt in das Quellvideo einbrennen mit BibiGPTs ffmpeg.wasm-Untertitel-Einbrenntool im Browser.
Bilibili-Podcast → zweisprachiges Replay
Bilibili Technik-Podcast auf Mandarin, Zielpublikum liest Englisch. Realtime-Translate streamt englische Untertitel mit sprecher-pacenden Segmentgrenzen. BibiGPT hält sowohl Quell- als auch übersetzte Transkripte indiziert, sodass Zuhörer in beiden Sprachen Folgefragen stellen können.
Konferenz-Replay → 5-Sprachen-Untertitel-Bundle
Jahreskonferenz als YouTube-Videos veröffentlicht. Jede Sitzung durch BibiGPT in 5 der 13 Zielsprachen (en, zh, ja, ko, es) ausführen. Pro-Minuten-Abrechnung macht das Bundle vorhersehbar — eine 4-stündige Konferenz in 5 Sprachen kostet ungefähr $40,80. Ausgabe als SRT für jede Sprache, bereit zum Re-Upload.
Loved by creators, students & researchers
Why people use BibiGPT to turn videos into text every day.
Trusted by 50,000+ users worldwide
“I paste a link and get clean captions in seconds — it saves me hours of retyping every single week.”
Maya R.
Content Creator · Repurposes short videos
“Exporting the transcript lets me review new words at my own pace instead of pausing the video constantly.”
Daniel K.
Language Learner · Studies with real videos
“Accurate, timestamped text I can quote directly. It has quietly become part of my daily workflow.”
Priya S.
Researcher · Cites public talks
FAQ
Häufig gestellte Fragen
Fragen Sie uns!
Beliebige Video-Untertitel mit BibiGPT übersetzen — jetzt für unterstützte Paare über Realtime-Translate geroutet
YouTube-, Bilibili-, Podcast- oder Upload-Video-URL in BibiGPT einfügen. Zielsprache wählen. Die Übersetzungspipeline routet über OpenAI Realtime-Translate für die 13 unterstützten Ziele und fällt für nicht unterstützte Paare auf den bestehenden Workflow zurück. Ausgabe als SRT/VTT oder Untertitel direkt ins Video einbrennen — alles im Browser.