Was genau ist GPT-Realtime-Translate?

Ein Streaming-Live-Übersetzungs-API-Endpoint, den OpenAI am 2026-05-07 als Teil des Realtime-2-Trios veröffentlichte. Akzeptiert 70+ Quellsprachen und gibt 13 Zielsprachen aus, fasst Spracherkennung + Übersetzung + Sprachausgabe in einem Aufruf zusammen. Abgerechnet zu $0,034 pro Audio-Minute.

Wie unterscheidet es sich vom Verketten von Whisper + GPT-4 + TTS?

Drei Unterschiede. Erstens streamt Realtime-Translate — Zielsprachenausgabe beginnt innerhalb von Sekunden nach Ankunft des Quell-Audios. Zweitens folgen Segmentgrenzen der Sprecher-Delivery statt Quelltext-Satzgrenzen, was als Untertitel natürlicher liest. Drittens kollabieren drei pro-Token-Zähler in einen pro-Minute-Zähler.

Warum ist es wichtig für mehrsprachige Untertitel-Workflows?

Langform-Video-Übersetzung wird günstiger, weil pro Audio-Minute abgerechnet wird, nicht pro Token. Eine 90-minütige Vorlesung in eine Zielsprache kostet etwa $3,06 end-to-end. Untertitel lesen sich natürlicher, weil Segmentgrenzen Sprecherpausen entsprechen. Und Sprach-Overlay-Synchronisation in eine der 13 Zielsprachen benötigt keinen separaten TTS-Schritt mehr.

Wann Realtime-Translate vs Realtime-2 vs Realtime-Whisper verwenden?

Realtime-Translate für Live- oder aufgezeichnete Dolmetschung zwischen unterstützten Paaren (70+ Quelle, 13 Ziel) — pro Audio-Minute abgerechnet. Realtime-Whisper für reine Transkription in der Originalsprache ohne Übersetzung — abgerechnet zu $0,017 pro Minute. Realtime-2 für allgemeinen Sprach-Agent — Multi-Turn-Reasoning, Tool-Aufrufe, benutzerdefinierte Stimmen — pro Token abgerechnet.

Wie integriert BibiGPT es?

BibiGPTs mehrsprachige Untertitel-Übersetzungspipeline deckte bereits YouTube-, Bilibili-, Podcast- und Upload-Video-Quellen ab. Nach diesem Release versendet die Routing-Schicht an Realtime-Translate für unterstützte Quell-Ziel-Paare (mit Fallback auf die verkettete Pipeline für nicht unterstützte Paare). Der benutzersichtbare Fluss ist unverändert.

OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI hat am 2026-05-07 GPT-Realtime-Translate zusammen mit GPT-Realtime-2 und GPT-Realtime-Whisper veröffentlicht. Streaming-Live-Dolmetschen aus 70+ Quellsprachen in 13 Zielsprachen zu $0,034 pro Audio-Minute, das Spracherkennung + Übersetzung + Sprachausgabe in einem Endpoint zusammenfasst. Diese Seite zeigt, wie die API mehrsprachige Untertitel-Workflows umgestaltet und wie sich BibiGPTs Übersetzungspipeline für Video- und Podcast-Inhalte integriert.

Untertitel mit BibiGPT übersetzen

Veröffentlicht · 2026-05-07 70+ → 13 Sprachen $0,034 / Audio-Minute

Kernfakten (90 Sekunden)

Am 2026-05-07 veröffentlichte OpenAI GPT-Realtime-Translate als Teil des Realtime-2-Sprach-API-Trios. Es streamt Live-Dolmetschung über 70+ Quellsprachen in 13 Zielsprachen zu $0,034 pro Audio-Minute, fasst Spracherkennung + Übersetzung + Sprachausgabe in einem Endpoint zusammen. Der Release ist wichtig für mehrsprachige Untertitel-Workflows, weil Abrechnung von pro-Token zu pro-Minute kippt, Segmentgrenzen Sprecher-Delivery folgen statt Quelltext-Brüchen und Sprach-Overlay-Synchronisation keinen separaten TTS-Schritt mehr benötigt. BibiGPTs Übersetzungspipeline routet unterstützte Quell-Ziel-Paare über den neuen Endpoint, behält den bestehenden Fallback für nicht unterstützte Paare.

Was Realtime-Translate tatsächlich tut

Vor diesem Release verketteten mehrsprachige Untertitel-Pipelines typischerweise drei Aufrufe: Spracherkennung, dann separates Übersetzungsmodell, dann optional TTS. Realtime-Translate fasst alle drei in einem Streaming-Endpoint zusammen, der pro Audio-Minute abrechnet.

70+ Quell- → 13 Zielsprachen

Quellabdeckung umfasst Englisch, Mandarin, Spanisch, Portugiesisch, Französisch, Deutsch, Italienisch, Japanisch, Koreanisch, Hindi, Russisch, Arabisch und 60+ weitere. Zielausgabe deckt die 13 meistgefragten Produktionssprachen ab.

$0,034 pro Audio-Minute

Abrechnung nach Eingangs-Audio-Minute statt nach Token, was Kosten für lange Inhalte vorhersehbar macht. Eine 90-minütige Vorlesung in eine Zielsprache kostet etwa $3,06 end-to-end.

Live-Latenz

Für Streaming-Dolmetschen konzipiert: Zielsprachen-Audio beginnt innerhalb von Sekunden nach Ankunft des Quell-Audios. Geeignet für Live-Anrufe, Livestream-Untertitel und Overlay-Übersetzung auf aktuell abspielendem Video.

Wie es mehrsprachige Untertitel-Workflows verändert

Drei konkrete Verschiebungen darin, wie Creator, Pädagogen und Content-Teams übersetzte Untertitel für Video- und Podcast-Inhalte produzieren.

Untertitel folgen Sprecher-Delivery, nicht Quellsprachen-Absätzen

Da Realtime-Translate direkt aus Sprache streamt, folgen Segmentgrenzen Sprecherpausen und Intonation statt Quelltext-Satzgrenzen. Eingebrannte Untertitel lesen sich natürlicher für live aufgenommene Sprache (Vorlesungen, Podcasts, Interviews).

Kosten kippen von pro-Token zu pro-Minute

Lange Inhalte (1+ Stunde) waren teuer, weil Token-Abrechnung mit sowohl Transkript- als auch Übersetzungslänge skalierte. Pro-Minuten-Abrechnung macht einen 2-Stunden-Podcast gleich teuer, egal wie gesprächig der Sprecher ist.

Sprach-Overlay wird für Replay-Inhalte machbar

Da die API auch Sprachausgabe ausgibt, erfordert das Synchronisieren einer aufgezeichneten Vorlesung in eine der 13 Zielsprachen keinen separaten TTS-Schritt mehr.

Wie BibiGPT die neue API integriert

BibiGPTs mehrsprachige Untertitel-Übersetzungspipeline verkettete bereits Whisper-artige Transkription mit separaten Übersetzungsmodellen. Der neue Endpoint übernimmt für Video- und Podcast-Workflows.

Langform-Video-Untertitelübersetzung

YouTube-, Bilibili-, Podcast- und Upload-Datei-Pipelines routen über Realtime-Translate für unterstützte Quell-Ziel-Paare. Ausgaben landen als SRT/VTT mit sprecher-ausgerichteter Segmentierung.

Untertitel-Einbrennen für heruntergeladene Videos

Nach der Übersetzung kann BibiGPTs bestehendes Untertitel-Einbrenntool den übersetzten Track direkt auf das Video stempeln, mit ffmpeg.wasm im Browser. End-to-End: Quell-Video-URL rein, übersetzte Videodatei raus.

Folgefragen zu übersetzten Inhalten

BibiGPT hält das übersetzte Transkript indiziert und lässt Nutzer Folgefragen über sowohl den Quell- als auch den übersetzten Track stellen.

5 zentrale Änderungen (90 Sekunden)

Schlagzeilen der OpenAI Translation API Veröffentlichung am 2026-05-07.

1

Ein Endpoint ersetzt drei Aufrufe

Zuvor: Whisper für Spracherkennung, dann GPT-4 für Übersetzung, dann separates TTS für Sprachausgabe. Realtime-Translate fasst alle drei in einen Streaming-Aufruf zusammen, abgerechnet pro Audio-Minute.
2

70+ → 13 Sprachen zu $0,034/Min

Quellabdeckung erreicht 70+ Hauptsprachen. Zielausgabe deckt die 13 meistgefragten Produktionssprachen ab. Kosten vorhersehbar zu $0,034 pro Eingangs-Audio-Minute — unabhängig davon, wie gesprächig der Sprecher ist.
3

Untertitelsegmentierung folgt Sprecherpausen

Da die Ausgabe direkt aus Sprache streamt, entsprechen Segmentgrenzen Intonation und Pausen. Eingebrannte Untertitel lesen sich natürlicher für live aufgenommene Sprache als textgesteuerte Übersetzungen.
4

Sprach-Overlay wird für Replays machbar

Sprachausgabe ist enthalten, also benötigt die Synchronisation einer aufgezeichneten Vorlesung in eine der 13 Zielsprachen keinen separaten Text-zu-Sprache-Schritt mehr. Pädagogen können zweisprachige Vorlesungs-Replays veröffentlichen.
5

BibiGPT routet unterstützte Paare transparent

BibiGPTs Übersetzungspipeline versendet unterstützte Quell-Ziel-Paare an Realtime-Translate. Nicht unterstützte Paare fallen auf den bestehenden verketteten Workflow zurück. Der benutzersichtbare Fluss — URL einfügen, Zielsprache wählen — ist unverändert.

3 typische Szenarien für BibiGPT-Nutzer

Wo Realtime-Translate gepaart mit BibiGPT den meisten Wert bringt.

YouTube-Vorlesung → übersetzte SRT + Einbrennen

Eine 90-minütige YouTube-Universitätsvorlesung in BibiGPT einfügen. Die Übersetzungspipeline routet über Realtime-Translate für die gewählte Zielsprache ($3,06 end-to-end). Übersetzte SRT herunterladen oder direkt in das Quellvideo einbrennen mit BibiGPTs ffmpeg.wasm-Untertitel-Einbrenntool im Browser.

Bilibili-Podcast → zweisprachiges Replay

Bilibili Technik-Podcast auf Mandarin, Zielpublikum liest Englisch. Realtime-Translate streamt englische Untertitel mit sprecher-pacenden Segmentgrenzen. BibiGPT hält sowohl Quell- als auch übersetzte Transkripte indiziert, sodass Zuhörer in beiden Sprachen Folgefragen stellen können.

Konferenz-Replay → 5-Sprachen-Untertitel-Bundle

Jahreskonferenz als YouTube-Videos veröffentlicht. Jede Sitzung durch BibiGPT in 5 der 13 Zielsprachen (en, zh, ja, ko, es) ausführen. Pro-Minuten-Abrechnung macht das Bundle vorhersehbar — eine 4-stündige Konferenz in 5 Sprachen kostet ungefähr $40,80. Ausgabe als SRT für jede Sprache, bereit zum Re-Upload.

Beliebt bei Creators, Studierenden & Forschenden

Warum Menschen täglich Videos mit BibiGPT in Text verwandeln.

Von über 50.000 Nutzern weltweit geschätzt

★★★★★

“Ich füge einen Link ein und bekomme in Sekunden saubere Untertitel — das spart mir jede Woche stundenlanges Abtippen.”

Maya R.

Content Creator · Verwertet Kurzvideos neu

★★★★★

“Dank des Transkript-Exports lerne ich neue Wörter in meinem eigenen Tempo, statt das Video ständig anzuhalten.”

Daniel K.

Sprachlerner · Lernt mit echten Videos

★★★★★

“Präziser Text mit Zeitstempeln, den ich direkt zitieren kann. Er ist still und leise Teil meines Arbeitsalltags geworden.”

Priya S.

Forscherin · Zitiert öffentliche Vorträge

FAQ

Häufig gestellte Fragen

Fragen Sie uns!

Popular guides

Bilibili KI-Videozusammenfassungs-Tool: BibiGPT fasst 30+ Plattformen sofort zusammen (2026)

Bestes Bilibili KI-Videozusammenfassungs-Tool 2026? BibiGPT unterstützt 30+ Plattformen mit 1M+ Nutzern. Beliebigen Bilibili-Link einfügen für sofortige strukturierte Zusammenfassungen. Vergleichen Sie die Top 5 Tools plus KI-Agenten-Automatisierung.

Bilibili Transcript Tools Compared: Best Subtitle Extractors in 2026

Looking for the best bilibili transcript tool? We compare 5 top subtitle extractors for Bilibili videos — from free downloaders to AI-powered tools like BibiGPT that handle transcription, translation, and summarization.

OpenClaw + BibiGPT Skill 2026: AI Video Summary for Bilibili, Xiaohongshu & 30+ Platforms

OpenClaw can't summarize Bilibili/Douyin alone. Install bibigpt-skill once and summarize 30+ video platforms inside Claude Code — free to try.

Beliebige Video-Untertitel mit BibiGPT übersetzen — jetzt für unterstützte Paare über Realtime-Translate geroutet

YouTube-, Bilibili-, Podcast- oder Upload-Video-URL in BibiGPT einfügen. Zielsprache wählen. Die Übersetzungspipeline routet über OpenAI Realtime-Translate für die 13 unterstützten Ziele und fällt für nicht unterstützte Paare auf den bestehenden Workflow zurück. Ausgabe als SRT/VTT oder Untertitel direkt ins Video einbrennen — alles im Browser.

BibiGPT kostenlos testen

OpenAI GPT-Realtime-Translate × BibiGPT

Kernfakten (90 Sekunden)

Features

Was Realtime-Translate tatsächlich tut

70+ Quell- → 13 Zielsprachen

$0,034 pro Audio-Minute

Live-Latenz

Wie es mehrsprachige Untertitel-Workflows verändert

Untertitel folgen Sprecher-Delivery, nicht Quellsprachen-Absätzen

Kosten kippen von pro-Token zu pro-Minute

Sprach-Overlay wird für Replay-Inhalte machbar

Wie BibiGPT die neue API integriert

Langform-Video-Untertitelübersetzung

Untertitel-Einbrennen für heruntergeladene Videos

Folgefragen zu übersetzten Inhalten

5 zentrale Änderungen (90 Sekunden)

Ein Endpoint ersetzt drei Aufrufe

70+ → 13 Sprachen zu $0,034/Min

Untertitelsegmentierung folgt Sprecherpausen

Sprach-Overlay wird für Replays machbar

BibiGPT routet unterstützte Paare transparent

3 typische Szenarien für BibiGPT-Nutzer

YouTube-Vorlesung → übersetzte SRT + Einbrennen

Bilibili-Podcast → zweisprachiges Replay

Konferenz-Replay → 5-Sprachen-Untertitel-Bundle

Beliebt bei Creators, Studierenden & Forschenden

Häufig gestellte Fragen

Weitere kostenlose Tools

Gemini Flash TTS × BibiGPT

OpenClaw × BibiGPT Skill

NotebookLM 2026 Update × BibiGPT

Cohere Transcribe 03-2026 × BibiGPT

Popular guides

Bilibili KI-Videozusammenfassungs-Tool: BibiGPT fasst 30+ Plattformen sofort zusammen (2026)

Bilibili Transcript Tools Compared: Best Subtitle Extractors in 2026

OpenClaw + BibiGPT Skill 2026: AI Video Summary for Bilibili, Xiaohongshu & 30+ Platforms

Beliebige Video-Untertitel mit BibiGPT übersetzen — jetzt für unterstützte Paare über Realtime-Translate geroutet