OpenAI GPT-Realtime-Translate × BibiGPT
OpenAI a publié GPT-Realtime-Translate le 2026-05-07 aux côtés de GPT-Realtime-2 et GPT-Realtime-Whisper. Streaming d'interprétation en direct sur 70+ langues sources vers 13 langues cibles à $0,034 par minute d'audio, fusionnant reconnaissance vocale + traduction + sortie vocale en un seul endpoint. Cette page montre comment l'API remodèle les workflows de sous-titrage multilingue et comment le pipeline de traduction BibiGPT l'intègre pour le contenu vidéo et podcast.
Faits clés (90 secondes)
Le 2026-05-07, OpenAI a publié GPT-Realtime-Translate dans le cadre du trio d'API vocale Realtime-2. Il diffuse l'interprétation en direct sur 70+ langues sources vers 13 langues cibles à $0,034 par minute d'audio, fondant reconnaissance vocale + traduction + sortie vocale en un endpoint. La sortie compte pour les workflows de sous-titrage multilingue car la facturation passe de par-token à par-minute, les limites de segments suivent la livraison du locuteur plutôt que les ruptures du texte source, et le doublage par superposition vocale ne nécessite plus d'étape TTS séparée. Le pipeline de traduction BibiGPT route les paires source-cible supportées via le nouvel endpoint tout en conservant le fallback existant pour les paires non supportées.
Features
Ce que fait réellement Realtime-Translate
Avant cette sortie, les pipelines de sous-titrage multilingue enchaînaient typiquement trois appels : reconnaissance vocale, puis modèle de traduction séparé, puis TTS optionnel. Realtime-Translate fond les trois en un endpoint streaming facturé par minute d'audio.
70+ langues sources → 13 cibles
La couverture source s'étend sur l'anglais, le mandarin, l'espagnol, le portugais, le français, l'allemand, l'italien, le japonais, le coréen, le hindi, le russe, l'arabe et 60+ autres. La sortie cible couvre les 13 langues de production les plus demandées.
$0,034 par minute d'audio
Facturé à la minute d'audio en entrée plutôt que par token, ce qui rend le coût prévisible pour le contenu long. Un cours de 90 minutes traduit dans une langue cible coûte environ $3,06 de bout en bout.
Latence en direct
Conçu pour l'interprétation en streaming : l'audio de la langue cible commence à émettre quelques secondes après l'arrivée de l'audio source. Adapté aux appels en direct, sous-titres de livestream et superposition de traduction sur vidéo en cours de lecture.
Comment cela change les workflows de sous-titrage multilingue
Trois changements concrets dans la façon dont créateurs, éducateurs et équipes de contenu produisent des sous-titres traduits pour vidéo et podcast.
Les sous-titres suivent la livraison du locuteur, pas les paragraphes en langue source
Comme Realtime-Translate diffuse directement à partir de la parole, les limites de segments suivent les pauses et l'intonation du locuteur plutôt que les ruptures de phrases du texte source. Les sous-titres incrustés se lisent plus naturellement pour les paroles capturées en direct.
Le coût passe de par-token à par-minute
Le contenu long (1+ heure) coûtait cher parce que la facturation par token évoluait avec la longueur de transcription et de traduction. La facturation à la minute rend un podcast de 2 heures équivalent quelle que soit la verbosité du locuteur.
La superposition vocale devient faisable pour le replay
Comme l'API émet aussi la sortie vocale, doubler un cours enregistré dans l'une des 13 langues cibles ne nécessite plus une étape TTS séparée.
Comment BibiGPT intègre la nouvelle API
Le pipeline de traduction de sous-titres multilingue de BibiGPT enchaînait déjà une transcription style Whisper avec des modèles de traduction séparés. Le nouvel endpoint s'insère pour les workflows vidéo et podcast.
Traduction de sous-titres vidéo longue durée
Les pipelines YouTube, Bilibili, podcast et fichier téléchargé routent via Realtime-Translate pour les paires source-cible supportées. Les sorties atterrissent en SRT/VTT avec la segmentation alignée au locuteur produite par Realtime-Translate.
Incrustation de sous-titres pour vidéo téléchargée
Après la traduction, l'outil d'incrustation de sous-titres existant de BibiGPT peut tamponner la piste traduite directement sur la vidéo en utilisant ffmpeg.wasm dans le navigateur. De bout en bout : URL vidéo source en entrée, fichier vidéo traduit en sortie.
Q&A de suivi sur le contenu traduit
BibiGPT garde le transcript traduit indexé et permet aux utilisateurs de poser des questions de suivi à travers les pistes source et traduite.
5 changements clés (90 secondes)
Changements phares de la sortie API de traduction OpenAI du 2026-05-07.
- 1
Un endpoint remplace trois appels
Auparavant : Whisper pour la reconnaissance vocale, puis GPT-4 pour la traduction, puis un TTS séparé pour la sortie vocale. Realtime-Translate fond les trois en un appel streaming facturé à la minute d'audio.
- 2
70+ → 13 langues à $0,034/min
La couverture source atteint 70+ langues principales. La sortie cible couvre les 13 langues de production les plus demandées. Coût prévisible à $0,034 par minute d'audio d'entrée — indépendant de la verbosité du locuteur.
- 3
Segmentation de sous-titres suit les pauses du locuteur
Comme la sortie diffuse directement à partir de la parole, les limites de segments correspondent à l'intonation et aux pauses. Les sous-titres incrustés se lisent plus naturellement pour les paroles capturées en direct que les traductions guidées par texte.
- 4
Superposition vocale devient faisable pour les replays
La sortie vocale est incluse, donc doubler un cours enregistré dans l'une des 13 langues cibles ne nécessite plus d'étape texte-vers-parole séparée. Les éducateurs peuvent publier des replays de cours bilingues.
- 5
BibiGPT route les paires supportées de manière transparente
Le pipeline de traduction BibiGPT dispatche les paires source-cible supportées vers Realtime-Translate. Les paires non supportées reviennent au workflow chaîné existant. Le flux visible par l'utilisateur — coller URL, choisir langue cible — est inchangé.
3 scénarios typiques pour les utilisateurs BibiGPT
Où Realtime-Translate associé à BibiGPT rapporte le plus.
Cours YouTube → SRT traduit + incrustation
Collez un cours universitaire YouTube de 90 minutes dans BibiGPT. Le pipeline de traduction route via Realtime-Translate pour la langue cible choisie ($3,06 de bout en bout). Téléchargez le SRT traduit, ou incrustez dans la vidéo source directement en utilisant l'outil d'incrustation de sous-titres ffmpeg.wasm de BibiGPT dans le navigateur.
Podcast Bilibili → replay bilingue
Podcast technique Bilibili en mandarin, audience cible lit en anglais. Realtime-Translate diffuse des sous-titres anglais avec des limites de segments au rythme du locuteur. BibiGPT garde les transcripts source et traduits indexés pour que les auditeurs puissent poser des questions de suivi dans l'une ou l'autre langue.
Replay de conférence → bundle de sous-titres 5 langues
Conférence annuelle publiée comme vidéos YouTube. Faites passer chaque session via BibiGPT dans 5 des 13 langues cibles (en, zh, ja, ko, es). La facturation à la minute rend le bundle prévisible — une conférence de 4 heures en 5 langues coûte environ $40,80. Sortie en SRT pour chaque langue, prête au re-upload.
Loved by creators, students & researchers
Why people use BibiGPT to turn videos into text every day.
Trusted by 50,000+ users worldwide
“I paste a link and get clean captions in seconds — it saves me hours of retyping every single week.”
Maya R.
Content Creator · Repurposes short videos
“Exporting the transcript lets me review new words at my own pace instead of pausing the video constantly.”
Daniel K.
Language Learner · Studies with real videos
“Accurate, timestamped text I can quote directly. It has quietly become part of my daily workflow.”
Priya S.
Researcher · Cites public talks
FAQ
Questions fréquentes
Posez-nous vos questions !
Traduisez tout sous-titre vidéo avec BibiGPT — désormais routé via Realtime-Translate pour les paires supportées
Collez une URL YouTube, Bilibili, podcast ou vidéo téléchargée dans BibiGPT. Choisissez une langue cible. Le pipeline de traduction route via OpenAI Realtime-Translate pour les 13 cibles supportées et revient au workflow existant pour les paires non supportées. Sortie en SRT/VTT ou incrustez les sous-titres directement dans la vidéo — tout dans votre navigateur.