Qu'est-ce exactement que GPT-Realtime-Translate ?

Un endpoint API de traduction en direct en streaming qu'OpenAI a publié le 2026-05-07 dans le cadre du trio Realtime-2. Il accepte 70+ langues sources et produit 13 langues cibles, fondant reconnaissance vocale + traduction + sortie vocale en un seul appel. Facturé à $0,034 par minute d'audio.

En quoi diffère-t-il de l'enchaînement Whisper + GPT-4 + TTS ?

Trois différences. Premièrement, Realtime-Translate diffuse — la sortie en langue cible commence à émettre quelques secondes après l'arrivée de l'audio source. Deuxièmement, les limites de segments suivent la livraison du locuteur plutôt que les ruptures de phrases du texte source. Troisièmement, la facturation s'effondre de trois compteurs par-token en un compteur par-minute.

Pourquoi est-ce important pour les workflows de sous-titrage multilingue ?

La traduction de vidéo longue durée devient moins chère car la facturation est à la minute d'audio, pas au token. Un cours de 90 minutes dans une langue cible coûte environ $3,06 de bout en bout. Les sous-titres se lisent plus naturellement parce que les limites de segments correspondent aux pauses du locuteur. Et le doublage par superposition vocale dans l'une des 13 langues cibles ne nécessite plus d'étape TTS séparée.

Quand utiliser Realtime-Translate vs Realtime-2 vs Realtime-Whisper ?

Utilisez Realtime-Translate pour l'interprétation en direct ou enregistrée entre paires supportées (70+ source, 13 cible) — facturé par minute d'audio. Realtime-Whisper pour la pure transcription dans la langue d'origine sans traduction — facturé à $0,017 la minute. Realtime-2 pour un agent vocal général — raisonnement multi-tour, appel d'outils, voix personnalisées — facturé par token.

Comment BibiGPT l'intègre-t-il ?

Le pipeline de traduction de sous-titres multilingue de BibiGPT couvrait déjà les sources vidéo YouTube, Bilibili, podcast et téléchargées. Après cette sortie, la couche de routage dispatche vers Realtime-Translate pour les paires source-cible supportées (avec fallback vers le pipeline chaîné pour les paires non supportées). Le flux visible par l'utilisateur est inchangé.

OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI a publié GPT-Realtime-Translate le 2026-05-07 aux côtés de GPT-Realtime-2 et GPT-Realtime-Whisper. Streaming d'interprétation en direct sur 70+ langues sources vers 13 langues cibles à $0,034 par minute d'audio, fusionnant reconnaissance vocale + traduction + sortie vocale en un seul endpoint. Cette page montre comment l'API remodèle les workflows de sous-titrage multilingue et comment le pipeline de traduction BibiGPT l'intègre pour le contenu vidéo et podcast.

Traduire les sous-titres avec BibiGPT

Publié · 2026-05-07 70+ → 13 langues $0,034 / minute d'audio

Faits clés (90 secondes)

Le 2026-05-07, OpenAI a publié GPT-Realtime-Translate dans le cadre du trio d'API vocale Realtime-2. Il diffuse l'interprétation en direct sur 70+ langues sources vers 13 langues cibles à $0,034 par minute d'audio, fondant reconnaissance vocale + traduction + sortie vocale en un endpoint. La sortie compte pour les workflows de sous-titrage multilingue car la facturation passe de par-token à par-minute, les limites de segments suivent la livraison du locuteur plutôt que les ruptures du texte source, et le doublage par superposition vocale ne nécessite plus d'étape TTS séparée. Le pipeline de traduction BibiGPT route les paires source-cible supportées via le nouvel endpoint tout en conservant le fallback existant pour les paires non supportées.

Ce que fait réellement Realtime-Translate

Avant cette sortie, les pipelines de sous-titrage multilingue enchaînaient typiquement trois appels : reconnaissance vocale, puis modèle de traduction séparé, puis TTS optionnel. Realtime-Translate fond les trois en un endpoint streaming facturé par minute d'audio.

70+ langues sources → 13 cibles

La couverture source s'étend sur l'anglais, le mandarin, l'espagnol, le portugais, le français, l'allemand, l'italien, le japonais, le coréen, le hindi, le russe, l'arabe et 60+ autres. La sortie cible couvre les 13 langues de production les plus demandées.

$0,034 par minute d'audio

Facturé à la minute d'audio en entrée plutôt que par token, ce qui rend le coût prévisible pour le contenu long. Un cours de 90 minutes traduit dans une langue cible coûte environ $3,06 de bout en bout.

Latence en direct

Conçu pour l'interprétation en streaming : l'audio de la langue cible commence à émettre quelques secondes après l'arrivée de l'audio source. Adapté aux appels en direct, sous-titres de livestream et superposition de traduction sur vidéo en cours de lecture.

Comment cela change les workflows de sous-titrage multilingue

Trois changements concrets dans la façon dont créateurs, éducateurs et équipes de contenu produisent des sous-titres traduits pour vidéo et podcast.

Les sous-titres suivent la livraison du locuteur, pas les paragraphes en langue source

Comme Realtime-Translate diffuse directement à partir de la parole, les limites de segments suivent les pauses et l'intonation du locuteur plutôt que les ruptures de phrases du texte source. Les sous-titres incrustés se lisent plus naturellement pour les paroles capturées en direct.

Le coût passe de par-token à par-minute

Le contenu long (1+ heure) coûtait cher parce que la facturation par token évoluait avec la longueur de transcription et de traduction. La facturation à la minute rend un podcast de 2 heures équivalent quelle que soit la verbosité du locuteur.

La superposition vocale devient faisable pour le replay

Comme l'API émet aussi la sortie vocale, doubler un cours enregistré dans l'une des 13 langues cibles ne nécessite plus une étape TTS séparée.

Comment BibiGPT intègre la nouvelle API

Le pipeline de traduction de sous-titres multilingue de BibiGPT enchaînait déjà une transcription style Whisper avec des modèles de traduction séparés. Le nouvel endpoint s'insère pour les workflows vidéo et podcast.

Traduction de sous-titres vidéo longue durée

Les pipelines YouTube, Bilibili, podcast et fichier téléchargé routent via Realtime-Translate pour les paires source-cible supportées. Les sorties atterrissent en SRT/VTT avec la segmentation alignée au locuteur produite par Realtime-Translate.

Incrustation de sous-titres pour vidéo téléchargée

Après la traduction, l'outil d'incrustation de sous-titres existant de BibiGPT peut tamponner la piste traduite directement sur la vidéo en utilisant ffmpeg.wasm dans le navigateur. De bout en bout : URL vidéo source en entrée, fichier vidéo traduit en sortie.

Q&A de suivi sur le contenu traduit

BibiGPT garde le transcript traduit indexé et permet aux utilisateurs de poser des questions de suivi à travers les pistes source et traduite.

5 changements clés (90 secondes)

Changements phares de la sortie API de traduction OpenAI du 2026-05-07.

1

Un endpoint remplace trois appels

Auparavant : Whisper pour la reconnaissance vocale, puis GPT-4 pour la traduction, puis un TTS séparé pour la sortie vocale. Realtime-Translate fond les trois en un appel streaming facturé à la minute d'audio.
2

70+ → 13 langues à $0,034/min

La couverture source atteint 70+ langues principales. La sortie cible couvre les 13 langues de production les plus demandées. Coût prévisible à $0,034 par minute d'audio d'entrée — indépendant de la verbosité du locuteur.
3

Segmentation de sous-titres suit les pauses du locuteur

Comme la sortie diffuse directement à partir de la parole, les limites de segments correspondent à l'intonation et aux pauses. Les sous-titres incrustés se lisent plus naturellement pour les paroles capturées en direct que les traductions guidées par texte.
4

Superposition vocale devient faisable pour les replays

La sortie vocale est incluse, donc doubler un cours enregistré dans l'une des 13 langues cibles ne nécessite plus d'étape texte-vers-parole séparée. Les éducateurs peuvent publier des replays de cours bilingues.
5

BibiGPT route les paires supportées de manière transparente

Le pipeline de traduction BibiGPT dispatche les paires source-cible supportées vers Realtime-Translate. Les paires non supportées reviennent au workflow chaîné existant. Le flux visible par l'utilisateur — coller URL, choisir langue cible — est inchangé.

3 scénarios typiques pour les utilisateurs BibiGPT

Où Realtime-Translate associé à BibiGPT rapporte le plus.

Cours YouTube → SRT traduit + incrustation

Collez un cours universitaire YouTube de 90 minutes dans BibiGPT. Le pipeline de traduction route via Realtime-Translate pour la langue cible choisie ($3,06 de bout en bout). Téléchargez le SRT traduit, ou incrustez dans la vidéo source directement en utilisant l'outil d'incrustation de sous-titres ffmpeg.wasm de BibiGPT dans le navigateur.

Podcast Bilibili → replay bilingue

Podcast technique Bilibili en mandarin, audience cible lit en anglais. Realtime-Translate diffuse des sous-titres anglais avec des limites de segments au rythme du locuteur. BibiGPT garde les transcripts source et traduits indexés pour que les auditeurs puissent poser des questions de suivi dans l'une ou l'autre langue.

Replay de conférence → bundle de sous-titres 5 langues

Conférence annuelle publiée comme vidéos YouTube. Faites passer chaque session via BibiGPT dans 5 des 13 langues cibles (en, zh, ja, ko, es). La facturation à la minute rend le bundle prévisible — une conférence de 4 heures en 5 langues coûte environ $40,80. Sortie en SRT pour chaque langue, prête au re-upload.

Adopté par les créateurs, étudiants et chercheurs

Pourquoi tant de personnes utilisent BibiGPT chaque jour pour transformer leurs vidéos en texte.

Plus de 50 000 utilisateurs dans le monde nous font confiance

★★★★★

“Je colle un lien et j'obtiens des sous-titres propres en quelques secondes — cela m'épargne des heures de retranscription chaque semaine.”

Maya R.

Créatrice de contenu · Réutilise des vidéos courtes

★★★★★

“Exporter la transcription me permet de réviser le vocabulaire à mon rythme au lieu de mettre la vidéo en pause sans arrêt.”

Daniel K.

Apprenant en langues · Étudie avec de vraies vidéos

★★★★★

“Un texte précis et horodaté que je peux citer directement. C'est devenu, mine de rien, une partie de mon quotidien.”

Priya S.

Chercheuse · Cite des conférences publiques

FAQ

Questions fréquentes

Posez-nous vos questions !

Popular guides

Outil de résumé vidéo IA pour Bilibili : BibiGPT résume 30+ plateformes instantanément (2026)

Meilleur outil de résumé vidéo IA pour Bilibili en 2026 ? BibiGPT supporte 30+ plateformes avec 1M+ utilisateurs. Collez n'importe quel lien Bilibili pour des résumés structurés instantanés. Comparez les 5 meilleurs outils plus l'automatisation par agent IA.

Bilibili Transcript Tools Compared: Best Subtitle Extractors in 2026

Looking for the best bilibili transcript tool? We compare 5 top subtitle extractors for Bilibili videos — from free downloaders to AI-powered tools like BibiGPT that handle transcription, translation, and summarization.

OpenClaw + BibiGPT Skill 2026: AI Video Summary for Bilibili, Xiaohongshu & 30+ Platforms

OpenClaw can't summarize Bilibili/Douyin alone. Install bibigpt-skill once and summarize 30+ video platforms inside Claude Code — free to try.

Traduisez tout sous-titre vidéo avec BibiGPT — désormais routé via Realtime-Translate pour les paires supportées

Collez une URL YouTube, Bilibili, podcast ou vidéo téléchargée dans BibiGPT. Choisissez une langue cible. Le pipeline de traduction route via OpenAI Realtime-Translate pour les 13 cibles supportées et revient au workflow existant pour les paires non supportées. Sortie en SRT/VTT ou incrustez les sous-titres directement dans la vidéo — tout dans votre navigateur.

Essayer BibiGPT gratuitement

OpenAI GPT-Realtime-Translate × BibiGPT

Faits clés (90 secondes)

Features

Ce que fait réellement Realtime-Translate

70+ langues sources → 13 cibles

$0,034 par minute d'audio

Latence en direct

Comment cela change les workflows de sous-titrage multilingue

Les sous-titres suivent la livraison du locuteur, pas les paragraphes en langue source

Le coût passe de par-token à par-minute

La superposition vocale devient faisable pour le replay

Comment BibiGPT intègre la nouvelle API

Traduction de sous-titres vidéo longue durée

Incrustation de sous-titres pour vidéo téléchargée

Q&A de suivi sur le contenu traduit

5 changements clés (90 secondes)

Un endpoint remplace trois appels

70+ → 13 langues à $0,034/min

Segmentation de sous-titres suit les pauses du locuteur

Superposition vocale devient faisable pour les replays

BibiGPT route les paires supportées de manière transparente

3 scénarios typiques pour les utilisateurs BibiGPT

Cours YouTube → SRT traduit + incrustation

Podcast Bilibili → replay bilingue

Replay de conférence → bundle de sous-titres 5 langues

Adopté par les créateurs, étudiants et chercheurs

Questions fréquentes

Plus d'outils gratuits

Gemini Flash TTS × BibiGPT

OpenClaw × BibiGPT Skill

NotebookLM 2026 Update × BibiGPT

Cohere Transcribe 03-2026 × BibiGPT

Popular guides

Outil de résumé vidéo IA pour Bilibili : BibiGPT résume 30+ plateformes instantanément (2026)

Bilibili Transcript Tools Compared: Best Subtitle Extractors in 2026

OpenClaw + BibiGPT Skill 2026: AI Video Summary for Bilibili, Xiaohongshu & 30+ Platforms

Traduisez tout sous-titre vidéo avec BibiGPT — désormais routé via Realtime-Translate pour les paires supportées