GPT-Realtime-2 × BibiGPT
OpenAI a lancé GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper le 2026-05-07 — un trio d'API d'intelligence vocale avec contexte 128K (contre 32K), raisonnement de classe GPT-5, traduction temps réel 70+→13 langues et STT Whisper en streaming. BibiGPT associe les nouveaux endpoints pour la génération de sous-titres vidéo longs, la traduction multilingue et les questions de suivi Agent — sans écrire de code de migration vous-même.
Faits clés (lecture en 90 secondes)
Au 2026-05-09, OpenAI a lancé GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper le 2026-05-07 — un trio d'API d'intelligence vocale avec contexte 128K (contre 32K), raisonnement de classe GPT-5, traduction temps réel 70+→13 langues et STT Whisper en streaming. Tarifs : Realtime-2 à $32/$64 par MTok, Translate à $0,034/min, Whisper à $0,017/min. La couche de routage BibiGPT fait tourner les nouveaux endpoints dans la génération de sous-titres vidéo longs, la traduction multilingue et les Q&A Agent.
Features
Qu'est-ce que GPT-Realtime-2 ?
Mise à jour de l'API d'intelligence vocale d'OpenAI du 2026-05-07 — trois nouveaux endpoints (Realtime-2, Realtime-Translate, Realtime-Whisper) avec contexte 128K, raisonnement de classe GPT-5 et tarification à la minute pour la traduction et le STT.
Fenêtre de contexte 128K
Realtime-2 passe du plafond précédent de 32K à 128K tokens, suffisant pour conserver une conférence longue ou un podcast de plusieurs heures dans une seule session vocale sans découpage.
Raisonnement de classe GPT-5 sur la voix
OpenAI positionne Realtime-2 comme l'équivalent vocal de la qualité de raisonnement GPT-5, avec une cohérence multi-tours plus nette et un meilleur appel d'outils que le modèle Realtime précédent.
Traduction temps réel 70+→13
Realtime-Translate accepte plus de 70 langues sources, sort 13 langues cibles et streame l'interprétation avec une latence assez faible pour des appels en direct — facturé à $0,034 par minute audio.
Pourquoi cela compte pour les utilisateurs BibiGPT
BibiGPT route la génération de sous-titres vidéo longs, la traduction et les Q&A Agent à travers plusieurs fournisseurs vocaux et ASR. Un nouveau trio d'API Realtime restructure le routage pour les tâches vocales les plus difficiles.
Sous-titres en streaming moins chers
Realtime-Whisper baisse le STT en streaming à $0,017 la minute — environ la moitié du coût d'ASR temps réel comparable. BibiGPT peut s'appuyer dessus pour les pipelines de sous-titres en direct YouTube / Bilibili / podcast.
Traduction vocale en une étape
Realtime-Translate plie STT + traduction + streaming de type TTS en un seul endpoint. Le pipeline de traduction de BibiGPT peut compresser la chaîne sur les paires de langues prises en charge pour une sortie plus propre.
Q&A vocal à long contexte
128K de contexte vocal permet à l'Agent BibiGPT de répondre aux questions de suivi sur une conférence de 90 minutes en une seule session — sans re-résumer, sans perdre les affirmations des premières minutes.
5 changements clés (lecture en 90 secondes)
Principaux changements de la sortie API vocale d'OpenAI du 2026-05-07.
- 1
Trois nouveaux endpoints vocaux
Realtime-2, Realtime-Translate et Realtime-Whisper sortent en trio. Les appelants choisissent l'endpoint par cas d'usage au lieu d'une API vocale générale pour tout.
- 2
Le contexte saute de 32K à 128K
Realtime-2 contient 4× plus de contexte vocal. Conférences longues, podcasts de plusieurs heures et réunions complètes tiennent dans une session sans découpage ni coutures de perte de contexte.
- 3
Raisonnement de classe GPT-5 sur la voix
Realtime-2 est positionné comme l'équivalent vocal de GPT-5. Les agents vocaux multi-tours, l'appel d'outils et la récupération structurée bénéficient du même gain de raisonnement.
- 4
Translate $0,034/min, STT $0,017/min
Realtime-Translate couvre 70+ source → 13 langues cibles et facture à la minute audio. Realtime-Whisper streaming STT coûte environ la moitié du prix de l'ASR Realtime précédent.
- 5
La couche de routage absorbe pour les utilisateurs BibiGPT
Si vous utilisez BibiGPT au lieu d'intégrer OpenAI directement, la couche de routage fait tourner Realtime-2 / Translate / Whisper dans les sous-titres vidéo et la traduction. Les utilisateurs finaux voient une meilleure sortie sans écrire de code de migration.
3 scénarios typiques pour les utilisateurs BibiGPT
Où le nouveau trio d'API vocale paie le plus pour la base d'utilisateurs de BibiGPT.
Génération de sous-titres pour vidéos longues
Une conférence Bilibili de 90 minutes ou un podcast YouTube de 2 heures. Realtime-Whisper streaming STT à $0,017/min coupe les coûts de sous-titres environ de moitié par rapport à la génération précédente. BibiGPT route la piste audio via le nouvel endpoint pour des sous-titres moins chers, plus rapides de bout en bout.
Traduction multilingue en direct
ja → en pour les conférences techniques, zh → ko pour les avis produits, en → zh-TW pour les explications juridiques. Realtime-Translate plie STT + traduction en un endpoint streaming à $0,034/min. Le pipeline de traduction de BibiGPT peut l'utiliser sur les paires prises en charge pour une sortie plus propre et à plus faible latence.
Q&A Agent de suivi sur une vidéo longue
Une fois que BibiGPT a un résumé, les utilisateurs posent des questions de suivi vocales : "qu'est-ce que l'orateur a dit à la minute 47 sur les prix ?". Le contexte vocal 128K plus le raisonnement de classe GPT-5 permet à l'Agent de répondre sur la conférence complète en une session — pas de re-résumé, pas d'affirmations perdues des premières minutes.
FAQ
Questions fréquentes
Posez-nous vos questions !
Utilisez BibiGPT pour les sous-titres et la traduction vidéo — soutenu par des modèles vocaux de classe Realtime-2
BibiGPT route automatiquement entre OpenAI Realtime, Anthropic et Gemini pour la génération de sous-titres vidéo, la traduction multilingue et les questions de suivi. Vous obtenez le bon modèle vocal pour la tâche sans gérer vous-même les migrations ou la facturation à la minute.