GPT-Realtime-2 × BibiGPT

OpenAI a lancé GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper le 2026-05-07 — un trio d'API d'intelligence vocale avec contexte 128K (contre 32K), raisonnement de classe GPT-5, traduction temps réel 70+→13 langues et STT Whisper en streaming. BibiGPT associe les nouveaux endpoints pour la génération de sous-titres vidéo longs, la traduction multilingue et les questions de suivi Agent — sans écrire de code de migration vous-même.

Publié · 2026-05-07 Contexte 128K · Classe GPT-5 Translate $0,034/min · Whisper $0,017/min

Faits clés (lecture en 90 secondes)

Au 2026-05-09, OpenAI a lancé GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper le 2026-05-07 — un trio d'API d'intelligence vocale avec contexte 128K (contre 32K), raisonnement de classe GPT-5, traduction temps réel 70+→13 langues et STT Whisper en streaming. Tarifs : Realtime-2 à $32/$64 par MTok, Translate à $0,034/min, Whisper à $0,017/min. La couche de routage BibiGPT fait tourner les nouveaux endpoints dans la génération de sous-titres vidéo longs, la traduction multilingue et les Q&A Agent.

Features

Qu'est-ce que GPT-Realtime-2 ?

Mise à jour de l'API d'intelligence vocale d'OpenAI du 2026-05-07 — trois nouveaux endpoints (Realtime-2, Realtime-Translate, Realtime-Whisper) avec contexte 128K, raisonnement de classe GPT-5 et tarification à la minute pour la traduction et le STT.

Fenêtre de contexte 128K

Realtime-2 passe du plafond précédent de 32K à 128K tokens, suffisant pour conserver une conférence longue ou un podcast de plusieurs heures dans une seule session vocale sans découpage.

Raisonnement de classe GPT-5 sur la voix

OpenAI positionne Realtime-2 comme l'équivalent vocal de la qualité de raisonnement GPT-5, avec une cohérence multi-tours plus nette et un meilleur appel d'outils que le modèle Realtime précédent.

Traduction temps réel 70+→13

Realtime-Translate accepte plus de 70 langues sources, sort 13 langues cibles et streame l'interprétation avec une latence assez faible pour des appels en direct — facturé à $0,034 par minute audio.

Pourquoi cela compte pour les utilisateurs BibiGPT

BibiGPT route la génération de sous-titres vidéo longs, la traduction et les Q&A Agent à travers plusieurs fournisseurs vocaux et ASR. Un nouveau trio d'API Realtime restructure le routage pour les tâches vocales les plus difficiles.

Sous-titres en streaming moins chers

Realtime-Whisper baisse le STT en streaming à $0,017 la minute — environ la moitié du coût d'ASR temps réel comparable. BibiGPT peut s'appuyer dessus pour les pipelines de sous-titres en direct YouTube / Bilibili / podcast.

Traduction vocale en une étape

Realtime-Translate plie STT + traduction + streaming de type TTS en un seul endpoint. Le pipeline de traduction de BibiGPT peut compresser la chaîne sur les paires de langues prises en charge pour une sortie plus propre.

Q&A vocal à long contexte

128K de contexte vocal permet à l'Agent BibiGPT de répondre aux questions de suivi sur une conférence de 90 minutes en une seule session — sans re-résumer, sans perdre les affirmations des premières minutes.

5 changements clés (lecture en 90 secondes)

Principaux changements de la sortie API vocale d'OpenAI du 2026-05-07.

  1. 1

    Trois nouveaux endpoints vocaux

    Realtime-2, Realtime-Translate et Realtime-Whisper sortent en trio. Les appelants choisissent l'endpoint par cas d'usage au lieu d'une API vocale générale pour tout.

  2. 2

    Le contexte saute de 32K à 128K

    Realtime-2 contient 4× plus de contexte vocal. Conférences longues, podcasts de plusieurs heures et réunions complètes tiennent dans une session sans découpage ni coutures de perte de contexte.

  3. 3

    Raisonnement de classe GPT-5 sur la voix

    Realtime-2 est positionné comme l'équivalent vocal de GPT-5. Les agents vocaux multi-tours, l'appel d'outils et la récupération structurée bénéficient du même gain de raisonnement.

  4. 4

    Translate $0,034/min, STT $0,017/min

    Realtime-Translate couvre 70+ source → 13 langues cibles et facture à la minute audio. Realtime-Whisper streaming STT coûte environ la moitié du prix de l'ASR Realtime précédent.

  5. 5

    La couche de routage absorbe pour les utilisateurs BibiGPT

    Si vous utilisez BibiGPT au lieu d'intégrer OpenAI directement, la couche de routage fait tourner Realtime-2 / Translate / Whisper dans les sous-titres vidéo et la traduction. Les utilisateurs finaux voient une meilleure sortie sans écrire de code de migration.

3 scénarios typiques pour les utilisateurs BibiGPT

Où le nouveau trio d'API vocale paie le plus pour la base d'utilisateurs de BibiGPT.

Génération de sous-titres pour vidéos longues

Une conférence Bilibili de 90 minutes ou un podcast YouTube de 2 heures. Realtime-Whisper streaming STT à $0,017/min coupe les coûts de sous-titres environ de moitié par rapport à la génération précédente. BibiGPT route la piste audio via le nouvel endpoint pour des sous-titres moins chers, plus rapides de bout en bout.

Traduction multilingue en direct

ja → en pour les conférences techniques, zh → ko pour les avis produits, en → zh-TW pour les explications juridiques. Realtime-Translate plie STT + traduction en un endpoint streaming à $0,034/min. Le pipeline de traduction de BibiGPT peut l'utiliser sur les paires prises en charge pour une sortie plus propre et à plus faible latence.

Q&A Agent de suivi sur une vidéo longue

Une fois que BibiGPT a un résumé, les utilisateurs posent des questions de suivi vocales : "qu'est-ce que l'orateur a dit à la minute 47 sur les prix ?". Le contexte vocal 128K plus le raisonnement de classe GPT-5 permet à l'Agent de répondre sur la conférence complète en une session — pas de re-résumé, pas d'affirmations perdues des premières minutes.

Questions fréquentes

Posez-nous vos questions !

Utilisez BibiGPT pour les sous-titres et la traduction vidéo — soutenu par des modèles vocaux de classe Realtime-2

BibiGPT route automatiquement entre OpenAI Realtime, Anthropic et Gemini pour la génération de sous-titres vidéo, la traduction multilingue et les questions de suivi. Vous obtenez le bon modèle vocal pour la tâche sans gérer vous-même les migrations ou la facturation à la minute.