GPT-Realtime-2 × BibiGPT

OpenAI ha lanciato GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper il 2026-05-07 — un trio di API per intelligenza vocale con contesto 128K (rispetto a 32K), ragionamento classe GPT-5, traduzione in tempo reale 70+→13 lingue e STT Whisper in streaming. BibiGPT abbina i nuovi endpoint per la generazione di sottotitoli video lunghi, la traduzione multilingue e le domande di follow-up dell'Agent — senza scrivere codice di migrazione.

Rilasciato · 2026-05-07 Contesto 128K · Classe GPT-5 Translate $0,034/min · Whisper $0,017/min

Fatti chiave (lettura di 90 secondi)

Al 2026-05-09, OpenAI ha lanciato GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper il 2026-05-07 — un trio di API voce con contesto 128K (rispetto a 32K), ragionamento classe GPT-5, traduzione in tempo reale 70+→13 lingue e STT Whisper streaming. Prezzi: Realtime-2 a $32/$64 per MTok, Translate a $0,034/min, Whisper a $0,017/min. Il layer di routing di BibiGPT ruota i nuovi endpoint nella generazione di sottotitoli video lunghi, traduzione multilingue e Q&A Agent.

Features

Cos'è GPT-Realtime-2?

Aggiornamento dell'API voce di OpenAI del 2026-05-07 — tre nuovi endpoint (Realtime-2, Realtime-Translate, Realtime-Whisper) con contesto 128K, ragionamento classe GPT-5 e prezzo al minuto per traduzione e STT.

Finestra di contesto 128K

Realtime-2 salta dal precedente limite di 32K a 128K token, sufficiente per contenere una lezione lunga completa o un podcast di più ore in una singola sessione vocale senza chunking.

Ragionamento classe GPT-5 sulla voce

OpenAI posiziona Realtime-2 come la controparte vocale della qualità di ragionamento GPT-5, con coerenza multi-turn più netta e migliore tool calling rispetto al precedente Realtime.

Traduzione in tempo reale 70+→13

Realtime-Translate accetta oltre 70 lingue di origine, produce 13 lingue di destinazione e trasmette l'interpretazione con latenza abbastanza bassa per chiamate live — al prezzo di $0,034 per minuto di audio.

Perché conta per gli utenti BibiGPT

BibiGPT instrada la generazione di sottotitoli video lunghi, la traduzione e Q&A Agent attraverso più provider vocali e ASR. Un nuovo trio di API Realtime ridisegna l'instradamento per i lavori vocali più difficili.

Sottotitoli streaming più economici

Realtime-Whisper abbassa lo STT streaming a $0,017 al minuto — circa la metà del costo di un ASR in tempo reale comparabile. BibiGPT può appoggiarvisi per le pipeline di sottotitoli live YouTube / Bilibili / podcast.

Traduzione vocale in un passo

Realtime-Translate piega STT + traduzione + streaming tipo TTS in un solo endpoint. La pipeline di traduzione di BibiGPT può comprimere la catena sulle coppie linguistiche supportate per un output più pulito.

Q&A vocale a lungo contesto

128K di contesto vocale permette all'Agent di BibiGPT di rispondere alle domande di follow-up su una lezione di 90 minuti in una sola sessione — senza re-riassumere, senza perdere le affermazioni dei primi minuti.

5 cambiamenti chiave (lettura di 90 secondi)

Cambiamenti principali del rilascio API voce di OpenAI del 2026-05-07.

  1. 1

    Tre nuovi endpoint vocali

    Realtime-2, Realtime-Translate e Realtime-Whisper escono come trio. I chiamanti scelgono l'endpoint per caso d'uso invece di un'API vocale generale per tutto.

  2. 2

    Il contesto salta 32K → 128K

    Realtime-2 tiene 4× più contesto vocale. Lezioni lunghe, podcast di più ore e meeting completi entrano in una sessione senza chunking o cuciture di perdita di contesto.

  3. 3

    Ragionamento classe GPT-5 sulla voce

    Realtime-2 è posizionato come la controparte vocale di GPT-5. Agent vocali multi-turn, tool calling e recupero strutturato ottengono lo stesso boost di ragionamento.

  4. 4

    Translate $0,034/min, STT $0,017/min

    Realtime-Translate copre 70+ origine → 13 lingue di destinazione e fattura al minuto audio. Realtime-Whisper streaming STT è circa metà del prezzo dell'ASR Realtime precedente.

  5. 5

    Layer di routing assorbito per gli utenti BibiGPT

    Se usi BibiGPT invece di integrare OpenAI direttamente, il layer di routing ruota Realtime-2 / Translate / Whisper nei sottotitoli video e nella traduzione. Gli utenti finali vedono output migliore senza scrivere codice di migrazione.

3 scenari tipici per gli utenti BibiGPT

Dove il nuovo trio di API voce paga di più per la base utenti BibiGPT.

Generazione di sottotitoli per video lunghi

Una lezione Bilibili di 90 minuti o un podcast YouTube di 2 ore. Realtime-Whisper streaming STT a $0,017/min taglia i costi dei sottotitoli circa a metà rispetto alla generazione precedente. BibiGPT instrada la traccia audio attraverso il nuovo endpoint per sottotitoli end-to-end più economici e veloci.

Traduzione multilingue live

ja → en per conferenze tecniche, zh → ko per recensioni prodotto, en → zh-TW per spiegazioni legali. Realtime-Translate piega STT + traduzione in un endpoint streaming a $0,034/min. La pipeline di traduzione di BibiGPT può usarlo sulle coppie supportate per un output più pulito e a bassa latenza.

Q&A Agent di follow-up su un video lungo

Una volta che BibiGPT ha un riassunto, gli utenti pongono domande di follow-up vocali: "cosa ha detto l'oratore al minuto 47 sui prezzi?". 128K di contesto vocale più ragionamento classe GPT-5 permettono all'Agent di rispondere sull'intera lezione in una sessione — niente re-riassunto, niente affermazioni perse dei primi minuti.

Domande frequenti

Chiedici qualsiasi cosa!

Usa BibiGPT per sottotitoli e traduzione video — supportato da modelli vocali classe Realtime-2

BibiGPT instrada automaticamente tra OpenAI Realtime, Anthropic e Gemini per generazione di sottotitoli video, traduzione multilingue e domande di follow-up. Ottieni il modello vocale giusto per il task senza gestire migrazioni o fatturazione al minuto.