OpenAI GPT-Realtime-Translate × BibiGPT
OpenAI ha rilasciato GPT-Realtime-Translate il 2026-05-07 insieme a GPT-Realtime-2 e GPT-Realtime-Whisper. Streaming di interpretazione live su 70+ lingue sorgente verso 13 lingue di destinazione a $0,034 al minuto di audio, fondendo riconoscimento vocale + traduzione + output vocale in un singolo endpoint. Questa pagina mostra come l'API rimodella i flussi di sottotitolazione multilingue e come la pipeline di traduzione BibiGPT la integra per contenuti video e podcast.
Fatti chiave (90 secondi)
Il 2026-05-07 OpenAI ha rilasciato GPT-Realtime-Translate come parte del trio API vocali Realtime-2. Trasmette interpretazione live su 70+ lingue sorgente in 13 lingue di destinazione a $0,034 al minuto di audio, fondendo riconoscimento vocale + traduzione + output vocale in un endpoint. Il rilascio conta per i flussi di sottotitolazione multilingue perché la fatturazione passa da per-token a per-minuto, i confini dei segmenti seguono la consegna dello speaker piuttosto che le interruzioni del testo sorgente, e il doppiaggio per sovrapposizione vocale non richiede più un passo TTS separato. La pipeline di traduzione BibiGPT instrada le coppie sorgente-destinazione supportate attraverso il nuovo endpoint mantenendo il fallback esistente per coppie non supportate.
Features
Cosa fa realmente Realtime-Translate
Prima di questo rilascio, le pipeline di sottotitolazione multilingue tipicamente concatenavano tre chiamate: riconoscimento vocale, poi modello di traduzione separato, poi TTS opzionale. Realtime-Translate fonde le tre in un endpoint streaming fatturato al minuto di audio.
70+ sorgenti → 13 lingue di destinazione
La copertura sorgente abbraccia inglese, mandarino, spagnolo, portoghese, francese, tedesco, italiano, giapponese, coreano, hindi, russo, arabo e altre 60+. L'output di destinazione copre le 13 lingue di produzione più richieste.
$0,034 al minuto di audio
Fatturato al minuto di audio in input piuttosto che per token, il che rende il costo prevedibile per contenuti lunghi. Una lezione di 90 minuti tradotta in una lingua di destinazione costa circa $3,06 dall'inizio alla fine.
Latenza live
Progettato per interpretazione in streaming: l'audio nella lingua di destinazione inizia a emettere entro secondi dall'arrivo dell'audio sorgente. Adatto a chiamate live, sottotitoli livestream e sovrapposizione di traduzione su video in riproduzione.
Come cambia i flussi di sottotitolazione multilingue
Tre cambiamenti concreti nel modo in cui creatori, educatori e team di contenuto producono sottotitoli tradotti per video e podcast.
I sottotitoli seguono la consegna dello speaker, non i paragrafi della lingua sorgente
Poiché Realtime-Translate trasmette direttamente dalla voce, i confini dei segmenti seguono le pause e l'intonazione dello speaker piuttosto che le interruzioni di frase del testo sorgente. I sottotitoli impressi si leggono più naturalmente per il parlato catturato live.
Il costo passa da per-token a per-minuto
I contenuti lunghi (1+ ora) erano costosi perché la fatturazione per token scalava sia con la lunghezza della trascrizione sia con quella della traduzione. La fatturazione al minuto rende un podcast di 2 ore uguale indipendentemente da quanto lo speaker parli.
La sovrapposizione vocale diventa fattibile per i replay
Poiché l'API emette anche output vocale, doppiare una lezione registrata in una delle 13 lingue di destinazione non richiede più un passo TTS separato.
Come BibiGPT integra la nuova API
La pipeline di traduzione sottotitoli multilingue di BibiGPT già concatenava trascrizione stile Whisper con modelli di traduzione separati. Il nuovo endpoint si inserisce per i flussi video e podcast.
Traduzione sottotitoli video di lunga durata
Le pipeline YouTube, Bilibili, podcast e file caricato instradano via Realtime-Translate per le coppie sorgente-destinazione supportate. Le uscite atterrano come SRT/VTT con la segmentazione allineata allo speaker prodotta da Realtime-Translate.
Incisione sottotitoli per video scaricato
Dopo la traduzione, lo strumento di incisione sottotitoli esistente di BibiGPT può stampare la traccia tradotta direttamente sul video utilizzando ffmpeg.wasm nel browser. Da inizio a fine: URL video sorgente in input, file video tradotto in output.
Q&A di follow-up sui contenuti tradotti
BibiGPT mantiene la trascrizione tradotta indicizzata e consente agli utenti di porre domande di follow-up attraverso entrambe le tracce sorgente e tradotta.
5 cambiamenti chiave (90 secondi)
Cambiamenti principali del rilascio API di traduzione OpenAI del 2026-05-07.
- 1
Un endpoint sostituisce tre chiamate
Prima: Whisper per riconoscimento vocale, poi GPT-4 per traduzione, poi TTS separato per output vocale. Realtime-Translate fonde le tre in una chiamata streaming fatturata al minuto di audio.
- 2
70+ → 13 lingue a $0,034/min
La copertura sorgente raggiunge 70+ lingue principali. L'output di destinazione copre le 13 lingue di produzione più richieste. Costo prevedibile a $0,034 per minuto di audio in input — indipendente dalla loquacità dello speaker.
- 3
Segmentazione sottotitoli segue le pause dello speaker
Poiché l'output trasmette direttamente dalla voce, i confini dei segmenti corrispondono all'intonazione e alle pause. I sottotitoli impressi si leggono più naturalmente per il parlato catturato live rispetto alle traduzioni guidate dal testo.
- 4
Sovrapposizione vocale diventa fattibile per i replay
L'output vocale è incluso, quindi doppiare una lezione registrata in una delle 13 lingue di destinazione non richiede più un passo testo-a-parlato separato. Gli educatori possono pubblicare replay di lezioni bilingui.
- 5
BibiGPT instrada coppie supportate in modo trasparente
La pipeline di traduzione BibiGPT inoltra le coppie sorgente-destinazione supportate a Realtime-Translate. Le coppie non supportate ricadono sul workflow concatenato esistente. Il flusso visibile all'utente — incolla URL, scegli lingua di destinazione — è invariato.
3 scenari tipici per gli utenti BibiGPT
Dove Realtime-Translate abbinato a BibiGPT rende di più.
Lezione YouTube → SRT tradotto + incisione
Incolla una lezione universitaria YouTube di 90 minuti in BibiGPT. La pipeline di traduzione instrada via Realtime-Translate per la lingua di destinazione scelta ($3,06 dall'inizio alla fine). Scarica l'SRT tradotto, o incidi direttamente nel video sorgente utilizzando lo strumento di incisione sottotitoli ffmpeg.wasm di BibiGPT nel browser.
Podcast Bilibili → replay bilingue
Podcast tecnico Bilibili in mandarino, pubblico di destinazione legge inglese. Realtime-Translate trasmette sottotitoli inglesi con confini di segmenti al ritmo dello speaker. BibiGPT mantiene entrambe le trascrizioni sorgente e tradotte indicizzate così gli ascoltatori possono porre domande di follow-up in entrambe le lingue.
Replay conferenza → bundle sottotitoli 5 lingue
Conferenza annuale pubblicata come video YouTube. Fai passare ogni sessione attraverso BibiGPT in 5 delle 13 lingue di destinazione (en, zh, ja, ko, es). La fatturazione al minuto rende il bundle prevedibile — una conferenza di 4 ore in 5 lingue costa circa $40,80. Output come SRT per ogni lingua, pronto al ri-upload.
FAQ
Domande frequenti
Chiedici qualsiasi cosa!
Traduci qualsiasi sottotitolo video con BibiGPT — ora instradato via Realtime-Translate per coppie supportate
Incolla un URL YouTube, Bilibili, podcast o video caricato in BibiGPT. Scegli una lingua di destinazione. La pipeline di traduzione instrada via OpenAI Realtime-Translate per le 13 destinazioni supportate e ricade sul workflow esistente per coppie non supportate. Output come SRT/VTT o incidi i sottotitoli direttamente nel video — tutto nel tuo browser.