OpenAI GPT-Realtime-Translate × BibiGPT
OpenAI wydało GPT-Realtime-Translate 2026-05-07 wraz z GPT-Realtime-2 i GPT-Realtime-Whisper. Strumieniowe tłumaczenie na żywo z 70+ języków źródłowych na 13 docelowych za $0,034 za minutę audio, łącząc rozpoznawanie mowy + tłumaczenie + wyjście głosowe w jednym endpointcie. Ta strona pokazuje, jak API przekształca przepływy wielojęzycznych napisów i jak pipeline tłumaczeniowy BibiGPT integruje go dla treści wideo i podcastów.
Kluczowe fakty (90 sekund)
2026-05-07 OpenAI wydało GPT-Realtime-Translate jako część trio API głosowych Realtime-2. Strumieniuje tłumaczenie na żywo z 70+ języków źródłowych na 13 docelowych za $0,034 za minutę audio, łącząc rozpoznawanie mowy + tłumaczenie + wyjście głosowe w jeden endpoint. Wydanie ma znaczenie dla przepływów wielojęzycznych napisów, ponieważ rozliczanie przerzuca się z per-token na per-minutę, granice segmentów podążają za wymową mówcy zamiast za przerwami tekstu źródłowego, a dubbing nakładki głosowej nie wymaga już osobnego kroku TTS. Pipeline tłumaczeniowy BibiGPT trasuje obsługiwane pary źródło-cel przez nowy endpoint zachowując istniejący fallback dla nieobsługiwanych par.
Features
Co rzeczywiście robi Realtime-Translate
Przed tym wydaniem pipeline'y napisów wielojęzycznych typowo łączyły trzy wywołania: rozpoznawanie mowy, następnie osobny model tłumaczenia, następnie opcjonalny TTS. Realtime-Translate łączy wszystkie trzy w jeden endpoint strumieniowy rozliczany za minutę audio.
70+ języków źródłowych → 13 docelowych
Pokrycie źródła obejmuje angielski, mandaryński, hiszpański, portugalski, francuski, niemiecki, włoski, japoński, koreański, hindi, rosyjski, arabski i 60+ więcej. Wyjście docelowe pokrywa 13 najczęściej żądanych języków produkcyjnych.
$0,034 za minutę audio
Rozliczane za minutę audio wejściowego zamiast za token, co czyni koszt przewidywalnym dla długich treści. 90-minutowy wykład przetłumaczony na jeden język docelowy kosztuje około $3,06 od końca do końca.
Opóźnienie na żywo
Zaprojektowane dla tłumaczenia strumieniowego: audio języka docelowego zaczyna emitować w ciągu sekund od przybycia audio źródłowego. Odpowiednie dla połączeń na żywo, napisów na żywym strumieniu i nakładania tłumaczenia na aktualnie odtwarzane wideo.
Jak zmienia przepływy wielojęzycznych napisów
Trzy konkretne zmiany w sposobie, w jaki twórcy, edukatorzy i zespoły treści produkują przetłumaczone napisy dla wideo i podcastów.
Napisy podążają za wymową mówcy, nie akapitami w języku źródłowym
Ponieważ Realtime-Translate strumieniuje bezpośrednio z mowy, granice segmentów podążają za pauzami i intonacją mówcy zamiast za przerwami zdań w tekście źródłowym. Wypalane napisy czyta się bardziej naturalnie dla mowy uchwyconej na żywo.
Koszt przerzuca się z per-token na per-minutę
Długie treści (1+ godzina) były drogie, ponieważ rozliczanie tokenowe skalowało się zarówno z długością transkrypcji jak i długością tłumaczenia. Rozliczanie minutowe sprawia, że 2-godzinny podcast kosztuje tak samo niezależnie od tego, jak gadatliwy jest mówca.
Nakładka głosowa staje się wykonalna dla treści powtórek
Ponieważ API emituje również wyjście głosowe, dubbing nagranego wykładu w jednym z 13 języków docelowych nie wymaga już osobnego kroku TTS.
Jak BibiGPT integruje nowe API
Pipeline tłumaczeniowy napisów wielojęzycznych BibiGPT już łączył transkrypcję w stylu Whisper z osobnymi modelami tłumaczenia. Nowy endpoint wstawia się dla przepływów wideo i podcastów.
Tłumaczenie napisów do długich filmów
Pipeline'y YouTube, Bilibili, podcastu i przesłanego pliku trasują przez Realtime-Translate dla wspieranych par źródło-cel. Wyjścia lądują jako SRT/VTT z segmentacją wyrównaną do mówcy produkowaną przez Realtime-Translate.
Wypalanie napisów dla pobranego wideo
Po tłumaczeniu istniejące narzędzie wypalania napisów BibiGPT może wytłoczyć przetłumaczoną ścieżkę bezpośrednio na wideo używając ffmpeg.wasm w przeglądarce. Od końca do końca: URL wideo źródłowego na wejściu, plik wideo przetłumaczony na wyjściu.
Pytania uzupełniające do przetłumaczonej treści
BibiGPT trzyma przetłumaczoną transkrypcję zindeksowaną i pozwala użytkownikom zadawać pytania uzupełniające przez obie ścieżki — źródłową i przetłumaczoną.
5 kluczowych zmian (90 sekund)
Główne zmiany wydania OpenAI Translation API z 2026-05-07.
- 1
Jeden endpoint zastępuje trzy wywołania
Wcześniej: Whisper do rozpoznawania mowy, potem GPT-4 do tłumaczenia, potem osobny TTS do wyjścia głosowego. Realtime-Translate łączy wszystkie trzy w jedno strumieniowe wywołanie rozliczane za minutę audio.
- 2
70+ → 13 języków za $0,034/min
Pokrycie źródła sięga 70+ głównych języków. Wyjście docelowe pokrywa 13 najczęściej żądanych języków produkcyjnych. Koszt przewidywalny przy $0,034 za minutę audio wejściowego — niezależnie od gadatliwości mówcy.
- 3
Segmentacja napisów podąża za pauzami mówcy
Ponieważ wyjście strumieniuje bezpośrednio z mowy, granice segmentów odpowiadają intonacji i pauzom. Wypalane napisy czyta się bardziej naturalnie dla mowy uchwyconej na żywo niż tłumaczenia sterowane tekstem.
- 4
Nakładka głosowa staje się wykonalna dla powtórek
Wyjście głosowe jest zawarte, więc dubbing nagranego wykładu w jednym z 13 języków docelowych nie wymaga już osobnego kroku zamiany tekstu na mowę. Edukatorzy mogą publikować dwujęzyczne powtórki wykładów.
- 5
BibiGPT trasuje obsługiwane pary przejrzyście
Pipeline tłumaczeniowy BibiGPT dyspozyzuje obsługiwane pary źródło-cel do Realtime-Translate. Nieobsługiwane pary wracają do istniejącego połączonego workflow. Przepływ widoczny dla użytkownika — wklej URL, wybierz język docelowy — jest niezmieniony.
3 typowe scenariusze dla użytkowników BibiGPT
Gdzie Realtime-Translate w połączeniu z BibiGPT najbardziej się opłaca.
Wykład YouTube → przetłumaczony SRT + wypalanie
Wklej 90-minutowy uniwersytecki wykład YouTube do BibiGPT. Pipeline tłumaczeniowy trasuje przez Realtime-Translate dla wybranego języka docelowego ($3,06 od końca do końca). Pobierz przetłumaczony SRT lub wypal bezpośrednio w wideo źródłowym używając narzędzia wypalania napisów ffmpeg.wasm BibiGPT w przeglądarce.
Podcast Bilibili → dwujęzyczne odtwarzanie
Techniczny podcast Bilibili po mandaryńsku, docelowa publiczność czyta po angielsku. Realtime-Translate strumieniuje angielskie napisy z granicami segmentów w tempie mówcy. BibiGPT trzyma zarówno źródłowe jak i przetłumaczone transkrypcje zindeksowane, aby słuchacze mogli zadawać pytania uzupełniające w obu językach.
Powtórka konferencji → pakiet napisów w 5 językach
Doroczna konferencja opublikowana jako wideo YouTube. Przepuść każdą sesję przez BibiGPT w 5 z 13 języków docelowych (en, zh, ja, ko, es). Rozliczanie minutowe sprawia, że pakiet jest przewidywalny — 4-godzinna konferencja w 5 językach kosztuje około $40,80. Wyjście jako SRT dla każdego języka, gotowe do ponownego przesłania.
FAQ
Często zadawane pytania
Zapytaj nas o cokolwiek!
Tłumacz dowolne napisy wideo z BibiGPT — teraz trasowane przez Realtime-Translate dla obsługiwanych par
Wklej URL YouTube, Bilibili, podcastu lub przesłanego wideo do BibiGPT. Wybierz język docelowy. Pipeline tłumaczeniowy trasuje przez OpenAI Realtime-Translate dla 13 obsługiwanych celów i wraca do istniejącego workflow dla nieobsługiwanych par. Wyjście jako SRT/VTT lub wypal napisy bezpośrednio w wideo — wszystko w przeglądarce.