OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI wydało GPT-Realtime-Translate 2026-05-07 wraz z GPT-Realtime-2 i GPT-Realtime-Whisper. Strumieniowe tłumaczenie na żywo z 70+ języków źródłowych na 13 docelowych za $0,034 za minutę audio, łącząc rozpoznawanie mowy + tłumaczenie + wyjście głosowe w jednym endpointcie. Ta strona pokazuje, jak API przekształca przepływy wielojęzycznych napisów i jak pipeline tłumaczeniowy BibiGPT integruje go dla treści wideo i podcastów.

Wydane · 2026-05-07 70+ → 13 języków $0,034 / minutę audio

Kluczowe fakty (90 sekund)

2026-05-07 OpenAI wydało GPT-Realtime-Translate jako część trio API głosowych Realtime-2. Strumieniuje tłumaczenie na żywo z 70+ języków źródłowych na 13 docelowych za $0,034 za minutę audio, łącząc rozpoznawanie mowy + tłumaczenie + wyjście głosowe w jeden endpoint. Wydanie ma znaczenie dla przepływów wielojęzycznych napisów, ponieważ rozliczanie przerzuca się z per-token na per-minutę, granice segmentów podążają za wymową mówcy zamiast za przerwami tekstu źródłowego, a dubbing nakładki głosowej nie wymaga już osobnego kroku TTS. Pipeline tłumaczeniowy BibiGPT trasuje obsługiwane pary źródło-cel przez nowy endpoint zachowując istniejący fallback dla nieobsługiwanych par.

Features

Co rzeczywiście robi Realtime-Translate

Przed tym wydaniem pipeline'y napisów wielojęzycznych typowo łączyły trzy wywołania: rozpoznawanie mowy, następnie osobny model tłumaczenia, następnie opcjonalny TTS. Realtime-Translate łączy wszystkie trzy w jeden endpoint strumieniowy rozliczany za minutę audio.

70+ języków źródłowych → 13 docelowych

Pokrycie źródła obejmuje angielski, mandaryński, hiszpański, portugalski, francuski, niemiecki, włoski, japoński, koreański, hindi, rosyjski, arabski i 60+ więcej. Wyjście docelowe pokrywa 13 najczęściej żądanych języków produkcyjnych.

$0,034 za minutę audio

Rozliczane za minutę audio wejściowego zamiast za token, co czyni koszt przewidywalnym dla długich treści. 90-minutowy wykład przetłumaczony na jeden język docelowy kosztuje około $3,06 od końca do końca.

Opóźnienie na żywo

Zaprojektowane dla tłumaczenia strumieniowego: audio języka docelowego zaczyna emitować w ciągu sekund od przybycia audio źródłowego. Odpowiednie dla połączeń na żywo, napisów na żywym strumieniu i nakładania tłumaczenia na aktualnie odtwarzane wideo.

Jak zmienia przepływy wielojęzycznych napisów

Trzy konkretne zmiany w sposobie, w jaki twórcy, edukatorzy i zespoły treści produkują przetłumaczone napisy dla wideo i podcastów.

Napisy podążają za wymową mówcy, nie akapitami w języku źródłowym

Ponieważ Realtime-Translate strumieniuje bezpośrednio z mowy, granice segmentów podążają za pauzami i intonacją mówcy zamiast za przerwami zdań w tekście źródłowym. Wypalane napisy czyta się bardziej naturalnie dla mowy uchwyconej na żywo.

Koszt przerzuca się z per-token na per-minutę

Długie treści (1+ godzina) były drogie, ponieważ rozliczanie tokenowe skalowało się zarówno z długością transkrypcji jak i długością tłumaczenia. Rozliczanie minutowe sprawia, że 2-godzinny podcast kosztuje tak samo niezależnie od tego, jak gadatliwy jest mówca.

Nakładka głosowa staje się wykonalna dla treści powtórek

Ponieważ API emituje również wyjście głosowe, dubbing nagranego wykładu w jednym z 13 języków docelowych nie wymaga już osobnego kroku TTS.

Jak BibiGPT integruje nowe API

Pipeline tłumaczeniowy napisów wielojęzycznych BibiGPT już łączył transkrypcję w stylu Whisper z osobnymi modelami tłumaczenia. Nowy endpoint wstawia się dla przepływów wideo i podcastów.

Tłumaczenie napisów do długich filmów

Pipeline'y YouTube, Bilibili, podcastu i przesłanego pliku trasują przez Realtime-Translate dla wspieranych par źródło-cel. Wyjścia lądują jako SRT/VTT z segmentacją wyrównaną do mówcy produkowaną przez Realtime-Translate.

Wypalanie napisów dla pobranego wideo

Po tłumaczeniu istniejące narzędzie wypalania napisów BibiGPT może wytłoczyć przetłumaczoną ścieżkę bezpośrednio na wideo używając ffmpeg.wasm w przeglądarce. Od końca do końca: URL wideo źródłowego na wejściu, plik wideo przetłumaczony na wyjściu.

Pytania uzupełniające do przetłumaczonej treści

BibiGPT trzyma przetłumaczoną transkrypcję zindeksowaną i pozwala użytkownikom zadawać pytania uzupełniające przez obie ścieżki — źródłową i przetłumaczoną.

5 kluczowych zmian (90 sekund)

Główne zmiany wydania OpenAI Translation API z 2026-05-07.

  1. 1

    Jeden endpoint zastępuje trzy wywołania

    Wcześniej: Whisper do rozpoznawania mowy, potem GPT-4 do tłumaczenia, potem osobny TTS do wyjścia głosowego. Realtime-Translate łączy wszystkie trzy w jedno strumieniowe wywołanie rozliczane za minutę audio.

  2. 2

    70+ → 13 języków za $0,034/min

    Pokrycie źródła sięga 70+ głównych języków. Wyjście docelowe pokrywa 13 najczęściej żądanych języków produkcyjnych. Koszt przewidywalny przy $0,034 za minutę audio wejściowego — niezależnie od gadatliwości mówcy.

  3. 3

    Segmentacja napisów podąża za pauzami mówcy

    Ponieważ wyjście strumieniuje bezpośrednio z mowy, granice segmentów odpowiadają intonacji i pauzom. Wypalane napisy czyta się bardziej naturalnie dla mowy uchwyconej na żywo niż tłumaczenia sterowane tekstem.

  4. 4

    Nakładka głosowa staje się wykonalna dla powtórek

    Wyjście głosowe jest zawarte, więc dubbing nagranego wykładu w jednym z 13 języków docelowych nie wymaga już osobnego kroku zamiany tekstu na mowę. Edukatorzy mogą publikować dwujęzyczne powtórki wykładów.

  5. 5

    BibiGPT trasuje obsługiwane pary przejrzyście

    Pipeline tłumaczeniowy BibiGPT dyspozyzuje obsługiwane pary źródło-cel do Realtime-Translate. Nieobsługiwane pary wracają do istniejącego połączonego workflow. Przepływ widoczny dla użytkownika — wklej URL, wybierz język docelowy — jest niezmieniony.

3 typowe scenariusze dla użytkowników BibiGPT

Gdzie Realtime-Translate w połączeniu z BibiGPT najbardziej się opłaca.

Wykład YouTube → przetłumaczony SRT + wypalanie

Wklej 90-minutowy uniwersytecki wykład YouTube do BibiGPT. Pipeline tłumaczeniowy trasuje przez Realtime-Translate dla wybranego języka docelowego ($3,06 od końca do końca). Pobierz przetłumaczony SRT lub wypal bezpośrednio w wideo źródłowym używając narzędzia wypalania napisów ffmpeg.wasm BibiGPT w przeglądarce.

Podcast Bilibili → dwujęzyczne odtwarzanie

Techniczny podcast Bilibili po mandaryńsku, docelowa publiczność czyta po angielsku. Realtime-Translate strumieniuje angielskie napisy z granicami segmentów w tempie mówcy. BibiGPT trzyma zarówno źródłowe jak i przetłumaczone transkrypcje zindeksowane, aby słuchacze mogli zadawać pytania uzupełniające w obu językach.

Powtórka konferencji → pakiet napisów w 5 językach

Doroczna konferencja opublikowana jako wideo YouTube. Przepuść każdą sesję przez BibiGPT w 5 z 13 języków docelowych (en, zh, ja, ko, es). Rozliczanie minutowe sprawia, że pakiet jest przewidywalny — 4-godzinna konferencja w 5 językach kosztuje około $40,80. Wyjście jako SRT dla każdego języka, gotowe do ponownego przesłania.

Często zadawane pytania

Zapytaj nas o cokolwiek!

Tłumacz dowolne napisy wideo z BibiGPT — teraz trasowane przez Realtime-Translate dla obsługiwanych par

Wklej URL YouTube, Bilibili, podcastu lub przesłanego wideo do BibiGPT. Wybierz język docelowy. Pipeline tłumaczeniowy trasuje przez OpenAI Realtime-Translate dla 13 obsługiwanych celów i wraca do istniejącego workflow dla nieobsługiwanych par. Wyjście jako SRT/VTT lub wypal napisy bezpośrednio w wideo — wszystko w przeglądarce.