GPT-Realtime-Translate가 정확히 무엇인가?

OpenAI가 2026-05-07 Realtime-2 트리오의 일부로 출시한 스트리밍 라이브 번역 API 엔드포인트. 70+ 소스 언어를 받고 13 타깃 언어 출력, 음성→텍스트 + 번역 + 음성 출력을 한 호출에 통합. 오디오 분당 $0.034 과금.

Whisper + GPT-4 + TTS 연결과 어떻게 다른가?

세 가지 차이. 첫째, Realtime-Translate는 스트리밍—타깃 언어 출력이 소스 오디오 도착 후 몇 초 이내 시작. 둘째, 세그먼트 경계가 화자 발화에 따름. 셋째, 과금이 3개 토큰당 미터에서 1개 분당 미터로 합쳐져 장편 비용이 예측 가능.

왜 다국어 자막 워크플로에 중요한가?

장편 동영상 번역이 저렴해짐—오디오 분당 과금, 토큰 아님. 90분 강의 1 타깃 언어 약 $3.06. 자막이 자연스럽게 읽힘—경계가 화자 휴지에 맞음. 13 타깃 언어 중 하나로의 음성 오버레이 더빙에 별도 TTS 단계 불필요.

Realtime-Translate vs Realtime-2 vs Realtime-Whisper 언제 사용?

지원 쌍(70+ 소스, 13 타깃)의 라이브/녹화 통역에 Realtime-Translate—오디오 분당 과금. 원어 순수 자막만 필요할 때 Realtime-Whisper—$0.017/분. 범용 음성 Agent—다중턴 추론, 도구 호출, 커스텀 음성—에 Realtime-2, 토큰당 과금.

BibiGPT는 어떻게 통합하나?

BibiGPT 다국어 자막 번역 파이프라인은 YouTube/Bilibili/팟캐스트/업로드 동영상 소스를 원래 커버. 본 출시 후 라우팅 레이어가 지원 소스-타깃 쌍에 대해 Realtime-Translate로 디스패치, 비지원 쌍은 기존 연결 파이프라인으로 폴백. 사용자가 보는 플로—URL 붙여넣기, 타깃 언어 선택, 번역 자막 받기(선택 번인)—는 변하지 않음.

OpenAI GPT-Realtime-Translate × BibiGPT

OpenAI가 2026-05-07 GPT-Realtime-Translate를 GPT-Realtime-2 / GPT-Realtime-Whisper와 함께 출시했습니다. 70+ 소스 언어를 13 타깃 언어로 스트리밍 통역, 오디오 분당 $0.034. 음성→텍스트 + 번역 + 음성 출력을 하나의 엔드포인트로 통합. 본 페이지는 API가 다국어 자막 워크플로를 어떻게 바꾸는지, BibiGPT 번역 파이프라인이 어떻게 통합하는지 설명합니다.

BibiGPT로 자막 번역

출시 · 2026-05-07 70+ → 13 언어 오디오 분당 $0.034

핵심 사실(90초)

OpenAI가 2026-05-07 GPT-Realtime-Translate를 Realtime-2 음성 API 트리오 일부로 출시. 70+ 소스 언어를 13 타깃 언어로 스트리밍 통역, 오디오 분당 $0.034, 음성→텍스트 + 번역 + 음성 출력을 한 엔드포인트로 통합. 다국어 자막 워크플로에 중요: 과금이 토큰에서 분당으로 전환, 세그먼트 경계가 화자 발화에 따르고, 음성 오버레이 더빙에 별도 TTS 단계 불필요. BibiGPT 번역 파이프라인이 지원 쌍을 새 엔드포인트로 라우팅하고 비지원 쌍은 기존 폴백 유지.

Realtime-Translate가 실제로 하는 일

출시 전에는 다국어 자막 파이프라인이 음성→텍스트 → 별도 번역 모델 → 선택적 TTS 3단계 호출을 연결. Realtime-Translate가 3단계를 오디오 분당 과금의 단일 스트리밍 엔드포인트로 합침.

70+ 소스 → 13 타깃 언어

소스 커버리지는 영어, 중국어, 스페인어, 포르투갈어, 프랑스어, 독일어, 이탈리아어, 일본어, 한국어, 힌디, 러시아, 아랍어 등 60+. 타깃 출력은 가장 요청 많은 13개 생산 언어.

오디오 분당 $0.034

토큰 과금이 아닌 음성 입력 분당 과금. 90분 강의 1 타깃 언어 번역 약 $3.06.

실시간 지연

소스 오디오 도착 후 몇 초 이내 타깃 음성 출력 시작. 라이브 통화, 라이브 자막, 재생 중 동영상 오버레이에 적합.

다국어 자막 워크플로 변화

크리에이터, 교육자, 콘텐츠 팀이 동영상/팟캐스트 번역 자막을 만드는 방식의 3가지 구체적 변화.

자막이 화자 발화에 맞춤, 소스 단락 아님

음성에서 직접 스트리밍하므로 세그먼트 경계가 화자 휴지와 억양에 따름. 라이브 캡처 음성(강의, 팟캐스트, 인터뷰)에서 자막이 자연스럽게 읽힘.

비용이 토큰당에서 분당으로 전환

1시간 이상 콘텐츠는 토큰 과금으로 자막 길이와 번역 길이 둘 다 늘어남. 분당 과금으로 2시간 팟캐스트 비용이 화자 수다와 무관.

재생 콘텐츠 음성 오버레이 실현 가능

음성 출력 포함이라 녹화 강의를 13 타깃 언어 중 하나로 더빙할 때 별도 TTS 단계 불필요.

BibiGPT의 새 API 통합 방식

BibiGPT 다국어 자막 번역 파이프라인은 원래 Whisper 스타일 자막 + 별도 번역 모델을 연결. 새 엔드포인트가 동영상과 팟캐스트 워크플로에서 인수.

장편 동영상 자막 번역

YouTube, Bilibili, 팟캐스트, 업로드 파일 파이프라인이 지원 소스-타깃 쌍에 대해 Realtime-Translate로 라우팅. 출력은 화자 정렬 세그먼트가 있는 SRT/VTT.

다운로드 동영상 자막 번인

번역 후 BibiGPT 기존 자막 번인 도구가 브라우저 내 ffmpeg.wasm으로 번역 트랙을 동영상에 직접 새김. 종단간: 소스 동영상 URL 입력, 번역된 동영상 파일 출력.

번역 콘텐츠 후속 질문

BibiGPT가 번역 자막을 색인화 유지, 사용자가 소스 트랙과 번역 트랙 모두에서 후속 질문 가능.

5가지 주요 변화(90초)

OpenAI 번역 API 2026-05-07 출시 주요 시프트.

1

한 엔드포인트가 세 호출 대체

이전에는: 음성→텍스트에 Whisper, 번역에 GPT-4, 음성 출력에 별도 TTS. Realtime-Translate가 셋을 오디오 분당 과금의 단일 스트리밍 호출로 합침.
2

70+ → 13 언어, 분당 $0.034

소스 커버리지 70+ 주요 언어. 타깃 출력은 가장 요청 많은 13개 생산 언어. 비용 예측 가능—입력 오디오 분당 $0.034, 화자 수다와 무관.
3

자막 세그먼트가 화자 휴지에 따름

출력이 음성에서 직접 스트리밍, 세그먼트 경계가 억양과 휴지에 맞음. 라이브 캡처 음성에서 텍스트 기반 번역보다 자연스럽게 읽힘.
4

재생 음성 오버레이 실현 가능

음성 출력 포함이라 녹화 강의 더빙에 별도 음성 합성 단계 불필요. 교육자가 이중언어 강의 재생 발행 가능.
5

BibiGPT가 지원 쌍을 투명하게 라우팅

BibiGPT 번역 파이프라인이 지원 소스-타깃 쌍을 Realtime-Translate로 디스패치. 비지원 쌍은 기존 연결 워크플로로 폴백. 사용자가 보는 플로 불변.

BibiGPT 사용자의 3가지 전형 시나리오

Realtime-Translate + BibiGPT가 가장 효과적인 시나리오.

YouTube 강의 → 번역 SRT + 번인

90분 YouTube 대학 강의를 BibiGPT에 붙여넣기. 번역 파이프라인이 선택 타깃 언어에 Realtime-Translate 라우팅(종단간 $3.06). 번역 SRT 다운로드 또는 브라우저 내 ffmpeg.wasm 자막 번인 도구로 소스 동영상에 직접 번인.

Bilibili 팟캐스트 → 이중언어 재생

중국어 Bilibili 기술 팟캐스트, 타깃 청중은 영어 독자. Realtime-Translate가 화자 페이스 세그먼트 경계로 영어 자막 스트리밍. BibiGPT가 소스와 번역 자막 모두 색인화, 청취자가 양 언어로 후속 질문 가능.

컨퍼런스 재생 → 5개 언어 자막 번들

연례 컨퍼런스를 YouTube 동영상으로 발행. 각 세션을 BibiGPT로 13 타깃 언어 중 5개(영, 중, 일, 한, 스)로 번역. 분당 과금이 번들 예측 가능—4시간 컨퍼런스 × 5 언어 약 $40.80. 각 언어 SRT 출력.

크리에이터, 학생, 연구자들이 애용합니다

매일 영상을 텍스트로 바꾸는 데 BibiGPT가 선택받는 이유.

전 세계 50,000명 이상이 신뢰하는 서비스

★★★★★

“링크만 붙여넣으면 몇 초 만에 깔끔한 자막 텍스트가 나와서 매주 몇 시간씩 걸리던 받아쓰기가 사라졌어요.”

Maya R.

콘텐츠 크리에이터 · 숏폼 영상 재활용

★★★★★

“스크립트를 내보낼 수 있어서 영상을 계속 멈추지 않고 제 속도로 새 단어를 복습할 수 있습니다.”

Daniel K.

어학 학습자 · 실제 영상으로 공부

★★★★★

“타임스탬프가 달린 정확한 텍스트를 바로 인용할 수 있어요. 어느새 매일 쓰는 워크플로의 일부가 됐습니다.”

Priya S.

연구원 · 공개 강연 인용

FAQ

자주 묻는 질문

무엇이든 물어보세요!

BibiGPT로 모든 동영상 자막 번역—지원 쌍은 Realtime-Translate로 라우팅

YouTube/Bilibili/팟캐스트/업로드 동영상 URL을 BibiGPT에 붙여넣고 타깃 언어 선택. 번역 파이프라인이 13개 지원 타깃에서 OpenAI Realtime-Translate 호출, 비지원 쌍은 기존 워크플로로 폴백. SRT/VTT로 출력 또는 자막을 동영상에 직접 번인—전 과정 브라우저 내.

BibiGPT 무료 체험

OpenAI GPT-Realtime-Translate × BibiGPT