DeepSeek V4 Preview × BibiGPT — Pro + Flash 듀얼 SKU

DeepSeek는 2026-04-24에 V4 Preview 라인업을 공개했습니다 — V4-Pro(1.6T MoE / 49B 활성)와 V4-Flash(284B / 13B 활성) 듀얼 SKU, 1M 토큰 컨텍스트 윈도우, 새로운 Hybrid CSA+HCA 어텐션 메커니즘, Fast / Expert / Vision 세 가지 API 모드. BibiGPT 사용자는 라우팅 레이어에 통합된 후 긴 영상, 팟캐스트, 다중 문서 요약을 이 Preview 라인업에서 실행할 수 있습니다.

출시 · 2026-04-24 Pro 1.6T / Flash 284B 1M 컨텍스트 · CSA+HCA

핵심 사실 (90초 읽기)

2026-05-08 기준: DeepSeek는 2026-04-24에 V4 Preview 라인업을 공개했습니다. 동시에 출시된 두 SKU — V4-Pro(1.6T MoE / 49B 활성)와 V4-Flash(284B / 13B 활성) — 둘 다 1M 토큰 컨텍스트 윈도우, 새로운 Hybrid CSA + HCA 어텐션, Fast / Expert / Vision 세 가지 API 모드. 이전 V4 릴리스(/features/deepseek-v4-1m-context-explained에 별도로 다룸)와 비교하면 V4 Preview의 뉴스는 듀얼 SKU 분할, Hybrid CSA+HCA 어텐션 업그레이드, 명시적 3 모드 API — 1M 점프 자체가 아닙니다. BibiGPT 사용자: V4-Flash는 긴 영상/팟캐스트 요약의 저렴한 기본값, V4-Pro는 동일 트랜스크립트 위 더 어려운 추론용 예약, Vision 모드는 BibiGPT 프레임 추출 워크플로와 자연스럽게 결합. 권위 출처: api-docs.deepseek.com news260424와 Hugging Face의 deepseek-ai 컬렉션.

Features

DeepSeek V4 Preview에 무엇이 출시되었는가?

2026-04-24에 동시 출시된 두 SKU — V4-Pro와 V4-Flash. 둘 다 1M 토큰 컨텍스트 윈도우, 새로운 Hybrid CSA+HCA 어텐션 메커니즘, 세 가지 API 모드를 통해 접근 가능합니다.

Pro와 Flash 듀얼 SKU

V4-Pro는 1.6T MoE 체크포인트로 토큰당 49B 파라미터가 활성화됩니다. V4-Flash는 284B MoE 체크포인트로 토큰당 13B만 활성화 — 동일한 컨텍스트 윈도우, 동일한 어텐션이지만 추론 풋프린트는 훨씬 가볍고 토큰당 비용은 일부에 불과합니다.

Hybrid CSA + HCA 어텐션

V4 Preview는 기존 MoE 전용 어텐션을 Hybrid CSA + HCA(cross-shared attention과 hierarchical-causal attention)로 대체했습니다. 하이브리드 설계는 긴 문서 전반에 걸쳐 의미적 일관성을 유지하도록 설계 — 컨텍스트 윈도우 끝으로 갈수록 저하되지 않게.

세 가지 API 모드 — Fast / Expert / Vision

각 Preview SKU는 세 가지 모드를 노출합니다. Fast는 처리량 우선, Expert는 추론 품질 우선, Vision은 동일한 백본에 멀티모달 입력 추가 — 하나의 API 표면, 세 개의 다이얼로 비용·품질·모달리티 트레이드오프 조정.

V4 Preview가 BibiGPT 사용자에게 의미하는 바

BibiGPT는 긴 영상과 팟캐스트를 구조화된 노트로 변환합니다. V4-Flash는 1M 컨텍스트 요약의 토큰당 비용을 크게 낮추고, V4-Pro는 가장 어려운 추론에, Vision 모드는 화면 분석 워크플로와 자연스럽게 결합 — 동일한 컨텍스트 예산으로 세 단계 조정 가능.

1M 컨텍스트 — 8시간 팟캐스트를 한 번에

100만 토큰은 8시간 컨퍼런스 녹음, 여러 회 강좌 시리즈 전체, 관련 논문 더미를 하나의 프롬프트에 담을 수 있습니다. BibiGPT의 청크-스티치 파이프라인은 단일 추론으로 축소되어 1시간부터 8시간까지의 참조 손실이 사라집니다.

V4-Flash로 저렴한 장기 컨텍스트 요약

V4-Flash는 토큰당 13B 파라미터만 활성화. BibiGPT 스타일 요약 워크로드 — 긴 트랜스크립트 입력, 구조화된 아웃라인 출력 — 에서는 Flash가 1M 컨텍스트 티어의 비용·품질 최적점. Pro는 동일 트랜스크립트 위에서 더 어려운 추론에 예약.

Vision 모드 + BibiGPT 화면 분석

V4-Vision은 스크린샷과 영상 프레임을 입력으로 받습니다. BibiGPT 기존의 화면 분석 워크플로 — 영상에서 핵심 프레임을 추출한 뒤 모델에게 '화면에 무엇이 있나'를 묻기 — 는 라우팅 레이어 통합 후 V4-Vision에 직접 연결되어 프레임 단위 Q&A가 한 번의 추론으로 완결됩니다.

5가지 핵심 변화 (90초 읽기)

DeepSeek V4 Preview 2026-04-24 릴리스의 주요 변화.

  1. 1

    Pro와 Flash 듀얼 SKU

    V4-Pro 1.6T MoE / 49B 활성. V4-Flash 284B / 13B 활성 — 컨텍스트 윈도우와 어텐션은 동일, 추론 부하는 크게 경감. Flash는 저렴한 장기 컨텍스트 요약용, Pro는 동일 트랜스크립트 위 더 어려운 추론용.

  2. 2

    Hybrid CSA + HCA 어텐션

    Cross-shared attention과 hierarchical-causal attention이 V4의 MoE 전용 어텐션을 대체. 하이브리드 메커니즘은 1M 토큰 전체 컨텍스트에서 의미적 일관성 보존을 위한 설계 — 이는 긴 영상 요약이 빠지기 쉬운 실패 모드.

  3. 3

    세 가지 API 모드 — Fast / Expert / Vision

    각 Preview SKU는 동일한 API에서 Fast(처리량), Expert(추론 품질), Vision(멀티모달 입력)을 노출. 하나의 컨텍스트 예산, 세 개의 다이얼로 비용·품질·모달리티 조정.

  4. 4

    1M 컨텍스트, 8시간 팟캐스트 친화

    Pro와 Flash 모두 V4 패밀리의 1M 토큰 컨텍스트 윈도우 유지. 8시간 컨퍼런스 녹음이나 멀티 에피소드 코스가 한 프롬프트에 들어가 BibiGPT의 청크-스티치 파이프라인을 단일 추론으로 축소 가능.

  5. 5

    Hugging Face 동시 오픈웨이트

    V4 Preview 체크포인트는 같은 주에 Hugging Face의 deepseek-ai 컬렉션에 도착. 프라이버시 민감 워크로드 — 유료 강좌 콘텐츠, 사내 회의 녹음 — 에서 자체 호스팅 가능, 오디오나 트랜스크립트를 제3자 API에 보낼 필요 없음.

BibiGPT 사용자의 3가지 일반 시나리오

실제 BibiGPT 사용자 페르소나에 기반 — 오늘 바로 실행 가능: BibiGPT로 트랜스크립트 추출 후 네이티브 라우팅 통합 전까지 V4 Preview를 직접 호출.

크리에이터 — 8시간 팟캐스트 단일 프롬프트 아웃라인

BibiGPT로 8시간 팟캐스트나 종일 컨퍼런스 녹음의 트랜스크립트를 추출한 뒤 아웃라인 및 요약 단계를 V4-Flash의 Expert 모드로 라우팅. 트랜스크립트 전체가 1M 컨텍스트에 들어가 챕터 참조가 종단간 일관성을 유지.

학생 — 멀티 에피소드 코스 횡단 Q&A

BibiGPT 추출 멀티 에피소드 강의 트랜스크립트를 연결. 1M 여유 공간에서 '어느 에피소드가 X를 다뤘는가?'를 V4-Flash 단일 추론으로 직접 해결 — 에피소드 경계 사이 인용을 놓치는 외부 검색 인덱스 불필요.

파워 유저 — V4-Vision으로 프레임 단위 화면 분석

BibiGPT로 슬라이드 발표나 차트 많은 영상에서 핵심 프레임을 추출한 뒤 프레임과 트랜스크립트를 V4-Vision에 함께 전송. 프레임 단위 Q&A — '14페이지 슬라이드의 Y축은?' — 가 한 번의 추론으로 완결, 별도 캡셔너 불필요.

자주 묻는 질문

무엇이든 물어보세요!

1M 컨텍스트 팟캐스트에서 V4-Flash 실행 — BibiGPT 트랜스크립트 추출로 시작

BibiGPT는 5개 언어로 YouTube, Bilibili, 팟캐스트 URL에서 긴 트랜스크립트를 추출합니다. V4-Flash는 이 티어에서 가장 저렴한 1M 컨텍스트 요약 지점, V4-Pro는 가장 어려운 추론용, V4-Vision은 프레임 단위 분석용. V4 Preview가 BibiGPT 라우팅에 통합되면 전체 워크플로가 하나의 URL 뒤에서 종단간 실행됩니다.