DeepSeek V4 Preview × BibiGPT — podwójne SKU Pro + Flash
DeepSeek opublikował linię V4 Preview 24.04.2026 — V4-Pro (1.6T MoE / 49B aktywnych) i V4-Flash (284B / 13B aktywnych) jako podwójne SKU, okno kontekstu 1M tokenów, nowy schemat uwagi Hybrid CSA+HCA i trzy tryby API (Fast / Expert / Vision). Po zintegrowaniu z warstwą routingu użytkownicy BibiGPT mogą uruchamiać podsumowania długich filmów, podcastów i wielu dokumentów na tej linii Preview.
Kluczowe fakty (90 sekund czytania)
Na 08.05.2026: DeepSeek opublikował linię V4 Preview 24.04.2026. Dwa SKU dostarczone razem — V4-Pro (1.6T MoE / 49B aktywnych) i V4-Flash (284B / 13B aktywnych) — oba z oknem kontekstu 1M tokenów, oba na nowym schemacie uwagi Hybrid CSA + HCA, oba dostępne przez tryby API Fast / Expert / Vision. W porównaniu z wcześniejszym wydaniem V4 (omówione oddzielnie w /features/deepseek-v4-1m-context-explained), nowością V4 Preview jest podział na podwójne SKU, ulepszenie uwagi Hybrid CSA+HCA i jawna powierzchnia API z trzema trybami — a nie sam skok 1M. Dla użytkowników BibiGPT: V4-Flash jest tanim domyślnym wyborem dla podsumowań długich filmów/podcastów, V4-Pro jest zarezerwowany dla trudniejszych przebiegów rozumowania na tej samej transkrypcji, a tryb Vision czysto sprzęga się z workflow ekstrakcji klatek BibiGPT. Autorytatywne źródła: api-docs.deepseek.com news260424 i kolekcja deepseek-ai na Hugging Face.
Features
Co dostarcza DeepSeek V4 Preview?
Dwa SKU wydane razem 24.04.2026 — V4-Pro i V4-Flash — oba z oknem kontekstu 1M tokenów, oba na nowym schemacie uwagi Hybrid CSA+HCA, oba dostępne przez trzy odrębne tryby API.
Podwójne SKU Pro vs Flash
V4-Pro to checkpoint MoE 1.6T z 49B parametrów aktywnych na token. V4-Flash to checkpoint MoE 284B z tylko 13B aktywnymi na token — to samo okno kontekstu, ten sam schemat uwagi, ale znacznie lżejszy ślad inferencji za ułamek kosztu na token.
Uwaga Hybrid CSA + HCA
V4 Preview zastępuje wcześniejszą uwagę tylko-MoE przez Hybrid CSA + HCA — cross-shared attention plus hierarchical-causal attention. Hybrydowy schemat ma zachować spójność semantyczną w długich dokumentach, zamiast degradować się ku końcowi okna kontekstu.
Trzy tryby API — Fast / Expert / Vision
Każde SKU Preview jest dostępne przez trzy tryby. Fast priorytetyzuje przepustowość; Expert priorytetyzuje jakość rozumowania; Vision dodaje wejście multimodalne na tym samym backbonie — jedna powierzchnia API, trzy pokrętła do regulacji kompromisu koszt-jakość-modalność.
Co V4 Preview oznacza dla użytkowników BibiGPT
BibiGPT zamienia długie filmy i podcasty w ustrukturyzowane notatki. V4-Flash znacząco obniża koszt na token podsumowania w kontekście 1M, V4-Pro sięga najwyższego pułapu rozumowania, a Vision otwiera drogę do analizy na poziomie kadru — wszystko na tym samym budżecie kontekstu.
Kontekst 1M — 8h podcast end-to-end
1 000 000 tokenów mieści 8-godzinne nagranie konferencyjne, cały kurs wieloodcinkowy lub stos powiązanych artykułów w jednym promptcie. Pipeline chunk-and-stitch BibiGPT może zwinąć się do pojedynczej inferencji, redukując utratę odniesień między godziną pierwszą a ósmą.
V4-Flash odblokowuje tani długokontekstowy podsumowanie
Na V4-Flash aktywuje się tylko 13B parametrów na token. Dla obciążeń podsumowania w stylu BibiGPT — długi transkrypt na wejściu, ustrukturyzowany szkic na wyjściu — Flash jest dominującym punktem koszt-jakość w segmencie kontekstu 1M. Pro jest zarezerwowany dla trudniejszych przebiegów rozumowania na tej samej transkrypcji.
Tryb Vision + analiza wizualna BibiGPT
V4-Vision przyjmuje zrzuty ekranu i klatki jako wejście. Istniejący workflow analizy wizualnej BibiGPT — wyodrębnić kluczowe klatki z filmu, a następnie zapytać model, co jest na ekranie — może bezpośrednio sprzęgać się z V4-Vision po wystawieniu w warstwie routingu. Q&A na poziomie kadru staje się jedną inferencją, bez osobnego przejścia captioner.
5 kluczowych zmian (90 sekund czytania)
Główne przesunięcia z wydania DeepSeek V4 Preview 24.04.2026.
- 1
Podwójne SKU Pro vs Flash
V4-Pro 1.6T MoE / 49B aktywnych na token. V4-Flash 284B / 13B aktywnych — to samo okno kontekstu, ta sama uwaga, znacznie lżejsza inferencja. Wybierz Flash dla taniego podsumowania długokontekstowego, Pro dla trudniejszych przebiegów rozumowania na tej samej transkrypcji.
- 2
Uwaga Hybrid CSA + HCA
Cross-shared attention plus hierarchical-causal attention zastępuje uwagę tylko-MoE z V4. Hybrydowy schemat jest zaprojektowany do zachowania spójności semantycznej w pełnym kontekście 1M tokenów — tryb awarii, w który wpadają godzinne podsumowania filmów.
- 3
Trzy tryby API — Fast / Expert / Vision
Każde SKU Preview wystawia Fast (przepustowość), Expert (jakość rozumowania) i Vision (wejście multimodalne) na tej samej powierzchni API. Jeden budżet kontekstu, trzy pokrętła do regulacji kompromisu koszt-jakość-modalność.
- 4
Kontekst 1M, podcast 8h przyjazny
Zarówno Pro, jak i Flash zachowują okno kontekstu 1M tokenów rodziny V4. 8-godzinne nagranie konferencyjne lub seria kursów wieloodcinkowych mieści się w jednym promptcie — pipeline chunk-and-stitch BibiGPT może zwinąć się do pojedynczej inferencji.
- 5
Otwarte wagi na Hugging Face
Checkpointy V4 Preview lądują w kolekcji deepseek-ai na Hugging Face w tym samym tygodniu. Self-hostowalne dla obciążeń wrażliwych na prywatność — płatne treści kursowe, wewnętrzne nagrania spotkań — bez wysyłania audio lub transkrypcji do zewnętrznego API.
3 typowe scenariusze dla użytkowników BibiGPT
Oparte na rzeczywistych personach użytkowników BibiGPT — wszystkie wykonalne dziś przez wyodrębnianie transkrypcji za pomocą BibiGPT i wywoływanie V4 Preview bezpośrednio do czasu wprowadzenia natywnego routingu.
Twórca — 8-godzinny podcast, szkic w pojedynczym promptcie
Użyj BibiGPT do wyodrębnienia transkrypcji 8-godzinnego podcastu lub całodniowego nagrania konferencyjnego, a następnie skieruj krok szkicu-i-podsumowania przez V4-Flash w trybie Expert. Pełna transkrypcja mieści się w 1M kontekstu, więc odniesienia rozdziałów pozostają spójne end-to-end bez artefaktów chunk-stitch.
Student — Q&A między odcinkami w kursie wieloodcinkowym
Połącz transkrypcje wyodrębnione przez BibiGPT z serii wykładów wieloodcinkowej. Z 1M zapasu zapytaj 'który odcinek omawiał temat X?' i rozwiąż bezpośrednio na V4-Flash bez zewnętrznego indeksu wyszukiwania, który gubi cytaty między granicami odcinków.
Power user — analiza wizualna na poziomie kadru z V4-Vision
Wyodrębnij kluczowe klatki z prezentacji slajdowej lub filmu bogatego w wykresy za pomocą BibiGPT, a następnie wyślij klatki do V4-Vision wraz z transkrypcją. Q&A na poziomie kadru — 'jaka jest oś Y na slajdzie 14?' — zwijają się do jednej inferencji, bez osobnego przebiegu captioner.
FAQ
Często zadawane pytania
Zapytaj nas o cokolwiek!
Uruchom V4-Flash na podcastu z kontekstem 1M — zacznij od ekstrakcji transkrypcji BibiGPT
BibiGPT wyodrębnia długie transkrypcje z URL-i YouTube, Bilibili i podcastów w 5 językach. Sparuj transkrypcję z V4-Flash dla najtańszego punktu podsumowania kontekstu 1M w tym segmencie, V4-Pro dla najtrudniejszego rozumowania, V4-Vision dla analizy na poziomie kadru. Po zintegrowaniu V4 Preview w routing BibiGPT, ten sam workflow działa end-to-end za pojedynczym URL-em.