DeepSeek V4 Preview × BibiGPT — Pro + Flash Dual-SKU

DeepSeek hat die V4 Preview-Reihe am 24.04.2026 veröffentlicht — V4-Pro (1.6T MoE / 49B aktiv) und V4-Flash (284B / 13B aktiv) als Dual-SKU, beide mit 1M-Token-Kontextfenster, dem neuen Hybrid CSA+HCA-Aufmerksamkeitsschema und drei API-Modi (Fast / Expert / Vision). BibiGPT-Nutzer können nach Routing-Integration ihre Lang-Video-, Podcast- und Multi-Dokument-Zusammenfassungen auf dieser Preview-Reihe ausführen.

Veröffentlicht · 24.04.2026 Pro 1.6T / Flash 284B 1M Kontext · CSA+HCA

Kernfakten (90-Sekunden-Lesedauer)

Stand 08.05.2026: DeepSeek hat die V4-Preview-Reihe am 24.04.2026 veröffentlicht. Zwei SKUs werden gemeinsam ausgeliefert — V4-Pro (1.6T MoE / 49B aktiv) und V4-Flash (284B / 13B aktiv) — beide mit 1M-Token-Kontextfenster, beide auf dem neuen Hybrid CSA + HCA-Aufmerksamkeitsschema, beide über Fast / Expert / Vision-API-Modi erreichbar. Im Vergleich zur früheren V4-Veröffentlichung (separat unter /features/deepseek-v4-1m-context-explained behandelt) liegt die Neuigkeit von V4 Preview in der Dual-SKU-Aufteilung, dem Hybrid-CSA+HCA-Aufmerksamkeits-Upgrade und der expliziten Drei-Modus-API-Oberfläche — nicht im 1M-Sprung selbst. Für BibiGPT-Nutzer: V4-Flash ist die günstige Standardoption für Stunden-lange-Video- und Podcast-Zusammenfassungen, V4-Pro bleibt für härtere Reasoning-Schritte auf demselben Transkript reserviert, und der Vision-Modus passt sauber zu BibiGPTs Frame-Extraktions-Workflow. Maßgebliche Quellen: api-docs.deepseek.com news260424 und die deepseek-ai-Sammlung auf Hugging Face.

Features

Was bringt DeepSeek V4 Preview?

Zwei SKUs zusammen am 24.04.2026 veröffentlicht — V4-Pro und V4-Flash — beide mit 1M Token-Kontextfenster, beide auf dem neuen Hybrid CSA+HCA-Aufmerksamkeitsschema, beide über drei API-Modi erreichbar.

Pro vs. Flash Dual-SKU

V4-Pro ist ein 1.6T-MoE-Checkpoint mit 49B Parametern, die pro Token feuern. V4-Flash ist ein 284B-MoE-Checkpoint mit nur 13B aktiv pro Token — gleiches Kontextfenster, gleiches Aufmerksamkeitsschema, aber deutlich leichterer Inferenz-Footprint zu einem Bruchteil der Token-Kosten.

Hybrid CSA + HCA-Aufmerksamkeit

V4 Preview ersetzt die bisherige MoE-only-Aufmerksamkeit durch Hybrid CSA + HCA — Cross-Shared Attention plus Hierarchical-Causal Attention. Das hybride Schema ist darauf ausgelegt, semantische Kohärenz über lange Dokumente hinweg zu erhalten, statt zum Ende des Kontextfensters zu degradieren.

Drei API-Modi — Fast / Expert / Vision

Jede Preview-SKU ist über drei Modi erreichbar. Fast priorisiert Durchsatz; Expert priorisiert Reasoning-Qualität; Vision fügt multimodale Eingabe auf demselben Backbone hinzu — eine API-Oberfläche, drei Regler für Kosten-Qualität-Modalität.

Was V4 Preview für BibiGPT-Nutzer bedeutet

BibiGPT verwandelt stundenlange Videos und Podcasts in strukturierte Notizen. V4-Flash senkt die Token-Kosten einer 1M-Kontext-Zusammenfassung drastisch, V4-Pro reicht nach der höchsten Reasoning-Decke, und Vision öffnet die Tür für Frame-Analyse — alles auf demselben Kontextbudget.

1M Kontext — 8h-Podcast End-to-End

1.000.000 Tokens fassen eine 8-stündige Konferenzaufnahme, einen kompletten Mehrteiler-Kurs oder einen Stapel zugehöriger Forschungsarbeiten in einem Prompt. BibiGPTs Chunk-and-Stitch-Pipeline kollabiert auf eine Inferenz und reduziert Cross-Chunk-Referenzverluste zwischen Stunde eins und acht.

V4-Flash schaltet günstige Lang-Kontext-Zusammenfassungen frei

Auf V4-Flash feuern nur 13B Parameter pro Token. Für BibiGPT-typische Zusammenfassungs-Workloads — lange Transkripte rein, strukturiertes Outline raus — ist Flash der dominierende Kosten-Qualität-Punkt im 1M-Kontextsegment. Pro bleibt für härtere Reasoning-Schritte auf demselben Transkript reserviert.

Vision-Modus + BibiGPT Bildanalyse

V4-Vision nimmt Screenshots und Frames als Eingabe. BibiGPTs bestehender Bildanalyse-Workflow — Schlüsselbilder aus einem Video extrahieren und das Modell fragen, was auf dem Bildschirm ist — kann nach Routing-Integration direkt mit V4-Vision koppeln. Frame-level-Q&A wird zu einer Inferenz, kein separater Captioner-Pass.

5 wichtige Änderungen (90-Sekunden-Lesedauer)

Schlagzeilen-Verschiebungen aus der DeepSeek-V4-Preview-Veröffentlichung am 24.04.2026.

  1. 1

    Pro vs. Flash Dual-SKU

    V4-Pro ist 1.6T MoE / 49B aktiv pro Token. V4-Flash ist 284B / 13B aktiv — gleiches Kontextfenster, gleiche Aufmerksamkeit, viel leichtere Inferenz. Wählen Sie Flash für günstige Lang-Kontext-Zusammenfassung, Pro für härtere Reasoning-Schritte auf demselben Transkript.

  2. 2

    Hybrid CSA + HCA-Aufmerksamkeit

    Cross-Shared Attention plus Hierarchical-Causal Attention ersetzt V4s MoE-only-Aufmerksamkeit. Das hybride Schema ist darauf ausgelegt, semantische Kohärenz über den vollen 1M-Token-Kontext hinweg zu erhalten — der Fehlermodus, in den Stunden-lange-Video-Zusammenfassungen geraten.

  3. 3

    Drei API-Modi — Fast / Expert / Vision

    Jede Preview-SKU exponiert Fast (Durchsatz), Expert (Reasoning-Qualität) und Vision (multimodale Eingabe) auf derselben API-Oberfläche. Ein Kontextbudget, drei Regler zur Anpassung von Kosten-Qualität-Modalität.

  4. 4

    1M Kontext, 8h-Podcast-tauglich

    Sowohl Pro als auch Flash behalten das 1M-Token-Kontextfenster der V4-Familie. Eine 8-stündige Konferenzaufnahme oder eine Mehrteiler-Kursreihe passt in einen Prompt — BibiGPTs Chunk-and-Stitch-Pipeline kann auf eine einzige Inferenz kollabieren.

  5. 5

    Open Weights auf Hugging Face

    V4-Preview-Checkpoints landen in derselben Woche in der deepseek-ai-Sammlung auf Hugging Face. Selbst hostbar für datenschutzsensible Workloads — kostenpflichtige Kursinhalte, interne Meeting-Aufnahmen — ohne Audio oder Transkripte an eine Drittanbieter-API zu senden.

3 typische Szenarien für BibiGPT-Nutzer

Basierend auf realen BibiGPT-Nutzerpersonas — heute alle umsetzbar, indem Sie ein Transkript mit BibiGPT extrahieren und V4 Preview direkt aufrufen, bis natives Routing kommt.

Creator — 8-Stunden-Podcast, Single-Prompt-Outline

Verwenden Sie BibiGPT, um ein 8-stündiges Podcast- oder Tageskonferenz-Transkript zu extrahieren, und routen Sie dann den Outline-und-Zusammenfassungs-Schritt durch V4-Flash im Expert-Modus. Das gesamte Transkript passt in 1M Kontext, sodass Kapitelreferenzen End-to-End kohärent bleiben, ohne Chunk-Stitch-Artefakte.

Student — Mehrteiler-Kurs, kursübergreifendes Q&A

Verketten Sie BibiGPT-extrahierte Transkripte aus einer Mehrteiler-Vorlesungsreihe. Mit 1M Spielraum fragen Sie 'welche Episode behandelte Thema X?' und lösen es direkt auf V4-Flash auf, ohne externen Retrieval-Index, der Zitate zwischen Episodengrenzen verliert.

Power-User — Frame-level Bildanalyse mit V4-Vision

Extrahieren Sie Schlüsselbilder aus einem Slide-Deck-Vortrag oder chartlastigen Video mit BibiGPT, und senden Sie dann die Frames mit dem Transkript an V4-Vision. Frame-level-Q&A — 'was ist die y-Achse auf Slide 14?' — kollabiert auf eine Inferenz, kein separater Captioner-Pass.

Häufig gestellte Fragen

Fragen Sie uns!

V4-Flash auf einem 1M-Kontext-Podcast laufen lassen — beginnen Sie mit BibiGPT-Transkriptextraktion

BibiGPT extrahiert lange Transkripte aus YouTube-, Bilibili- und Podcast-URLs in 5 Sprachen. Kombinieren Sie das Transkript mit V4-Flash für den günstigsten 1M-Kontext-Zusammenfassungspunkt in diesem Segment, V4-Pro für härteste Reasoning, V4-Vision für Frame-Analyse. Sobald V4 Preview in BibiGPT geroutet ist, läuft der gleiche Workflow End-to-End hinter einer einzigen URL.