DeepSeek V4 Preview × BibiGPT — double SKU Pro + Flash

DeepSeek a publié la gamme V4 Preview le 24/04/2026 — V4-Pro (1.6T MoE / 49B actifs) et V4-Flash (284B / 13B actifs) en double SKU, fenêtre de contexte de 1M tokens, nouveau schéma d'attention Hybrid CSA+HCA et trois modes API (Fast / Expert / Vision). Une fois intégré à la couche de routage, les utilisateurs BibiGPT peuvent faire tourner les résumés de longues vidéos, podcasts et multi-documents sur cette gamme Preview.

Publié · 24/04/2026 Pro 1.6T / Flash 284B Contexte 1M · CSA+HCA

Faits clés (lecture de 90 secondes)

Au 08/05/2026 : DeepSeek a publié la gamme V4 Preview le 24/04/2026. Deux SKUs livrées ensemble — V4-Pro (1.6T MoE / 49B actifs) et V4-Flash (284B / 13B actifs) — toutes deux avec une fenêtre de contexte de 1M tokens, le nouveau schéma d'attention Hybrid CSA + HCA, accessibles via les modes API Fast / Expert / Vision. Comparée à la sortie V4 antérieure (couverte séparément à /features/deepseek-v4-1m-context-explained), la nouveauté de V4 Preview est la séparation en double SKU, la mise à niveau d'attention Hybrid CSA+HCA et la surface API explicite à trois modes — pas le saut 1M lui-même. Pour les utilisateurs BibiGPT : V4-Flash est le défaut bon marché pour les résumés de longues vidéos / podcasts, V4-Pro est réservé aux passes de raisonnement plus dures sur le même transcript, et le mode Vision se couple proprement au workflow d'extraction de frames de BibiGPT. Sources autoritatives : api-docs.deepseek.com news260424 et la collection deepseek-ai sur Hugging Face.

Features

Que livre DeepSeek V4 Preview ?

Deux SKUs publiées ensemble le 24/04/2026 — V4-Pro et V4-Flash — toutes deux avec une fenêtre de contexte de 1M tokens, le nouveau schéma d'attention Hybrid CSA+HCA, et accessibles via trois modes API distincts.

Double SKU Pro vs Flash

V4-Pro est un checkpoint MoE 1.6T avec 49B paramètres actifs par token. V4-Flash est un checkpoint MoE 284B avec seulement 13B actifs par token — même fenêtre de contexte, même schéma d'attention, mais une empreinte d'inférence beaucoup plus légère pour une fraction du coût par token.

Attention Hybrid CSA + HCA

V4 Preview remplace l'attention MoE-only précédente par Hybrid CSA + HCA — cross-shared attention plus hierarchical-causal attention. Le schéma hybride vise à préserver la cohérence sémantique sur les longs documents au lieu de se dégrader en fin de fenêtre de contexte.

Trois modes API — Fast / Expert / Vision

Chaque SKU Preview est accessible via trois modes. Fast privilégie le débit ; Expert privilégie la qualité de raisonnement ; Vision ajoute l'entrée multimodale sur le même backbone — une surface API, trois molettes pour ajuster le compromis coût-qualité-modalité.

Ce que V4 Preview signifie pour les utilisateurs BibiGPT

BibiGPT transforme les longues vidéos et podcasts en notes structurées. V4-Flash réduit fortement le coût par token d'un résumé en contexte 1M, V4-Pro vise le plafond de raisonnement le plus haut, et Vision ouvre la porte à l'analyse de captures d'écran — tout sur le même budget de contexte.

Contexte 1M — podcast 8h en bout-en-bout

1 000 000 de tokens contiennent un enregistrement de conférence de 8 heures, un cours multi-épisodes complet ou une pile d'articles connexes en un seul prompt. Le pipeline chunk-and-stitch de BibiGPT s'effondre en une seule inférence, supprimant la perte de références entre l'heure 1 et l'heure 8.

V4-Flash débloque le résumé long-contexte bon marché

Sur V4-Flash, seuls 13B paramètres s'activent par token. Pour les charges de travail de résumé style BibiGPT — long transcript en entrée, plan structuré en sortie — Flash est le point coût-qualité dominant dans le segment 1M-contexte. Pro est réservé aux passes de raisonnement plus difficiles sur le même transcript.

Mode Vision + analyse visuelle BibiGPT

V4-Vision prend des captures d'écran et frames en entrée. Le workflow d'analyse visuelle existant de BibiGPT — extraire des images-clés d'une vidéo puis demander au modèle ce qui est à l'écran — peut se coupler directement à V4-Vision une fois exposé dans la couche de routage. Les Q&R au niveau frame deviennent une inférence, pas une passe de captioner séparée.

5 changements clés (lecture de 90 secondes)

Décalages majeurs de la sortie DeepSeek V4 Preview du 24/04/2026.

  1. 1

    Double SKU Pro vs Flash

    V4-Pro 1.6T MoE / 49B actifs par token. V4-Flash 284B / 13B actifs — même fenêtre de contexte, même attention, inférence beaucoup plus légère. Choisissez Flash pour le résumé long-contexte bon marché, Pro pour les passes de raisonnement plus dures sur le même transcript.

  2. 2

    Attention Hybrid CSA + HCA

    Cross-shared attention plus hierarchical-causal attention remplace l'attention MoE-only de V4. Le schéma hybride est conçu pour préserver la cohérence sémantique sur l'intégralité du contexte 1M tokens — le mode d'échec dans lequel tombent les résumés de vidéos d'une heure.

  3. 3

    Trois modes API — Fast / Expert / Vision

    Chaque SKU Preview expose Fast (débit), Expert (qualité de raisonnement) et Vision (entrée multimodale) sur la même surface API. Un budget de contexte, trois molettes pour ajuster coût-qualité-modalité.

  4. 4

    Contexte 1M, podcast 8h compatible

    Pro et Flash conservent tous deux la fenêtre de contexte 1M tokens de la famille V4. Un enregistrement de conférence de 8 heures ou une série de cours multi-épisodes tient en un prompt — le pipeline chunk-and-stitch de BibiGPT peut s'effondrer en une seule inférence.

  5. 5

    Poids ouverts sur Hugging Face

    Les checkpoints V4 Preview atterrissent dans la collection deepseek-ai sur Hugging Face la même semaine. Auto-hébergeable pour les charges de travail sensibles à la confidentialité — contenu de cours payant, enregistrements de réunions internes — sans envoyer audio ou transcripts à une API tierce.

3 scénarios typiques pour utilisateurs BibiGPT

Ancré dans des personas utilisateurs BibiGPT réels — tous actionnables aujourd'hui en extrayant un transcript avec BibiGPT et en appelant V4 Preview directement jusqu'à ce que le routage natif arrive.

Créateur — podcast 8 heures, plan en un seul prompt

Utilisez BibiGPT pour extraire un transcript de podcast 8 heures ou d'enregistrement de conférence d'une journée, puis routez l'étape plan-et-résumé via V4-Flash en mode Expert. Le transcript complet tient dans 1M de contexte, donc les références de chapitres restent cohérentes bout-en-bout sans artefacts de chunk-stitch.

Étudiant — Q&R inter-épisodes sur un cours multi-épisodes

Concaténez les transcripts extraits par BibiGPT d'une série de cours multi-épisodes. Avec 1M d'espace, demandez « quel épisode couvrait le sujet X ? » et résolvez directement sur V4-Flash sans index de récupération externe qui perd les citations entre frontières d'épisodes.

Power user — analyse visuelle au niveau frame avec V4-Vision

Extrayez des images-clés d'un exposé à diapos ou d'une vidéo riche en graphiques avec BibiGPT, puis envoyez les frames à V4-Vision en parallèle du transcript. Q&R au niveau frame — « quel est l'axe Y de la diapo 14 ? » — s'effondrent en une inférence, pas de passe de captioner séparée.

Questions fréquentes

Posez-nous vos questions !

Faites tourner V4-Flash sur un podcast contexte 1M — démarrez avec l'extraction de transcript BibiGPT

BibiGPT extrait des transcripts longs depuis YouTube, Bilibili et URLs de podcasts en 5 langues. Couplez le transcript avec V4-Flash pour le point de résumé contexte 1M le moins cher de cette catégorie, V4-Pro pour le raisonnement le plus dur, V4-Vision pour l'analyse au niveau frame. Une fois V4 Preview routé dans BibiGPT, le même workflow tourne bout-en-bout derrière une URL unique.