DeepSeek V4 Preview × BibiGPT — doppio SKU Pro + Flash

DeepSeek ha pubblicato la lineup V4 Preview il 24/04/2026 — V4-Pro (1.6T MoE / 49B attivi) e V4-Flash (284B / 13B attivi) come doppio SKU, finestra di contesto da 1M token, nuovo schema di attenzione Hybrid CSA+HCA e tre modalità API (Fast / Expert / Vision). Una volta integrata nello strato di routing, gli utenti BibiGPT possono eseguire i riassunti di video lunghi, podcast e multi-documento su questa lineup Preview.

Rilasciato · 24/04/2026 Pro 1.6T / Flash 284B Contesto 1M · CSA+HCA

Fatti chiave (lettura di 90 secondi)

Al 08/05/2026: DeepSeek ha pubblicato la lineup V4 Preview il 24/04/2026. Due SKU rilasciate insieme — V4-Pro (1.6T MoE / 49B attivi) e V4-Flash (284B / 13B attivi) — entrambe con finestra di contesto da 1M token, entrambe sul nuovo schema di attenzione Hybrid CSA + HCA, entrambe raggiungibili tramite modalità API Fast / Expert / Vision. Rispetto al rilascio V4 precedente (trattato separatamente in /features/deepseek-v4-1m-context-explained), la novità di V4 Preview è la divisione doppia SKU, l'aggiornamento dell'attenzione Hybrid CSA+HCA e la superficie API esplicita a tre modalità — non il salto 1M stesso. Per gli utenti BibiGPT: V4-Flash è il default economico per riassunti di video lunghi/podcast, V4-Pro è riservato a passaggi di ragionamento più duri sulla stessa trascrizione, e la modalità Vision si accoppia pulitamente al workflow di estrazione frame di BibiGPT. Fonti autorevoli: api-docs.deepseek.com news260424 e la collezione deepseek-ai su Hugging Face.

Features

Cosa porta DeepSeek V4 Preview?

Due SKU rilasciate insieme il 24/04/2026 — V4-Pro e V4-Flash — entrambe con finestra di contesto da 1M token, entrambe basate sul nuovo schema di attenzione Hybrid CSA+HCA, entrambe accessibili tramite tre modalità API distinte.

Doppio SKU Pro vs Flash

V4-Pro è un checkpoint MoE 1.6T con 49B parametri attivi per token. V4-Flash è un checkpoint MoE 284B con solo 13B attivi per token — stessa finestra di contesto, stesso schema di attenzione, ma footprint di inferenza molto più leggero a una frazione del costo per token.

Attenzione Hybrid CSA + HCA

V4 Preview sostituisce la precedente attenzione solo-MoE con Hybrid CSA + HCA — cross-shared attention più hierarchical-causal attention. Lo schema ibrido è progettato per preservare la coerenza semantica su lunghi documenti invece di degradarsi verso la coda della finestra di contesto.

Tre modalità API — Fast / Expert / Vision

Ogni SKU Preview è raggiungibile tramite tre modalità. Fast privilegia il throughput; Expert privilegia la qualità del ragionamento; Vision aggiunge input multimodale sullo stesso backbone — una superficie API, tre manopole per regolare il compromesso costo-qualità-modalità.

Cosa significa V4 Preview per gli utenti BibiGPT

BibiGPT trasforma video lunghi e podcast in note strutturate. V4-Flash abbatte il costo per token di una corsa di riassunto in contesto 1M, V4-Pro raggiunge il tetto di ragionamento più alto, e Vision apre la porta all'analisi a livello frame — tutto sullo stesso budget di contesto.

Contesto 1M — podcast 8h end-to-end

1.000.000 di token contengono una registrazione di conferenza di 8 ore, un intero corso multi-episodio o uno stack di articoli correlati in un singolo prompt. La pipeline chunk-and-stitch di BibiGPT può collassare in una singola inferenza, riducendo la perdita di riferimenti tra l'ora uno e l'ora otto.

V4-Flash sblocca il riassunto a contesto lungo a basso costo

Su V4-Flash si attivano solo 13B parametri per token. Per i carichi di lavoro di riassunto in stile BibiGPT — trascrizione lunga in input, outline strutturato in output — Flash è il punto costo-qualità dominante nel segmento contesto 1M. Pro è riservato a passaggi di ragionamento più duri sulla stessa trascrizione.

Modalità Vision + analisi visiva BibiGPT

V4-Vision accetta screenshot e frame come input. Il workflow di analisi visiva esistente di BibiGPT — estrarre frame chiave da un video poi chiedere al modello cosa c'è sullo schermo — può accoppiarsi direttamente a V4-Vision una volta esposto nello strato di routing. Le Q&A a livello frame diventano una sola inferenza, niente passaggio captioner separato.

5 cambiamenti chiave (lettura di 90 secondi)

Cambiamenti principali dal rilascio DeepSeek V4 Preview del 24/04/2026.

  1. 1

    Doppio SKU Pro vs Flash

    V4-Pro 1.6T MoE / 49B attivi per token. V4-Flash 284B / 13B attivi — stessa finestra di contesto, stessa attenzione, inferenza molto più leggera. Scegli Flash per riassunto a contesto lungo a basso costo, Pro per passaggi di ragionamento più duri sulla stessa trascrizione.

  2. 2

    Attenzione Hybrid CSA + HCA

    Cross-shared attention più hierarchical-causal attention sostituisce l'attenzione solo-MoE di V4. Lo schema ibrido è progettato per preservare la coerenza semantica sull'intero contesto da 1M token — la modalità di fallimento in cui cadono i riassunti di video di un'ora.

  3. 3

    Tre modalità API — Fast / Expert / Vision

    Ogni SKU Preview espone Fast (throughput), Expert (qualità del ragionamento) e Vision (input multimodale) sulla stessa superficie API. Un budget di contesto, tre manopole per regolare costo-qualità-modalità.

  4. 4

    Contesto 1M, podcast 8h compatibile

    Sia Pro che Flash mantengono la finestra di contesto da 1M token della famiglia V4. Una registrazione di conferenza di 8 ore o una serie di corsi multi-episodio entra in un singolo prompt — la pipeline chunk-and-stitch di BibiGPT può collassare in una singola inferenza.

  5. 5

    Pesi aperti su Hugging Face

    I checkpoint V4 Preview atterrano nella collezione deepseek-ai su Hugging Face nella stessa settimana. Auto-ospitabile per carichi di lavoro sensibili alla privacy — contenuti di corsi a pagamento, registrazioni di riunioni interne — senza inviare audio o trascrizioni a un'API di terzi.

3 scenari tipici per utenti BibiGPT

Basato su personas reali di utenti BibiGPT — tutti azionabili oggi estraendo una trascrizione con BibiGPT e chiamando V4 Preview direttamente fino a quando il routing nativo non arriva.

Creator — podcast 8 ore, outline in un singolo prompt

Usa BibiGPT per estrarre una trascrizione di podcast 8 ore o registrazione di conferenza giornaliera, poi instrada lo step di outline-e-riassunto tramite V4-Flash in modalità Expert. La trascrizione completa entra in 1M di contesto, quindi i riferimenti dei capitoli rimangono coerenti end-to-end senza artefatti chunk-stitch.

Studente — Q&A inter-episodi su corso multi-episodio

Concatena le trascrizioni estratte da BibiGPT da una serie di lezioni multi-episodio. Con 1M di spazio, chiedi 'quale episodio ha trattato l'argomento X?' e risolvi direttamente su V4-Flash senza un indice di recupero esterno che perde citazioni tra confini di episodi.

Power user — analisi visiva a livello frame con V4-Vision

Estrai frame chiave da una presentazione con slide o video ricco di grafici con BibiGPT, poi invia i frame a V4-Vision insieme alla trascrizione. Q&A a livello frame — 'qual è l'asse Y sulla slide 14?' — collassa in una sola inferenza, niente passaggio captioner separato.

Domande frequenti

Chiedici qualsiasi cosa!

Esegui V4-Flash su un podcast a contesto 1M — inizia con l'estrazione di trascrizione BibiGPT

BibiGPT estrae trascrizioni lunghe da YouTube, Bilibili e URL di podcast in 5 lingue. Accoppia la trascrizione con V4-Flash per il punto di riassunto contesto 1M più economico in questa fascia, V4-Pro per il ragionamento più duro, V4-Vision per l'analisi a livello frame. Una volta che V4 Preview è instradato in BibiGPT, lo stesso workflow gira end-to-end dietro un singolo URL.