Llama 4 × BibiGPT

Meta ha rilasciato Llama 4 il 05/04/2025 — la prima famiglia Llama nativamente multimodale e la prima a utilizzare un'architettura Mixture-of-Experts (MoE). Scout offre 17B parametri attivi / 109B totali distribuiti su 16 esperti e una finestra di contesto di 10M token; Maverick offre 17B attivi / 400B totali distribuiti su 128 esperti e 1M di contesto. BibiGPT instrada riassunti video long-form, Q&A multi-documento e pipeline self-hosted attraverso Llama 4 come uno dei backbone open-weight long-context, insieme a Mistral Medium 3.5 e DeepSeek-V4.

Rilasciato · 05/04/2025 Scout 10M contesto · Maverick 400B MoE Open-weight · multimodale

Fatti chiave (lettura di 90 secondi)

Al 09/05/2026: Meta ha pubblicato Llama 4 il 05/04/2025 — la prima famiglia Llama nativamente multimodale e la prima con architettura MoE. Scout offre 17B attivi / 109B totali / 16 esperti / 10M token di contesto; Maverick offre 17B attivi / 400B totali / 128 esperti / 1M di contesto. Entrambi open-weight, entrambi girano su un singolo host classe H100, ed entrambi sotto la Llama 4 Community License di Meta. Per gli utenti BibiGPT, i 10M di contesto di Scout sono sufficienti per inserire decine di trascrizioni complete in un singolo prompt — nessun chunking, nessuna perdita di riferimenti cross-chunk.

Features

Cosa porta Llama 4?

Due checkpoint open-weight — Scout e Maverick — entrambi nativamente multimodali, entrambi costruiti su architettura MoE. Scout punta a 10M di contesto su una singola H100; Maverick punta al ragionamento multimodale best-in-class su un singolo host H100 DGX.

Scout — 17B attivi / 109B totali / 10M di contesto

Scout è un MoE da 17 miliardi di parametri attivi con 16 esperti e 109 miliardi di parametri totali. La sua finestra di contesto da 10M token è la più lunga nel livello open-weight e si adatta a una singola NVIDIA H100 con quantizzazione Int4.

Maverick — 17B attivi / 400B totali / 1M di contesto

Maverick è un MoE da 17 miliardi di parametri attivi con 128 esperti routed più un esperto condiviso e 400 miliardi di parametri totali. La sua finestra di contesto da 1M token punta al ragionamento long-form su un singolo host H100 DGX. Meta posiziona Maverick davanti a GPT-4o e Gemini 2.0 Flash su task multimodali.

Open-weight, nativamente multimodale

Scout e Maverick sono distribuiti come download open-weight su llama.com e Hugging Face. Entrambi accettano input testo e immagine nativamente (nessun adattatore vision separato), ed entrambi possono essere self-hosted sotto la Llama 4 Community License di Meta — esaminare i termini prima del deployment commerciale.

Cosa significano 10M di contesto + open-weight per gli utenti BibiGPT

Il lavoro di BibiGPT è trasformare video e podcast di un'ora in note strutturate. I 10M di contesto di Scout offrono spazio sufficiente per inserire decine di trascrizioni complete in un singolo prompt; la testa multimodale di Maverick tratta i contenuti ricchi di immagini (diapositive, screenshot, estratti di frame) come categoria premium.

Riassunto corso multi-episodio

Un corso YouTube completo da 20 episodi o un anno di archivio podcast entra nei 10M di contesto di Scout. I riferimenti cross-episodio (« quale episodio ha introdotto il concetto X? ») si risolvono in una singola inferenza, senza indice di retrieval intermedio.

Q&A multimodale diapositive + trascrizione

Combina le trascrizioni estratte da BibiGPT con screenshot di frame di lezioni o demo prodotto. La testa multimodale nativa di Maverick risponde a domande cross-modalità — « in quale diapositiva l'oratore ha mostrato il diagramma di architettura? » — senza pre-elaborazione OCR.

Self-host per contenuto sensibile

Open-weight significa che Scout o Maverick possono girare sui propri GPU. Riunioni aziendali sensibili, contenuti di corsi a pagamento e materiale di formazione interno possono essere riassunti on-prem — audio, trascrizioni e frame non lasciano mai la tua rete.

5 cambiamenti chiave (lettura di 90 secondi)

Cambiamenti principali del rilascio Llama 4.

  1. 1

    Rilasciato 05/04/2025

    Meta ha rilasciato Llama 4 Scout e Maverick il 5 aprile 2025 — la prima mandria Llama open-weight nativamente multimodale e su architettura MoE.

  2. 2

    Primo Llama su MoE

    Llama 4 è la prima famiglia Llama di Meta con routing MoE. Solo ~17B parametri si attivano per token anche se il totale arriva a 109B (Scout) o 400B (Maverick), mantenendo il costo di inferenza vicino a un modello dense da 17B.

  3. 3

    Scout — 10M token di contesto

    La finestra 10M di Scout è la più lunga in qualsiasi Llama open-weight e batte la maggior parte dei pari closed-weight. Ottenuta tramite layer di attention intercalati senza positional embedding più scaling della temperatura sull'attention al momento dell'inferenza.

  4. 4

    Maverick — 400B / 128 esperti / SOTA multimodale

    Maverick usa 128 esperti routed più un esperto condiviso per 400 miliardi di parametri totali. Meta lo posiziona davanti a GPT-4o e Gemini 2.0 Flash su task multimodali; deployabile su un singolo host H100 DGX.

  5. 5

    Behemoth anteprimato (~2T totali)

    Meta ha anche anteprimato Llama 4 Behemoth, un modello insegnante di ~2T parametri totali usato per addestrare Scout e Maverick. Non ancora rilasciato come checkpoint open-weight.

3 scenari tipici per utenti BibiGPT

Ancorati a persona reali di utenti BibiGPT — tutti azionabili oggi.

Corso multi-episodio — riassunto completo in un prompt

Usa BibiGPT per estrarre le trascrizioni di un corso YouTube di 20 episodi, poi instrada il passo di riassunto via Llama 4 Scout. Lo stack completo dei 20 episodi entra in 10M di contesto, quindi i riferimenti cross-episodio restano intatti invece di essere ricuciti da riassunti di chunk.

Q&A multimodale diapositive + trascrizione

Abbina le trascrizioni di lezioni estratte da BibiGPT con screenshot di frame. La testa multimodale nativa di Maverick risponde a domande trasversali come « in quale diapositiva l'oratore ha introdotto il diagramma di architettura? » — nessuna pipeline OCR, nessuna pre-elaborazione di caption intermedie.

Self-host per privacy — open-weight in produzione

Esegui Scout o Maverick sui propri GPU sotto la Llama 4 Community License, poi abbina con l'estrattore di trascrizione di BibiGPT per riunioni aziendali sensibili o contenuto di corso a pagamento. Audio, trascrizioni e frame restano on-prem; i riassunti non lasciano mai la rete.

Domande frequenti

Chiedici qualsiasi cosa!

Riassumere un corso da 20 episodi in un singolo prompt — routing Llama 4 incluso

BibiGPT instrada automaticamente i riassunti di video e podcast long-form attraverso backbone long-context (10M di contesto di Llama 4 Scout incluso). Incolla un URL YouTube, Bilibili o podcast e ottieni riassunti di trascrizione completa più Q&A AI in 5 lingue — nessun artefatto di chunking, nessuna perdita di riferimenti cross-chunk.