Llama 4 × BibiGPT
Meta ha rilasciato Llama 4 il 05/04/2025 — la prima famiglia Llama nativamente multimodale e la prima a utilizzare un'architettura Mixture-of-Experts (MoE). Scout offre 17B parametri attivi / 109B totali distribuiti su 16 esperti e una finestra di contesto di 10M token; Maverick offre 17B attivi / 400B totali distribuiti su 128 esperti e 1M di contesto. BibiGPT instrada riassunti video long-form, Q&A multi-documento e pipeline self-hosted attraverso Llama 4 come uno dei backbone open-weight long-context, insieme a Mistral Medium 3.5 e DeepSeek-V4.
Fatti chiave (lettura di 90 secondi)
Al 09/05/2026: Meta ha pubblicato Llama 4 il 05/04/2025 — la prima famiglia Llama nativamente multimodale e la prima con architettura MoE. Scout offre 17B attivi / 109B totali / 16 esperti / 10M token di contesto; Maverick offre 17B attivi / 400B totali / 128 esperti / 1M di contesto. Entrambi open-weight, entrambi girano su un singolo host classe H100, ed entrambi sotto la Llama 4 Community License di Meta. Per gli utenti BibiGPT, i 10M di contesto di Scout sono sufficienti per inserire decine di trascrizioni complete in un singolo prompt — nessun chunking, nessuna perdita di riferimenti cross-chunk.
Features
Cosa porta Llama 4?
Due checkpoint open-weight — Scout e Maverick — entrambi nativamente multimodali, entrambi costruiti su architettura MoE. Scout punta a 10M di contesto su una singola H100; Maverick punta al ragionamento multimodale best-in-class su un singolo host H100 DGX.
Scout — 17B attivi / 109B totali / 10M di contesto
Scout è un MoE da 17 miliardi di parametri attivi con 16 esperti e 109 miliardi di parametri totali. La sua finestra di contesto da 10M token è la più lunga nel livello open-weight e si adatta a una singola NVIDIA H100 con quantizzazione Int4.
Maverick — 17B attivi / 400B totali / 1M di contesto
Maverick è un MoE da 17 miliardi di parametri attivi con 128 esperti routed più un esperto condiviso e 400 miliardi di parametri totali. La sua finestra di contesto da 1M token punta al ragionamento long-form su un singolo host H100 DGX. Meta posiziona Maverick davanti a GPT-4o e Gemini 2.0 Flash su task multimodali.
Open-weight, nativamente multimodale
Scout e Maverick sono distribuiti come download open-weight su llama.com e Hugging Face. Entrambi accettano input testo e immagine nativamente (nessun adattatore vision separato), ed entrambi possono essere self-hosted sotto la Llama 4 Community License di Meta — esaminare i termini prima del deployment commerciale.
Cosa significano 10M di contesto + open-weight per gli utenti BibiGPT
Il lavoro di BibiGPT è trasformare video e podcast di un'ora in note strutturate. I 10M di contesto di Scout offrono spazio sufficiente per inserire decine di trascrizioni complete in un singolo prompt; la testa multimodale di Maverick tratta i contenuti ricchi di immagini (diapositive, screenshot, estratti di frame) come categoria premium.
Riassunto corso multi-episodio
Un corso YouTube completo da 20 episodi o un anno di archivio podcast entra nei 10M di contesto di Scout. I riferimenti cross-episodio (« quale episodio ha introdotto il concetto X? ») si risolvono in una singola inferenza, senza indice di retrieval intermedio.
Q&A multimodale diapositive + trascrizione
Combina le trascrizioni estratte da BibiGPT con screenshot di frame di lezioni o demo prodotto. La testa multimodale nativa di Maverick risponde a domande cross-modalità — « in quale diapositiva l'oratore ha mostrato il diagramma di architettura? » — senza pre-elaborazione OCR.
Self-host per contenuto sensibile
Open-weight significa che Scout o Maverick possono girare sui propri GPU. Riunioni aziendali sensibili, contenuti di corsi a pagamento e materiale di formazione interno possono essere riassunti on-prem — audio, trascrizioni e frame non lasciano mai la tua rete.
5 cambiamenti chiave (lettura di 90 secondi)
Cambiamenti principali del rilascio Llama 4.
- 1
Rilasciato 05/04/2025
Meta ha rilasciato Llama 4 Scout e Maverick il 5 aprile 2025 — la prima mandria Llama open-weight nativamente multimodale e su architettura MoE.
- 2
Primo Llama su MoE
Llama 4 è la prima famiglia Llama di Meta con routing MoE. Solo ~17B parametri si attivano per token anche se il totale arriva a 109B (Scout) o 400B (Maverick), mantenendo il costo di inferenza vicino a un modello dense da 17B.
- 3
Scout — 10M token di contesto
La finestra 10M di Scout è la più lunga in qualsiasi Llama open-weight e batte la maggior parte dei pari closed-weight. Ottenuta tramite layer di attention intercalati senza positional embedding più scaling della temperatura sull'attention al momento dell'inferenza.
- 4
Maverick — 400B / 128 esperti / SOTA multimodale
Maverick usa 128 esperti routed più un esperto condiviso per 400 miliardi di parametri totali. Meta lo posiziona davanti a GPT-4o e Gemini 2.0 Flash su task multimodali; deployabile su un singolo host H100 DGX.
- 5
Behemoth anteprimato (~2T totali)
Meta ha anche anteprimato Llama 4 Behemoth, un modello insegnante di ~2T parametri totali usato per addestrare Scout e Maverick. Non ancora rilasciato come checkpoint open-weight.
3 scenari tipici per utenti BibiGPT
Ancorati a persona reali di utenti BibiGPT — tutti azionabili oggi.
Corso multi-episodio — riassunto completo in un prompt
Usa BibiGPT per estrarre le trascrizioni di un corso YouTube di 20 episodi, poi instrada il passo di riassunto via Llama 4 Scout. Lo stack completo dei 20 episodi entra in 10M di contesto, quindi i riferimenti cross-episodio restano intatti invece di essere ricuciti da riassunti di chunk.
Q&A multimodale diapositive + trascrizione
Abbina le trascrizioni di lezioni estratte da BibiGPT con screenshot di frame. La testa multimodale nativa di Maverick risponde a domande trasversali come « in quale diapositiva l'oratore ha introdotto il diagramma di architettura? » — nessuna pipeline OCR, nessuna pre-elaborazione di caption intermedie.
Self-host per privacy — open-weight in produzione
Esegui Scout o Maverick sui propri GPU sotto la Llama 4 Community License, poi abbina con l'estrattore di trascrizione di BibiGPT per riunioni aziendali sensibili o contenuto di corso a pagamento. Audio, trascrizioni e frame restano on-prem; i riassunti non lasciano mai la rete.
FAQ
Domande frequenti
Chiedici qualsiasi cosa!
Riassumere un corso da 20 episodi in un singolo prompt — routing Llama 4 incluso
BibiGPT instrada automaticamente i riassunti di video e podcast long-form attraverso backbone long-context (10M di contesto di Llama 4 Scout incluso). Incolla un URL YouTube, Bilibili o podcast e ottieni riassunti di trascrizione completa più Q&A AI in 5 lingue — nessun artefatto di chunking, nessuna perdita di riferimenti cross-chunk.