Llama 4 × BibiGPT
Meta a livré Llama 4 le 05/04/2025 — la première famille Llama nativement multimodale et la première à utiliser une architecture Mixture-of-Experts (MoE). Scout livre 17B paramètres actifs / 109B au total répartis sur 16 experts et une fenêtre de contexte de 10M tokens ; Maverick livre 17B actifs / 400B au total répartis sur 128 experts et 1M de contexte. BibiGPT route la résumé long-format, le Q&A multi-document et les pipelines self-hosted via Llama 4 comme un des backbones open-weight long-contexte, aux côtés de Mistral Medium 3.5 et DeepSeek-V4.
Faits clés (lecture en 90 secondes)
Au 09/05/2026 : Meta a publié Llama 4 le 05/04/2025 — la première famille Llama nativement multimodale et la première à utiliser une architecture MoE. Scout livre 17B actifs / 109B total / 16 experts / 10M tokens de contexte ; Maverick livre 17B actifs / 400B total / 128 experts / 1M de contexte. Tous deux open-weight, tous deux tournent sur un seul hôte de classe H100, et tous deux sous la Llama 4 Community License de Meta. Pour les utilisateurs BibiGPT, les 10M de contexte de Scout suffisent pour mettre des dizaines de transcriptions complètes dans un seul prompt — pas de chunking, pas de perte de références cross-chunk.
Features
Que livre Llama 4 ?
Deux checkpoints open-weight — Scout et Maverick — tous deux nativement multimodaux, tous deux construits sur architecture MoE. Scout cible 10M de contexte sur une seule H100 ; Maverick cible le raisonnement multimodal best-in-class sur un seul hôte H100 DGX.
Scout — 17B actifs / 109B total / 10M de contexte
Scout est un MoE de 17 milliards de paramètres actifs avec 16 experts et 109 milliards de paramètres au total. Sa fenêtre de contexte de 10M tokens est la plus longue dans la catégorie open-weight et tient sur une seule NVIDIA H100 avec quantification Int4.
Maverick — 17B actifs / 400B total / 1M de contexte
Maverick est un MoE de 17 milliards de paramètres actifs avec 128 experts routés plus un expert partagé et 400 milliards de paramètres au total. Sa fenêtre de contexte de 1M tokens cible le raisonnement long-format sur un seul hôte H100 DGX. Meta benchmarke Maverick devant GPT-4o et Gemini 2.0 Flash sur les tâches multimodales.
Open-weight, nativement multimodal
Scout et Maverick sont distribués comme téléchargements open-weight sur llama.com et Hugging Face. Tous deux acceptent les entrées texte et image nativement (pas d'adaptateur de vision séparé), et tous deux peuvent être self-hostés sous la Llama 4 Community License de Meta — examiner les conditions avant déploiement commercial.
Ce que 10M de contexte + open-weight signifient pour les utilisateurs BibiGPT
Le travail de BibiGPT est de transformer des vidéos et podcasts d'une heure en notes structurées. Les 10M de contexte de Scout offrent assez d'espace pour insérer des dizaines de transcriptions complètes dans un seul prompt ; la tête multimodale de Maverick traite les contenus riches en images (diapositives, captures d'écran, extraits de frames) en première classe.
Résumé de cours multi-épisodes
Un cours YouTube complet de 20 épisodes ou un an d'archives de podcast tient dans les 10M de contexte de Scout. Les références cross-épisodes (« quel épisode a introduit le concept X ? ») se résolvent en une seule inférence, sans index de retrieval intermédiaire.
Q&A multimodal diapositives + transcription
Associez les transcriptions extraites par BibiGPT avec des captures d'écran d'images de cours ou de démos produit. La tête multimodale native de Maverick répond à des questions cross-modalités — « sur quelle diapositive l'orateur a-t-il montré le diagramme d'architecture ? » — sans pré-traitement OCR.
Self-host pour contenu sensible
Open-weight signifie que Scout ou Maverick peuvent tourner sur vos propres GPU. Les réunions d'entreprise sensibles, les contenus de cours payants et les supports de formation internes peuvent être résumés on-prem — audio, transcriptions et frames ne quittent jamais votre réseau.
5 changements clés (lecture en 90 secondes)
Principaux changements du release Llama 4.
- 1
Sorti le 05/04/2025
Meta a sorti Llama 4 Scout et Maverick le 5 avril 2025 — la première troupe Llama open-weight nativement multimodale et sur architecture MoE.
- 2
Premier Llama sur MoE
Llama 4 est la première famille Llama de Meta avec routing MoE. Seuls ~17B paramètres s'activent par token même si le total atteint 109B (Scout) ou 400B (Maverick), maintenant le coût d'inférence proche d'un modèle dense de 17B.
- 3
Scout — 10M tokens de contexte
La fenêtre de 10M de Scout est la plus longue de tout Llama open-weight et bat la plupart des pairs closed-weight. Obtenue via des couches d'attention entrelacées sans embeddings positionnels plus une mise à l'échelle de la température en attention au moment de l'inférence.
- 4
Maverick — 400B / 128 experts / SOTA multimodal
Maverick utilise 128 experts routés plus un expert partagé pour 400 milliards de paramètres au total. Meta le benchmarke devant GPT-4o et Gemini 2.0 Flash sur les tâches multimodales ; déployable sur un seul hôte H100 DGX.
- 5
Behemoth prévisualisé (~2T total)
Meta a aussi prévisualisé Llama 4 Behemoth, un modèle enseignant de ~2T paramètres au total utilisé pour entraîner Scout et Maverick. Pas encore sorti comme checkpoint open-weight.
3 scénarios typiques pour utilisateurs BibiGPT
Ancrés dans des personas réelles d'utilisateurs BibiGPT — tous actionnables aujourd'hui.
Cours multi-épisodes — résumé complet en un prompt
Utilisez BibiGPT pour extraire les transcriptions d'un cours YouTube de 20 épisodes, puis routez l'étape de résumé via Llama 4 Scout. La pile complète des 20 épisodes tient en 10M de contexte, donc les références cross-épisodes restent intactes au lieu d'être assemblées à partir de résumés de chunks.
Q&A multimodal diapositives + transcription
Associez les transcriptions de cours extraites par BibiGPT avec des captures d'écran de frames. La tête multimodale native de Maverick répond aux questions transversales comme « sur quelle diapositive l'orateur a-t-il introduit le diagramme d'architecture ? » — pas de pipeline OCR, pas de pré-traitement de captions intermédiaires.
Self-host pour confidentialité — open-weight en production
Faites tourner Scout ou Maverick sur vos propres GPU sous la Llama 4 Community License, puis associez avec l'extracteur de transcription de BibiGPT pour réunions d'entreprise sensibles ou contenu de cours payant. Audio, transcriptions et frames restent on-prem ; les résumés ne quittent jamais le réseau.
FAQ
Questions fréquentes
Posez-nous vos questions !
Résumer un cours de 20 épisodes en un prompt — routing Llama 4 inclus
BibiGPT route automatiquement les résumés de vidéos et podcasts long-format via les backbones long-contexte (10M de contexte de Llama 4 Scout inclus). Collez une URL YouTube, Bilibili ou podcast et obtenez des résumés de transcription complète plus AI Q&A en 5 langues — pas d'artefacts de chunking, pas de perte de références cross-chunk.