Llama 4 × BibiGPT
Meta wypuściło Llama 4 dnia 05.04.2025 — pierwszą rodzinę Llama natywnie multimodalną i pierwszą z architekturą Mixture-of-Experts (MoE). Scout dostarcza 17B aktywnych / 109B w sumie parametrów rozłożonych na 16 ekspertów i okno kontekstu 10M tokenów; Maverick dostarcza 17B aktywnych / 400B w sumie rozłożonych na 128 ekspertów i 1M kontekstu. BibiGPT routuje streszczenia długich filmów, Q&A wielodokumentowe i pipeline self-hosted przez Llama 4 jako jeden z open-weight long-context backbone'ów, obok Mistral Medium 3.5 i DeepSeek-V4.
Kluczowe fakty (90-sekundowa lektura)
Stan na 09.05.2026: Meta wydało Llama 4 dnia 05.04.2025 — pierwszą natywnie multimodalną rodzinę Llama i pierwszą z architekturą MoE. Scout dostarcza 17B aktywnych / 109B w sumie / 16 ekspertów / okno kontekstu 10M tokenów; Maverick dostarcza 17B aktywnych / 400B w sumie / 128 ekspertów / okno kontekstu 1M. Oba open-weight, oba działają na pojedynczym hoście klasy H100, oba pod Llama 4 Community License Meta. Dla użytkowników BibiGPT 10M kontekstu Scouta wystarcza, by zmieścić dziesiątki pełnych transkryptów w jednym promptie — bez chunkingu, bez utraty odniesień między chunkami.
Features
Co przynosi Llama 4?
Dwa open-weight checkpointy — Scout i Maverick — oba natywnie multimodalne, oba zbudowane na architekturze MoE. Scout celuje w 10M kontekstu na pojedynczym H100; Maverick celuje w najlepsze w klasie multimodalne rozumowanie na pojedynczym hoście H100 DGX.
Scout — 17B aktywnych / 109B w sumie / 10M kontekstu
Scout to MoE z 17 miliardami aktywnych parametrów, 16 ekspertami i 109 miliardami parametrów w sumie. Jego okno kontekstu 10M tokenów jest najdłuższe w warstwie open-weight i mieści się na pojedynczym NVIDIA H100 z kwantyzacją Int4.
Maverick — 17B aktywnych / 400B w sumie / 1M kontekstu
Maverick to MoE z 17 miliardami aktywnych parametrów, 128 routowanymi ekspertami plus jednym wspólnym ekspertem i 400 miliardami parametrów w sumie. Jego okno kontekstu 1M tokenów celuje w rozumowanie long-form na pojedynczym hoście H100 DGX. Meta benchmarkuje Maverick przed GPT-4o i Gemini 2.0 Flash w zadaniach multimodalnych.
Open-weight, natywnie multimodalny
Scout i Maverick są dystrybuowane jako pobrania open-weight na llama.com i Hugging Face. Oba przyjmują wejścia tekstowe i obrazowe natywnie (bez osobnego adaptera vision) i oba mogą być self-hostowane pod Llama 4 Community License Meta — sprawdź warunki przed wdrożeniem komercyjnym.
Co 10M kontekstu + open-weight oznacza dla użytkowników BibiGPT
Praca BibiGPT to zamiana godzinnych filmów i podcastów w ustrukturyzowane notatki. 10M kontekstu Scouta daje wystarczająco miejsca, by zmieścić dziesiątki pełnych transkryptów w jednym promptie; multimodalna głowa Mavericka traktuje treści bogate w obrazy (slajdy, zrzuty ekranu, wycinki klatek) jako kategorię premium.
Streszczenie kursu wieloodcinkowego
Pełny 20-odcinkowy kurs YouTube lub roczny back-katalog podcastu mieści się w 10M kontekstu Scouta. Odniesienia między odcinkami („który odcinek wprowadził koncepcję X?”) rozwiązują się w pojedynczej inferencji, bez indeksu retrieval pomiędzy.
Q&A multimodalne slajdy + transkrypt
Połącz transkrypty wyciągnięte przez BibiGPT ze zrzutami klatek z wykładów lub demo produktu. Natywna multimodalna głowa Mavericka odpowiada na pytania międzymodalne — „na którym slajdzie prelegent pokazał diagram architektury?” — bez wstępnego przetwarzania OCR.
Self-host dla treści wrażliwych
Open-weight oznacza, że Scout lub Maverick mogą działać na własnych GPU. Wrażliwe spotkania korporacyjne, treści płatnych kursów i materiały szkoleniowe wewnętrzne mogą być streszczane on-prem — audio, transkrypty i klatki nigdy nie opuszczają twojej sieci.
5 kluczowych zmian (90-sekundowa lektura)
Główne przesunięcia z release'u Llama 4.
- 1
Wydano 05.04.2025
Meta zrzuciło Llama 4 Scout i Maverick 5 kwietnia 2025 — pierwsze stado Llama open-weight wydane natywnie multimodalnie i na architekturze MoE.
- 2
Pierwszy Llama na MoE
Llama 4 to pierwsza rodzina Llama Meta z routingiem MoE. Tylko ~17B parametrów uruchamia się na token, nawet jeśli suma wynosi 109B (Scout) lub 400B (Maverick), utrzymując koszt inferencji blisko modelu dense 17B.
- 3
Scout — 10M tokenów kontekstu
Okno 10M Scouta jest najdłuższe w jakimkolwiek open-weight Llama i bije większość zamkniętych odpowiedników. Osiągnięte przez przeplatane warstwy attention bez positional embeddings plus skalowanie temperatury attention w czasie inferencji.
- 4
Maverick — 400B / 128 ekspertów / multimodalny SOTA
Maverick używa 128 routowanych ekspertów plus wspólnego eksperta dla 400 miliardów parametrów w sumie. Meta benchmarkuje go przed GPT-4o i Gemini 2.0 Flash w zadaniach multimodalnych; wdrażalny na pojedynczym hoście H100 DGX.
- 5
Behemoth zapowiedziany (~2T w sumie)
Meta zapowiedziało także Llama 4 Behemoth, model nauczyciel z ~2T parametrów w sumie używany do trenowania Scout i Maverick. Jeszcze nie wydany jako checkpoint open-weight.
3 typowe scenariusze dla użytkowników BibiGPT
Zakorzenione w prawdziwych personach użytkowników BibiGPT — wszystkie wykonalne dziś.
Kurs wieloodcinkowy — pełne streszczenie w jednym promptie
Użyj BibiGPT, by wyciągnąć transkrypty z 20-odcinkowego kursu YouTube, a potem skieruj krok streszczenia przez Llama 4 Scout. Pełny stos 20 odcinków mieści się w 10M kontekstu, więc odniesienia między odcinkami zostają nienaruszone, zamiast być zszywane z chunk-streszczeń.
Q&A multimodalne slajdy + transkrypt
Połącz transkrypty wykładów wyciągnięte przez BibiGPT ze zrzutami klatek. Natywna multimodalna głowa Mavericka odpowiada na pytania transwersalne typu „na którym slajdzie prelegent wprowadził diagram architektury?” — bez pipeline'u OCR, bez wstępnego przetwarzania napisów.
Self-host dla prywatności — open-weight w produkcji
Uruchom Scout lub Maverick na własnych GPU pod Llama 4 Community License, a potem sparuj z ekstraktorem transkryptów BibiGPT do wrażliwych spotkań korporacyjnych lub treści płatnych kursów. Audio, transkrypty i klatki zostają on-prem; streszczenia nigdy nie opuszczają sieci.
FAQ
Często zadawane pytania
Zapytaj nas o cokolwiek!
Streść kurs 20-odcinkowy w jednym promptie — routing Llama 4 w komplecie
BibiGPT automatycznie routuje streszczenia długich filmów i podcastów przez long-context backbone'y (10M kontekstu Llama 4 Scout w komplecie). Wklej URL z YouTube, Bilibili lub podcastu i otrzymaj pełne streszczenia transkryptów plus AI Q&A w 5 językach — bez artefaktów chunkingu, bez utraty odniesień między chunkami.