Llama 4 × BibiGPT

Meta wypuściło Llama 4 dnia 05.04.2025 — pierwszą rodzinę Llama natywnie multimodalną i pierwszą z architekturą Mixture-of-Experts (MoE). Scout dostarcza 17B aktywnych / 109B w sumie parametrów rozłożonych na 16 ekspertów i okno kontekstu 10M tokenów; Maverick dostarcza 17B aktywnych / 400B w sumie rozłożonych na 128 ekspertów i 1M kontekstu. BibiGPT routuje streszczenia długich filmów, Q&A wielodokumentowe i pipeline self-hosted przez Llama 4 jako jeden z open-weight long-context backbone'ów, obok Mistral Medium 3.5 i DeepSeek-V4.

Wydano · 05.04.2025 Scout 10M kontekstu · Maverick 400B MoE Open-weight · multimodalny

Kluczowe fakty (90-sekundowa lektura)

Stan na 09.05.2026: Meta wydało Llama 4 dnia 05.04.2025 — pierwszą natywnie multimodalną rodzinę Llama i pierwszą z architekturą MoE. Scout dostarcza 17B aktywnych / 109B w sumie / 16 ekspertów / okno kontekstu 10M tokenów; Maverick dostarcza 17B aktywnych / 400B w sumie / 128 ekspertów / okno kontekstu 1M. Oba open-weight, oba działają na pojedynczym hoście klasy H100, oba pod Llama 4 Community License Meta. Dla użytkowników BibiGPT 10M kontekstu Scouta wystarcza, by zmieścić dziesiątki pełnych transkryptów w jednym promptie — bez chunkingu, bez utraty odniesień między chunkami.

Features

Co przynosi Llama 4?

Dwa open-weight checkpointy — Scout i Maverick — oba natywnie multimodalne, oba zbudowane na architekturze MoE. Scout celuje w 10M kontekstu na pojedynczym H100; Maverick celuje w najlepsze w klasie multimodalne rozumowanie na pojedynczym hoście H100 DGX.

Scout — 17B aktywnych / 109B w sumie / 10M kontekstu

Scout to MoE z 17 miliardami aktywnych parametrów, 16 ekspertami i 109 miliardami parametrów w sumie. Jego okno kontekstu 10M tokenów jest najdłuższe w warstwie open-weight i mieści się na pojedynczym NVIDIA H100 z kwantyzacją Int4.

Maverick — 17B aktywnych / 400B w sumie / 1M kontekstu

Maverick to MoE z 17 miliardami aktywnych parametrów, 128 routowanymi ekspertami plus jednym wspólnym ekspertem i 400 miliardami parametrów w sumie. Jego okno kontekstu 1M tokenów celuje w rozumowanie long-form na pojedynczym hoście H100 DGX. Meta benchmarkuje Maverick przed GPT-4o i Gemini 2.0 Flash w zadaniach multimodalnych.

Open-weight, natywnie multimodalny

Scout i Maverick są dystrybuowane jako pobrania open-weight na llama.com i Hugging Face. Oba przyjmują wejścia tekstowe i obrazowe natywnie (bez osobnego adaptera vision) i oba mogą być self-hostowane pod Llama 4 Community License Meta — sprawdź warunki przed wdrożeniem komercyjnym.

Co 10M kontekstu + open-weight oznacza dla użytkowników BibiGPT

Praca BibiGPT to zamiana godzinnych filmów i podcastów w ustrukturyzowane notatki. 10M kontekstu Scouta daje wystarczająco miejsca, by zmieścić dziesiątki pełnych transkryptów w jednym promptie; multimodalna głowa Mavericka traktuje treści bogate w obrazy (slajdy, zrzuty ekranu, wycinki klatek) jako kategorię premium.

Streszczenie kursu wieloodcinkowego

Pełny 20-odcinkowy kurs YouTube lub roczny back-katalog podcastu mieści się w 10M kontekstu Scouta. Odniesienia między odcinkami („który odcinek wprowadził koncepcję X?”) rozwiązują się w pojedynczej inferencji, bez indeksu retrieval pomiędzy.

Q&A multimodalne slajdy + transkrypt

Połącz transkrypty wyciągnięte przez BibiGPT ze zrzutami klatek z wykładów lub demo produktu. Natywna multimodalna głowa Mavericka odpowiada na pytania międzymodalne — „na którym slajdzie prelegent pokazał diagram architektury?” — bez wstępnego przetwarzania OCR.

Self-host dla treści wrażliwych

Open-weight oznacza, że Scout lub Maverick mogą działać na własnych GPU. Wrażliwe spotkania korporacyjne, treści płatnych kursów i materiały szkoleniowe wewnętrzne mogą być streszczane on-prem — audio, transkrypty i klatki nigdy nie opuszczają twojej sieci.

5 kluczowych zmian (90-sekundowa lektura)

Główne przesunięcia z release'u Llama 4.

  1. 1

    Wydano 05.04.2025

    Meta zrzuciło Llama 4 Scout i Maverick 5 kwietnia 2025 — pierwsze stado Llama open-weight wydane natywnie multimodalnie i na architekturze MoE.

  2. 2

    Pierwszy Llama na MoE

    Llama 4 to pierwsza rodzina Llama Meta z routingiem MoE. Tylko ~17B parametrów uruchamia się na token, nawet jeśli suma wynosi 109B (Scout) lub 400B (Maverick), utrzymując koszt inferencji blisko modelu dense 17B.

  3. 3

    Scout — 10M tokenów kontekstu

    Okno 10M Scouta jest najdłuższe w jakimkolwiek open-weight Llama i bije większość zamkniętych odpowiedników. Osiągnięte przez przeplatane warstwy attention bez positional embeddings plus skalowanie temperatury attention w czasie inferencji.

  4. 4

    Maverick — 400B / 128 ekspertów / multimodalny SOTA

    Maverick używa 128 routowanych ekspertów plus wspólnego eksperta dla 400 miliardów parametrów w sumie. Meta benchmarkuje go przed GPT-4o i Gemini 2.0 Flash w zadaniach multimodalnych; wdrażalny na pojedynczym hoście H100 DGX.

  5. 5

    Behemoth zapowiedziany (~2T w sumie)

    Meta zapowiedziało także Llama 4 Behemoth, model nauczyciel z ~2T parametrów w sumie używany do trenowania Scout i Maverick. Jeszcze nie wydany jako checkpoint open-weight.

3 typowe scenariusze dla użytkowników BibiGPT

Zakorzenione w prawdziwych personach użytkowników BibiGPT — wszystkie wykonalne dziś.

Kurs wieloodcinkowy — pełne streszczenie w jednym promptie

Użyj BibiGPT, by wyciągnąć transkrypty z 20-odcinkowego kursu YouTube, a potem skieruj krok streszczenia przez Llama 4 Scout. Pełny stos 20 odcinków mieści się w 10M kontekstu, więc odniesienia między odcinkami zostają nienaruszone, zamiast być zszywane z chunk-streszczeń.

Q&A multimodalne slajdy + transkrypt

Połącz transkrypty wykładów wyciągnięte przez BibiGPT ze zrzutami klatek. Natywna multimodalna głowa Mavericka odpowiada na pytania transwersalne typu „na którym slajdzie prelegent wprowadził diagram architektury?” — bez pipeline'u OCR, bez wstępnego przetwarzania napisów.

Self-host dla prywatności — open-weight w produkcji

Uruchom Scout lub Maverick na własnych GPU pod Llama 4 Community License, a potem sparuj z ekstraktorem transkryptów BibiGPT do wrażliwych spotkań korporacyjnych lub treści płatnych kursów. Audio, transkrypty i klatki zostają on-prem; streszczenia nigdy nie opuszczają sieci.

Często zadawane pytania

Zapytaj nas o cokolwiek!

Streść kurs 20-odcinkowy w jednym promptie — routing Llama 4 w komplecie

BibiGPT automatycznie routuje streszczenia długich filmów i podcastów przez long-context backbone'y (10M kontekstu Llama 4 Scout w komplecie). Wklej URL z YouTube, Bilibili lub podcastu i otrzymaj pełne streszczenia transkryptów plus AI Q&A w 5 językach — bez artefaktów chunkingu, bez utraty odniesień między chunkami.