Llama 4 × BibiGPT
Meta hat Llama 4 am 05.04.2025 ausgeliefert — die erste nativ multimodale Llama-Familie und die erste mit Mixture-of-Experts (MoE) Architektur. Scout liefert 17B aktive / 109B gesamt Parameter über 16 Experten und ein 10M Token Kontextfenster; Maverick liefert 17B aktive / 400B gesamt Parameter über 128 Experten und 1M Token Kontext. BibiGPT routet Langvideo-Zusammenfassungen, Mehrdokument-Q&A und Self-Host-Pipelines über Llama 4 als eines der Open-Weight-Long-Context-Backends, neben Mistral Medium 3.5 und DeepSeek-V4.
Wichtige Fakten (90 Sekunden Lesezeit)
Stand 09.05.2026: Meta hat Llama 4 am 05.04.2025 veröffentlicht — die erste nativ multimodale Llama-Familie und das erste mit MoE-Architektur. Scout liefert 17B aktiv / 109B gesamt / 16 Experten / 10M Token Kontextfenster; Maverick liefert 17B aktiv / 400B gesamt / 128 Experten / 1M Kontextfenster. Beide sind Open-Weight, beide laufen auf einem einzelnen H100-Klasse-Host und beide werden unter Metas Llama 4 Community License veröffentlicht. Für BibiGPT-Nutzer reicht Scouts 10M Kontext aus, um Dutzende vollständige Transkripte in einem Prompt unterzubringen — kein Chunking, kein Verlust von Cross-Chunk-Referenzen.
Features
Was bringt Llama 4?
Zwei Open-Weight-Checkpoints — Scout und Maverick — beide nativ multimodal, beide auf MoE-Architektur. Scout zielt auf 10M Kontext auf einer einzelnen H100; Maverick auf bestklassiges multimodales Reasoning auf einem einzelnen H100 DGX-Host.
Scout — 17B aktiv / 109B gesamt / 10M Kontext
Scout ist ein MoE-Modell mit 17 Milliarden aktiven Parametern, 16 Experten und 109 Milliarden Gesamtparametern. Das 10M Token Kontextfenster ist das längste in der Open-Weight-Stufe und passt mit Int4-Quantisierung auf eine einzelne NVIDIA H100.
Maverick — 17B aktiv / 400B gesamt / 1M Kontext
Maverick ist ein MoE-Modell mit 17 Milliarden aktiven Parametern, 128 gerouteten Experten plus einem geteilten Experten und 400 Milliarden Gesamtparametern. Das 1M Token Kontextfenster zielt auf Langform-Reasoning auf einem einzelnen H100 DGX-Host. Meta benchmarkt Maverick vor GPT-4o und Gemini 2.0 Flash bei multimodalen Aufgaben.
Open Weights, nativ multimodal
Scout und Maverick werden als Open-Weight-Downloads auf llama.com und Hugging Face ausgeliefert. Beide akzeptieren Text- und Bild-Input nativ (kein separater Vision-Adapter) und beide können unter Metas Llama 4 Community License selbst gehostet werden — Bedingungen vor kommerziellem Deployment prüfen.
Was 10M Kontext + Open Weights für BibiGPT-Nutzer bedeuten
BibiGPTs Aufgabe ist es, stundenlange Videos und Podcasts in strukturierte Notizen zu verwandeln. Scouts 10M Kontext bietet genug Spielraum, um Dutzende vollständige Transkripte in einem Prompt unterzubringen; Mavericks multimodaler Kopf macht bildlastige Inhalte (Folien, Screenshots, Frame-Extrakte) zur Premium-Kategorie.
Mehrteilige Kursserien zusammenfassen
Ein vollständiger 20-Episoden-YouTube-Kurs oder ein Jahr Podcast-Backkatalog passt in Scouts 10M Kontext. Episodenübergreifende Verweise („In welcher Episode wurde Konzept X eingeführt?“) werden in einer einzigen Inferenz aufgelöst, ohne Retrieval-Index dazwischen.
Folien + Transkript multimodale Q&A
Verbinde BibiGPT-extrahierte Transkripte mit Frame-Screenshots aus Vorlesungen oder Produkt-Demos. Mavericks nativer multimodaler Kopf beantwortet modalitätsübergreifende Fragen — „Auf welcher Folie zeigte der Vortragende das Architekturdiagramm?“ — ohne OCR-Vorverarbeitung.
Self-Host für datenschutzkritische Inhalte
Open Weights bedeuten, dass Scout oder Maverick auf eigenen GPUs laufen können. Sensible Unternehmensmeetings, kostenpflichtige Kursinhalte und interne Schulungsmaterialien lassen sich On-Prem zusammenfassen — Audio, Transkripte und Frames verlassen das eigene Netzwerk nicht.
5 Hauptänderungen (90 Sekunden Lesezeit)
Wichtigste Verschiebungen aus dem Llama 4 Release.
- 1
Veröffentlicht 05.04.2025
Meta hat Llama 4 Scout und Maverick am 5. April 2025 veröffentlicht — die erste Open-Weight-Llama-Herde, die nativ multimodal und auf MoE-Architektur ausgeliefert wurde.
- 2
Erstes Llama auf MoE
Llama 4 ist Metas erste Llama-Familie mit MoE-Routing. Nur ~17B Parameter feuern pro Token, auch wenn die Gesamtparameteranzahl 109B (Scout) oder 400B (Maverick) erreicht — die Inferenzkosten bleiben nahe an einem 17B-Dense-Modell.
- 3
Scout — 10M Token Kontext
Scouts 10M Kontextfenster ist das längste in jedem Open-Weight-Llama und schlägt die meisten Closed-Weight-Peers. Erreicht durch verschachtelte Attention-Schichten ohne Positional Embeddings plus Inferenzzeit-Temperaturskalierung der Attention.
- 4
Maverick — 400B / 128 Experten / Multimodal SOTA
Maverick verwendet 128 geroutete Experten plus einen geteilten Experten für 400 Milliarden Gesamtparameter. Meta benchmarkt es vor GPT-4o und Gemini 2.0 Flash bei multimodalen Aufgaben; bereitstellbar auf einem einzelnen H100 DGX-Host.
- 5
Behemoth Vorschau (~2T gesamt)
Meta hat auch Llama 4 Behemoth angekündigt, ein Lehrermodell mit ~2T Gesamtparametern, das zum Training von Scout und Maverick verwendet wurde. Noch nicht als Open-Weight-Checkpoint veröffentlicht.
3 typische Szenarien für BibiGPT-Nutzer
Basierend auf realen BibiGPT-Nutzer-Personas — alle heute umsetzbar.
Mehrteiliger Kurs — vollständige Zusammenfassung in einem Prompt
Verwende BibiGPT, um Transkripte aus einem 20-Episoden-YouTube-Kurs zu extrahieren, dann route den Zusammenfassungsschritt durch Llama 4 Scout. Der vollständige 20-Episoden-Stack passt in 10M Kontext, sodass episodenübergreifende Verweise erhalten bleiben, anstatt aus Chunk-Zusammenfassungen zusammengefügt zu werden.
Folien + Transkript multimodale Q&A
Verbinde BibiGPT-extrahierte Vorlesungstranskripte mit Frame-Screenshots. Mavericks nativer multimodaler Kopf beantwortet übergreifende Fragen wie „Auf welcher Folie führte der Vortragende das Architekturdiagramm ein?“ — keine OCR-Pipeline, keine Caption-Vorverarbeitung dazwischen.
Self-Host für Datenschutz — Open Weights in Produktion
Führe Scout oder Maverick auf eigenen GPUs unter der Llama 4 Community License aus, dann verbinde mit BibiGPTs Transkript-Extraktor für sensible Unternehmensmeetings oder kostenpflichtige Kursinhalte. Audio, Transkripte und Frames bleiben on-prem; Zusammenfassungen verlassen das Netzwerk nie.
FAQ
Häufig gestellte Fragen
Fragen Sie uns!
Einen 20-Episoden-Kurs in einem Prompt zusammenfassen — Llama 4 Routing inklusive
BibiGPT routet Langvideo- und Podcast-Zusammenfassungen automatisch über Long-Context-Backbones (Llama 4 Scouts 10M Kontext inklusive). Füge eine YouTube-, Bilibili- oder Podcast-URL ein und erhalte vollständige Transkript-Zusammenfassungen plus AI-Q&A in 5 Sprachen — keine Chunk-Artefakte, kein Verlust von Cross-Chunk-Referenzen.