Llama 4 × BibiGPT

Meta hat Llama 4 am 05.04.2025 ausgeliefert — die erste nativ multimodale Llama-Familie und die erste mit Mixture-of-Experts (MoE) Architektur. Scout liefert 17B aktive / 109B gesamt Parameter über 16 Experten und ein 10M Token Kontextfenster; Maverick liefert 17B aktive / 400B gesamt Parameter über 128 Experten und 1M Token Kontext. BibiGPT routet Langvideo-Zusammenfassungen, Mehrdokument-Q&A und Self-Host-Pipelines über Llama 4 als eines der Open-Weight-Long-Context-Backends, neben Mistral Medium 3.5 und DeepSeek-V4.

Mit BibiGPT ein 10M-Kontext-Transkript zusammenfassen

Veröffentlicht · 05.04.2025 Scout 10M Kontext · Maverick 400B MoE Open-Weight · Multimodal

Wichtige Fakten (90 Sekunden Lesezeit)

Stand 09.05.2026: Meta hat Llama 4 am 05.04.2025 veröffentlicht — die erste nativ multimodale Llama-Familie und das erste mit MoE-Architektur. Scout liefert 17B aktiv / 109B gesamt / 16 Experten / 10M Token Kontextfenster; Maverick liefert 17B aktiv / 400B gesamt / 128 Experten / 1M Kontextfenster. Beide sind Open-Weight, beide laufen auf einem einzelnen H100-Klasse-Host und beide werden unter Metas Llama 4 Community License veröffentlicht. Für BibiGPT-Nutzer reicht Scouts 10M Kontext aus, um Dutzende vollständige Transkripte in einem Prompt unterzubringen — kein Chunking, kein Verlust von Cross-Chunk-Referenzen.

Was bringt Llama 4?

Zwei Open-Weight-Checkpoints — Scout und Maverick — beide nativ multimodal, beide auf MoE-Architektur. Scout zielt auf 10M Kontext auf einer einzelnen H100; Maverick auf bestklassiges multimodales Reasoning auf einem einzelnen H100 DGX-Host.

Scout — 17B aktiv / 109B gesamt / 10M Kontext

Scout ist ein MoE-Modell mit 17 Milliarden aktiven Parametern, 16 Experten und 109 Milliarden Gesamtparametern. Das 10M Token Kontextfenster ist das längste in der Open-Weight-Stufe und passt mit Int4-Quantisierung auf eine einzelne NVIDIA H100.

Maverick — 17B aktiv / 400B gesamt / 1M Kontext

Maverick ist ein MoE-Modell mit 17 Milliarden aktiven Parametern, 128 gerouteten Experten plus einem geteilten Experten und 400 Milliarden Gesamtparametern. Das 1M Token Kontextfenster zielt auf Langform-Reasoning auf einem einzelnen H100 DGX-Host. Meta benchmarkt Maverick vor GPT-4o und Gemini 2.0 Flash bei multimodalen Aufgaben.

Open Weights, nativ multimodal

Scout und Maverick werden als Open-Weight-Downloads auf llama.com und Hugging Face ausgeliefert. Beide akzeptieren Text- und Bild-Input nativ (kein separater Vision-Adapter) und beide können unter Metas Llama 4 Community License selbst gehostet werden — Bedingungen vor kommerziellem Deployment prüfen.

Was 10M Kontext + Open Weights für BibiGPT-Nutzer bedeuten

BibiGPTs Aufgabe ist es, stundenlange Videos und Podcasts in strukturierte Notizen zu verwandeln. Scouts 10M Kontext bietet genug Spielraum, um Dutzende vollständige Transkripte in einem Prompt unterzubringen; Mavericks multimodaler Kopf macht bildlastige Inhalte (Folien, Screenshots, Frame-Extrakte) zur Premium-Kategorie.

Mehrteilige Kursserien zusammenfassen

Ein vollständiger 20-Episoden-YouTube-Kurs oder ein Jahr Podcast-Backkatalog passt in Scouts 10M Kontext. Episodenübergreifende Verweise („In welcher Episode wurde Konzept X eingeführt?“) werden in einer einzigen Inferenz aufgelöst, ohne Retrieval-Index dazwischen.

Folien + Transkript multimodale Q&A

Verbinde BibiGPT-extrahierte Transkripte mit Frame-Screenshots aus Vorlesungen oder Produkt-Demos. Mavericks nativer multimodaler Kopf beantwortet modalitätsübergreifende Fragen — „Auf welcher Folie zeigte der Vortragende das Architekturdiagramm?“ — ohne OCR-Vorverarbeitung.

Self-Host für datenschutzkritische Inhalte

Open Weights bedeuten, dass Scout oder Maverick auf eigenen GPUs laufen können. Sensible Unternehmensmeetings, kostenpflichtige Kursinhalte und interne Schulungsmaterialien lassen sich On-Prem zusammenfassen — Audio, Transkripte und Frames verlassen das eigene Netzwerk nicht.

5 Hauptänderungen (90 Sekunden Lesezeit)

Wichtigste Verschiebungen aus dem Llama 4 Release.

1

Veröffentlicht 05.04.2025

Meta hat Llama 4 Scout und Maverick am 5. April 2025 veröffentlicht — die erste Open-Weight-Llama-Herde, die nativ multimodal und auf MoE-Architektur ausgeliefert wurde.
2

Erstes Llama auf MoE

Llama 4 ist Metas erste Llama-Familie mit MoE-Routing. Nur ~17B Parameter feuern pro Token, auch wenn die Gesamtparameteranzahl 109B (Scout) oder 400B (Maverick) erreicht — die Inferenzkosten bleiben nahe an einem 17B-Dense-Modell.
3

Scout — 10M Token Kontext

Scouts 10M Kontextfenster ist das längste in jedem Open-Weight-Llama und schlägt die meisten Closed-Weight-Peers. Erreicht durch verschachtelte Attention-Schichten ohne Positional Embeddings plus Inferenzzeit-Temperaturskalierung der Attention.
4

Maverick — 400B / 128 Experten / Multimodal SOTA

Maverick verwendet 128 geroutete Experten plus einen geteilten Experten für 400 Milliarden Gesamtparameter. Meta benchmarkt es vor GPT-4o und Gemini 2.0 Flash bei multimodalen Aufgaben; bereitstellbar auf einem einzelnen H100 DGX-Host.
5

Behemoth Vorschau (~2T gesamt)

Meta hat auch Llama 4 Behemoth angekündigt, ein Lehrermodell mit ~2T Gesamtparametern, das zum Training von Scout und Maverick verwendet wurde. Noch nicht als Open-Weight-Checkpoint veröffentlicht.

3 typische Szenarien für BibiGPT-Nutzer

Basierend auf realen BibiGPT-Nutzer-Personas — alle heute umsetzbar.

Mehrteiliger Kurs — vollständige Zusammenfassung in einem Prompt

Verwende BibiGPT, um Transkripte aus einem 20-Episoden-YouTube-Kurs zu extrahieren, dann route den Zusammenfassungsschritt durch Llama 4 Scout. Der vollständige 20-Episoden-Stack passt in 10M Kontext, sodass episodenübergreifende Verweise erhalten bleiben, anstatt aus Chunk-Zusammenfassungen zusammengefügt zu werden.

Folien + Transkript multimodale Q&A

Verbinde BibiGPT-extrahierte Vorlesungstranskripte mit Frame-Screenshots. Mavericks nativer multimodaler Kopf beantwortet übergreifende Fragen wie „Auf welcher Folie führte der Vortragende das Architekturdiagramm ein?“ — keine OCR-Pipeline, keine Caption-Vorverarbeitung dazwischen.

Self-Host für Datenschutz — Open Weights in Produktion

Führe Scout oder Maverick auf eigenen GPUs unter der Llama 4 Community License aus, dann verbinde mit BibiGPTs Transkript-Extraktor für sensible Unternehmensmeetings oder kostenpflichtige Kursinhalte. Audio, Transkripte und Frames bleiben on-prem; Zusammenfassungen verlassen das Netzwerk nie.

FAQ

Häufig gestellte Fragen

Fragen Sie uns!

Einen 20-Episoden-Kurs in einem Prompt zusammenfassen — Llama 4 Routing inklusive

BibiGPT routet Langvideo- und Podcast-Zusammenfassungen automatisch über Long-Context-Backbones (Llama 4 Scouts 10M Kontext inklusive). Füge eine YouTube-, Bilibili- oder Podcast-URL ein und erhalte vollständige Transkript-Zusammenfassungen plus AI-Q&A in 5 Sprachen — keine Chunk-Artefakte, kein Verlust von Cross-Chunk-Referenzen.

BibiGPT kostenlos testen

Llama 4 × BibiGPT

Wichtige Fakten (90 Sekunden Lesezeit)

Features

Was bringt Llama 4?

Scout — 17B aktiv / 109B gesamt / 10M Kontext

Maverick — 17B aktiv / 400B gesamt / 1M Kontext

Open Weights, nativ multimodal

Was 10M Kontext + Open Weights für BibiGPT-Nutzer bedeuten

Mehrteilige Kursserien zusammenfassen

Folien + Transkript multimodale Q&A

Self-Host für datenschutzkritische Inhalte

5 Hauptänderungen (90 Sekunden Lesezeit)

Veröffentlicht 05.04.2025

Erstes Llama auf MoE

Scout — 10M Token Kontext

Maverick — 400B / 128 Experten / Multimodal SOTA

Behemoth Vorschau (~2T gesamt)

3 typische Szenarien für BibiGPT-Nutzer

Mehrteiliger Kurs — vollständige Zusammenfassung in einem Prompt

Folien + Transkript multimodale Q&A

Self-Host für Datenschutz — Open Weights in Produktion

Häufig gestellte Fragen

Weitere kostenlose Tools

Gemini Flash TTS × BibiGPT

NotebookLM 2026 Update × BibiGPT

Cohere Transcribe 03-2026 × BibiGPT

DeepSeek-V4 1M

Einen 20-Episoden-Kurs in einem Prompt zusammenfassen — Llama 4 Routing inklusive