Llama 4 × BibiGPT
Meta 於 2025-04-05 發布 Llama 4——史上首個原生多模態 Llama,也是 Meta 首次採用混合專家(MoE)架構。Scout 17B 啟用 / 109B 總參 / 16 專家 / 10M token 上下文視窗;Maverick 17B 啟用 / 400B 總參 / 128 專家 / 1M 上下文視窗。BibiGPT 把長影片摘要、跨文件問答和自架管線路由到 Llama 4,作為開源長上下文後端之一,與 Mistral Medium 3.5、DeepSeek-V4 並列。
核心事實(90 秒速讀)
截至 2026-05-09:Meta 於 2025-04-05 發布 Llama 4——史上首個原生多模態的 Llama 家族,也是 Meta 首次採用 MoE 架構。Scout 17B 啟用 / 109B 總參 / 16 專家 / 10M token 上下文視窗;Maverick 17B 啟用 / 400B 總參 / 128 專家 / 1M 上下文視窗。兩者皆開源權重,皆可單 H100 級 host 執行,按 Meta Llama 4 社群授權發布。對 BibiGPT 使用者而言,Scout 10M 上下文足以把數十段完整逐字稿塞入一次提示——不再分塊、不丟跨段引用。
Features
Llama 4 帶來什麼?
兩個開源權重——Scout 與 Maverick,皆為原生多模態,皆採用 MoE 架構。Scout 主打單卡 H100 上 10M 上下文;Maverick 主打單 H100 host 上的多模態推理頂尖表現。
Scout——17B 啟用 / 109B 總參 / 10M 上下文
Scout 是 170 億啟用參數的 MoE 模型,含 16 個專家、1090 億總參數。10M token 上下文視窗為開源層級最長,Int4 量化下可裝入單張 NVIDIA H100。
Maverick——17B 啟用 / 400B 總參 / 1M 上下文
Maverick 是 170 億啟用參數的 MoE 模型,含 128 個路由專家加 1 個共用專家、4000 億總參數。1M token 上下文目標是單 H100 DGX host 上的長文推理。Meta 在多模態評測中將 Maverick 排在 GPT-4o 與 Gemini 2.0 Flash 之上。
開源權重 / 原生多模態
Scout 和 Maverick 在 llama.com 與 Hugging Face 提供開源權重。兩者皆原生支援文字與影像輸入(無需獨立視覺轉接器),可按 Meta Llama 4 社群授權自架,部署生產前請審閱條款。
10M 上下文 + 開源權重對 BibiGPT 使用者意味什麼
BibiGPT 核心工作是把長影片/Podcast 變結構化筆記。Scout 10M 上下文足以把數十段完整逐字稿塞入一次提示;Maverick 多模態頭讓影像密集內容(投影片、截圖、抽幀)成為一等公民。
多集課程摘要
一整門 20 集 YouTube 課程或一年 Podcast 存檔塞進 Scout 10M 上下文。跨集引用(「哪一集介紹了概念 X?」)一次推理直接答出,無需中間檢索索引。
投影片 + 逐字稿多模態問答
把 BibiGPT 提取的逐字稿與講座/產品演示的抽幀截圖配對。Maverick 原生多模態頭能跨模態回答——「演講者在哪一頁投影片展示架構圖?」——無需 OCR 預處理。
隱私敏感內容自架
開源權重意味 Scout 或 Maverick 可在自有 GPU 執行。敏感企業會議、付費課程內容、內部訓練教材可在內網摘要——音訊、逐字稿、抽幀不出網。
5 條關鍵變化(90 秒速讀)
Llama 4 發布的關鍵改變。
- 1
2025-04-05 發布
Meta 在 2025 年 4 月 5 日發布 Llama 4 Scout 與 Maverick——首個原生多模態、MoE 架構的開源 Llama 家族。
- 2
Llama 首次採用 MoE
Llama 4 是 Meta 首次採用 MoE 路由的 Llama。即便總參數 109B(Scout)或 400B(Maverick),每個 token 實際只啟用約 17B,推理成本接近 17B dense 模型。
- 3
Scout——10M token 上下文
Scout 10M 上下文視窗是任何開源 Llama 中最長的,也超過多數同期閉源模型。透過交錯無位置編碼注意力層加推理時溫度縮放注意力實現。
- 4
Maverick——400B / 128 專家 / 多模態 SOTA
Maverick 用 128 路由專家加 1 共用專家,總參數 4000 億。Meta 在多模態評測中將其排在 GPT-4o 與 Gemini 2.0 Flash 之上;可在單 H100 DGX host 部署。
- 5
Behemoth 預覽(約 2T 總參)
Meta 同時預覽了 Llama 4 Behemoth——約 2T 總參的教師模型,用於訓練 Scout 與 Maverick。尚未作為開源權重發布。
BibiGPT 使用者的 3 個典型情境
基於真實 BibiGPT 使用者輪廓,全部今日可落地。
多集課程——一次摘要
用 BibiGPT 提取一門 20 集 YouTube 課程的逐字稿,再把摘要環節路由到 Llama 4 Scout。整套 20 集塞入 10M 上下文,跨集引用保持完整,不再拼分塊摘要。
投影片 + 逐字稿多模態問答
把 BibiGPT 提取的講座逐字稿與抽幀截圖配對。Maverick 原生多模態頭回答跨模態問題——「演講者在哪一頁投影片介紹架構圖?」——無需 OCR 管線,無需字幕預處理。
隱私自架——開源權重上生產
在自有 GPU 上按 Llama 4 社群授權部署 Scout 或 Maverick,前面接 BibiGPT 逐字稿提取。敏感企業會議或付費課程——音訊、逐字稿、抽幀不出網,摘要全程留在內網。
FAQ
常見問題
歡迎提問!
一次提示摘要 20 集課程——Llama 4 路由就在其中
BibiGPT 自動把長影片/Podcast 摘要路由到長上下文後端(包含 Llama 4 Scout 10M 上下文)。貼一個 YouTube/B 站/Podcast URL,就能拿到整段逐字稿摘要加 5 語 AI 問答——沒有分塊偽影、不丟跨段引用。