Llama 4 × BibiGPT

Meta 於 2025-04-05 發布 Llama 4——史上首個原生多模態 Llama，也是 Meta 首次採用混合專家（MoE）架構。Scout 17B 啟用 / 109B 總參 / 16 專家 / 10M token 上下文視窗；Maverick 17B 啟用 / 400B 總參 / 128 專家 / 1M 上下文視窗。BibiGPT 把長影片摘要、跨文件問答和自架管線路由到 Llama 4，作為開源長上下文後端之一，與 Mistral Medium 3.5、DeepSeek-V4 並列。

用 BibiGPT 摘要 10M 長逐字稿

發布 · 2025-04-05 Scout 10M 上下文 · Maverick 400B MoE 開源 · 多模態

核心事實（90 秒速讀）

截至 2026-05-09：Meta 於 2025-04-05 發布 Llama 4——史上首個原生多模態的 Llama 家族，也是 Meta 首次採用 MoE 架構。Scout 17B 啟用 / 109B 總參 / 16 專家 / 10M token 上下文視窗；Maverick 17B 啟用 / 400B 總參 / 128 專家 / 1M 上下文視窗。兩者皆開源權重，皆可單 H100 級 host 執行，按 Meta Llama 4 社群授權發布。對 BibiGPT 使用者而言，Scout 10M 上下文足以把數十段完整逐字稿塞入一次提示——不再分塊、不丟跨段引用。

Llama 4 帶來什麼？

兩個開源權重——Scout 與 Maverick，皆為原生多模態，皆採用 MoE 架構。Scout 主打單卡 H100 上 10M 上下文；Maverick 主打單 H100 host 上的多模態推理頂尖表現。

Scout——17B 啟用 / 109B 總參 / 10M 上下文

Scout 是 170 億啟用參數的 MoE 模型，含 16 個專家、1090 億總參數。10M token 上下文視窗為開源層級最長，Int4 量化下可裝入單張 NVIDIA H100。

Maverick——17B 啟用 / 400B 總參 / 1M 上下文

Maverick 是 170 億啟用參數的 MoE 模型，含 128 個路由專家加 1 個共用專家、4000 億總參數。1M token 上下文目標是單 H100 DGX host 上的長文推理。Meta 在多模態評測中將 Maverick 排在 GPT-4o 與 Gemini 2.0 Flash 之上。

開源權重 / 原生多模態

Scout 和 Maverick 在 llama.com 與 Hugging Face 提供開源權重。兩者皆原生支援文字與影像輸入（無需獨立視覺轉接器），可按 Meta Llama 4 社群授權自架，部署生產前請審閱條款。

10M 上下文 + 開源權重對 BibiGPT 使用者意味什麼

BibiGPT 核心工作是把長影片／Podcast 變結構化筆記。Scout 10M 上下文足以把數十段完整逐字稿塞入一次提示；Maverick 多模態頭讓影像密集內容（投影片、截圖、抽幀）成為一等公民。

多集課程摘要

一整門 20 集 YouTube 課程或一年 Podcast 存檔塞進 Scout 10M 上下文。跨集引用（「哪一集介紹了概念 X？」）一次推理直接答出，無需中間檢索索引。

投影片 + 逐字稿多模態問答

把 BibiGPT 提取的逐字稿與講座／產品演示的抽幀截圖配對。Maverick 原生多模態頭能跨模態回答——「演講者在哪一頁投影片展示架構圖？」——無需 OCR 預處理。

隱私敏感內容自架

開源權重意味 Scout 或 Maverick 可在自有 GPU 執行。敏感企業會議、付費課程內容、內部訓練教材可在內網摘要——音訊、逐字稿、抽幀不出網。

5 條關鍵變化（90 秒速讀）

Llama 4 發布的關鍵改變。

1

2025-04-05 發布

Meta 在 2025 年 4 月 5 日發布 Llama 4 Scout 與 Maverick——首個原生多模態、MoE 架構的開源 Llama 家族。
2

Llama 首次採用 MoE

Llama 4 是 Meta 首次採用 MoE 路由的 Llama。即便總參數 109B（Scout）或 400B（Maverick），每個 token 實際只啟用約 17B，推理成本接近 17B dense 模型。
3

Scout——10M token 上下文

Scout 10M 上下文視窗是任何開源 Llama 中最長的，也超過多數同期閉源模型。透過交錯無位置編碼注意力層加推理時溫度縮放注意力實現。
4

Maverick——400B / 128 專家 / 多模態 SOTA

Maverick 用 128 路由專家加 1 共用專家，總參數 4000 億。Meta 在多模態評測中將其排在 GPT-4o 與 Gemini 2.0 Flash 之上；可在單 H100 DGX host 部署。
5

Behemoth 預覽（約 2T 總參）

Meta 同時預覽了 Llama 4 Behemoth——約 2T 總參的教師模型，用於訓練 Scout 與 Maverick。尚未作為開源權重發布。

BibiGPT 使用者的 3 個典型情境

基於真實 BibiGPT 使用者輪廓，全部今日可落地。

多集課程——一次摘要

用 BibiGPT 提取一門 20 集 YouTube 課程的逐字稿，再把摘要環節路由到 Llama 4 Scout。整套 20 集塞入 10M 上下文，跨集引用保持完整，不再拼分塊摘要。

投影片 + 逐字稿多模態問答

把 BibiGPT 提取的講座逐字稿與抽幀截圖配對。Maverick 原生多模態頭回答跨模態問題——「演講者在哪一頁投影片介紹架構圖？」——無需 OCR 管線，無需字幕預處理。

隱私自架——開源權重上生產

在自有 GPU 上按 Llama 4 社群授權部署 Scout 或 Maverick，前面接 BibiGPT 逐字稿提取。敏感企業會議或付費課程——音訊、逐字稿、抽幀不出網，摘要全程留在內網。

FAQ

常見問題

歡迎提問！

一次提示摘要 20 集課程——Llama 4 路由就在其中

BibiGPT 自動把長影片／Podcast 摘要路由到長上下文後端（包含 Llama 4 Scout 10M 上下文）。貼一個 YouTube／B 站／Podcast URL，就能拿到整段逐字稿摘要加 5 語 AI 問答——沒有分塊偽影、不丟跨段引用。

免費體驗 BibiGPT

Llama 4 × BibiGPT

核心事實（90 秒速讀）

Features

Llama 4 帶來什麼？

Scout——17B 啟用 / 109B 總參 / 10M 上下文

Maverick——17B 啟用 / 400B 總參 / 1M 上下文

開源權重 / 原生多模態

10M 上下文 + 開源權重對 BibiGPT 使用者意味什麼

多集課程摘要

投影片 + 逐字稿多模態問答

隱私敏感內容自架

5 條關鍵變化（90 秒速讀）

2025-04-05 發布

Llama 首次採用 MoE

Scout——10M token 上下文

Maverick——400B / 128 專家 / 多模態 SOTA

Behemoth 預覽（約 2T 總參）

BibiGPT 使用者的 3 個典型情境

多集課程——一次摘要

投影片 + 逐字稿多模態問答

隱私自架——開源權重上生產

常見問題

更多免費工具

Gemini Flash TTS × BibiGPT

NotebookLM 2026 Update × BibiGPT

Cohere Transcribe 03-2026 × BibiGPT

DeepSeek-V4 1M

一次提示摘要 20 集課程——Llama 4 路由就在其中