Llama 4 × BibiGPT

Meta 于 2025-04-05 发布 Llama 4——史上首个原生多模态的 Llama，也是 Meta 首次采用混合专家（MoE）架构。Scout 17B 激活 / 109B 总参 / 16 专家 / 10M token 上下文窗口；Maverick 17B 激活 / 400B 总参 / 128 专家 / 1M 上下文窗口。BibiGPT 把长视频总结、跨文档问答和自托管管线路由到 Llama 4，作为开源长上下文后端之一，与 Mistral Medium 3.5、DeepSeek-V4 并列。

用 BibiGPT 总结 10M 长转录

发布 · 2025-04-05 Scout 10M 上下文 · Maverick 400B MoE 开源 · 多模态

核心事实（90 秒速读）

截至 2026-05-09：Meta 于 2025-04-05 发布 Llama 4——史上首个原生多模态的 Llama 家族，也是 Meta 首次采用 MoE 架构。Scout 17B 激活 / 109B 总参 / 16 专家 / 10M token 上下文窗口；Maverick 17B 激活 / 400B 总参 / 128 专家 / 1M 上下文窗口。两者均开源权重，均可单 H100 级 host 运行，按 Meta Llama 4 社区许可证发布。对 BibiGPT 用户而言，Scout 10M 上下文足够把数十段完整转录塞入一次提示——不再分块、不丢跨段引用。

Llama 4 带来什么？

两个开源权重——Scout 与 Maverick，均原生多模态，均采用 MoE 架构。Scout 主打单卡 H100 上 10M 上下文；Maverick 主打单 H100 host 上的多模态推理顶尖表现。

Scout——17B 激活 / 109B 总参 / 10M 上下文

Scout 是 170 亿激活参数的 MoE 模型，含 16 个专家、1090 亿总参数。10M token 上下文窗口为开源层级最长，Int4 量化下可装入单张 NVIDIA H100。

Maverick——17B 激活 / 400B 总参 / 1M 上下文

Maverick 是 170 亿激活参数的 MoE 模型，含 128 个路由专家加 1 个共享专家、4000 亿总参数。1M token 上下文目标是单 H100 DGX host 上的长文推理。Meta 在多模态评测中将 Maverick 排在 GPT-4o 与 Gemini 2.0 Flash 之上。

开源权重 / 原生多模态

Scout 和 Maverick 在 llama.com 与 Hugging Face 提供开源权重。两者均原生支持文本与图像输入（无需独立视觉适配器），可按 Meta Llama 4 社区许可证自托管，部署生产前请审阅条款。

10M 上下文 + 开源权重对 BibiGPT 用户意味什么

BibiGPT 核心工作是把长视频/播客变结构化笔记。Scout 10M 上下文足够把数十段完整转录塞入一次提示；Maverick 多模态头让图像密集内容（幻灯片、截图、抽帧）一等公民。

多集课程总结

一整门 20 集 YouTube 课程或一年播客存档塞进 Scout 10M 上下文。跨集引用（「哪一集介绍了概念 X？」）一次推理直接答出，无需中间检索索引。

幻灯片 + 转录多模态问答

把 BibiGPT 提取的转录与讲座/产品演示的抽帧截图配对。Maverick 原生多模态头能跨模态回答——「演讲者在哪一页幻灯片展示架构图？」——无需 OCR 预处理。

隐私敏感内容自托管

开源权重意味 Scout 或 Maverick 可在自有 GPU 运行。敏感企业会议、付费课程内容、内部培训材料可在内网总结——音频、转录、抽帧不出网。

5 条关键变化（90 秒速读）

Llama 4 发布的关键改变。

1

2025-04-05 发布

Meta 在 2025 年 4 月 5 日发布 Llama 4 Scout 与 Maverick——首个原生多模态、MoE 架构的开源 Llama 家族。
2

Llama 首次采用 MoE

Llama 4 是 Meta 首次采用 MoE 路由的 Llama。即便总参数 109B（Scout）或 400B（Maverick），每个 token 实际只激活约 17B，推理成本接近 17B dense 模型。
3

Scout——10M token 上下文

Scout 10M 上下文窗口是任何开源 Llama 中最长的，也超过多数闭源同期模型。通过交错无位置编码注意力层加推理时温度缩放注意力实现。
4

Maverick——400B / 128 专家 / 多模态 SOTA

Maverick 用 128 路由专家加 1 共享专家，总参数 4000 亿。Meta 在多模态评测中将其排在 GPT-4o 与 Gemini 2.0 Flash 之上；可在单 H100 DGX host 部署。
5

Behemoth 预览（约 2T 总参）

Meta 同时预览了 Llama 4 Behemoth——约 2T 总参的教师模型，用于训练 Scout 与 Maverick。尚未作为开源权重发布。

BibiGPT 用户的 3 个典型场景

基于真实 BibiGPT 用户画像，全部今日可落地。

多集课程——一次总结

用 BibiGPT 提取一门 20 集 YouTube 课程的转录，再把总结环节路由到 Llama 4 Scout。整套 20 集塞入 10M 上下文，跨集引用保持完整，不再拼分块总结。

幻灯片 + 转录多模态问答

把 BibiGPT 提取的讲座转录与抽帧截图配对。Maverick 原生多模态头回答跨模态问题——「演讲者在哪一页幻灯片介绍架构图？」——无需 OCR 管线，无需字幕预处理。

隐私自托管——开源权重上生产

在自有 GPU 上按 Llama 4 社区许可证部署 Scout 或 Maverick，前面接 BibiGPT 转录提取。敏感企业会议或付费课程——音频、转录、抽帧不出网，总结全程留在内网。

常见问题

常见问题解答

有问题？问我们！

一次提示总结 20 集课程——Llama 4 路由就在其中

BibiGPT 自动把长视频/播客总结路由到长上下文后端（包含 Llama 4 Scout 10M 上下文）。贴一个 YouTube/B 站/播客 URL，就能拿到整段转录总结加 5 语 AI 问答——没有分块伪影、不丢跨段引用。

免费体验 BibiGPT

Llama 4 × BibiGPT

核心事实（90 秒速读）

Features

Llama 4 带来什么？

Scout——17B 激活 / 109B 总参 / 10M 上下文

Maverick——17B 激活 / 400B 总参 / 1M 上下文

开源权重 / 原生多模态

10M 上下文 + 开源权重对 BibiGPT 用户意味什么

多集课程总结

幻灯片 + 转录多模态问答

隐私敏感内容自托管

5 条关键变化（90 秒速读）

2025-04-05 发布

Llama 首次采用 MoE

Scout——10M token 上下文

Maverick——400B / 128 专家 / 多模态 SOTA

Behemoth 预览（约 2T 总参）

BibiGPT 用户的 3 个典型场景

多集课程——一次总结

幻灯片 + 转录多模态问答

隐私自托管——开源权重上生产

常见问题解答

更多免费工具

Gemini Flash TTS × BibiGPT

NotebookLM 2026 Update × BibiGPT

Cohere Transcribe 03-2026 × BibiGPT

DeepSeek-V4 1M

一次提示总结 20 集课程——Llama 4 路由就在其中