Llama 4 × BibiGPT

Meta 于 2025-04-05 发布 Llama 4——史上首个原生多模态的 Llama,也是 Meta 首次采用混合专家(MoE)架构。Scout 17B 激活 / 109B 总参 / 16 专家 / 10M token 上下文窗口;Maverick 17B 激活 / 400B 总参 / 128 专家 / 1M 上下文窗口。BibiGPT 把长视频总结、跨文档问答和自托管管线路由到 Llama 4,作为开源长上下文后端之一,与 Mistral Medium 3.5、DeepSeek-V4 并列。

发布 · 2025-04-05 Scout 10M 上下文 · Maverick 400B MoE 开源 · 多模态

核心事实(90 秒速读)

截至 2026-05-09:Meta 于 2025-04-05 发布 Llama 4——史上首个原生多模态的 Llama 家族,也是 Meta 首次采用 MoE 架构。Scout 17B 激活 / 109B 总参 / 16 专家 / 10M token 上下文窗口;Maverick 17B 激活 / 400B 总参 / 128 专家 / 1M 上下文窗口。两者均开源权重,均可单 H100 级 host 运行,按 Meta Llama 4 社区许可证发布。对 BibiGPT 用户而言,Scout 10M 上下文足够把数十段完整转录塞入一次提示——不再分块、不丢跨段引用。

Features

Llama 4 带来什么?

两个开源权重——Scout 与 Maverick,均原生多模态,均采用 MoE 架构。Scout 主打单卡 H100 上 10M 上下文;Maverick 主打单 H100 host 上的多模态推理顶尖表现。

Scout——17B 激活 / 109B 总参 / 10M 上下文

Scout 是 170 亿激活参数的 MoE 模型,含 16 个专家、1090 亿总参数。10M token 上下文窗口为开源层级最长,Int4 量化下可装入单张 NVIDIA H100。

Maverick——17B 激活 / 400B 总参 / 1M 上下文

Maverick 是 170 亿激活参数的 MoE 模型,含 128 个路由专家加 1 个共享专家、4000 亿总参数。1M token 上下文目标是单 H100 DGX host 上的长文推理。Meta 在多模态评测中将 Maverick 排在 GPT-4o 与 Gemini 2.0 Flash 之上。

开源权重 / 原生多模态

Scout 和 Maverick 在 llama.com 与 Hugging Face 提供开源权重。两者均原生支持文本与图像输入(无需独立视觉适配器),可按 Meta Llama 4 社区许可证自托管,部署生产前请审阅条款。

10M 上下文 + 开源权重对 BibiGPT 用户意味什么

BibiGPT 核心工作是把长视频/播客变结构化笔记。Scout 10M 上下文足够把数十段完整转录塞入一次提示;Maverick 多模态头让图像密集内容(幻灯片、截图、抽帧)一等公民。

多集课程总结

一整门 20 集 YouTube 课程或一年播客存档塞进 Scout 10M 上下文。跨集引用(「哪一集介绍了概念 X?」)一次推理直接答出,无需中间检索索引。

幻灯片 + 转录多模态问答

把 BibiGPT 提取的转录与讲座/产品演示的抽帧截图配对。Maverick 原生多模态头能跨模态回答——「演讲者在哪一页幻灯片展示架构图?」——无需 OCR 预处理。

隐私敏感内容自托管

开源权重意味 Scout 或 Maverick 可在自有 GPU 运行。敏感企业会议、付费课程内容、内部培训材料可在内网总结——音频、转录、抽帧不出网。

5 条关键变化(90 秒速读)

Llama 4 发布的关键改变。

  1. 1

    2025-04-05 发布

    Meta 在 2025 年 4 月 5 日发布 Llama 4 Scout 与 Maverick——首个原生多模态、MoE 架构的开源 Llama 家族。

  2. 2

    Llama 首次采用 MoE

    Llama 4 是 Meta 首次采用 MoE 路由的 Llama。即便总参数 109B(Scout)或 400B(Maverick),每个 token 实际只激活约 17B,推理成本接近 17B dense 模型。

  3. 3

    Scout——10M token 上下文

    Scout 10M 上下文窗口是任何开源 Llama 中最长的,也超过多数闭源同期模型。通过交错无位置编码注意力层加推理时温度缩放注意力实现。

  4. 4

    Maverick——400B / 128 专家 / 多模态 SOTA

    Maverick 用 128 路由专家加 1 共享专家,总参数 4000 亿。Meta 在多模态评测中将其排在 GPT-4o 与 Gemini 2.0 Flash 之上;可在单 H100 DGX host 部署。

  5. 5

    Behemoth 预览(约 2T 总参)

    Meta 同时预览了 Llama 4 Behemoth——约 2T 总参的教师模型,用于训练 Scout 与 Maverick。尚未作为开源权重发布。

BibiGPT 用户的 3 个典型场景

基于真实 BibiGPT 用户画像,全部今日可落地。

多集课程——一次总结

用 BibiGPT 提取一门 20 集 YouTube 课程的转录,再把总结环节路由到 Llama 4 Scout。整套 20 集塞入 10M 上下文,跨集引用保持完整,不再拼分块总结。

幻灯片 + 转录多模态问答

把 BibiGPT 提取的讲座转录与抽帧截图配对。Maverick 原生多模态头回答跨模态问题——「演讲者在哪一页幻灯片介绍架构图?」——无需 OCR 管线,无需字幕预处理。

隐私自托管——开源权重上生产

在自有 GPU 上按 Llama 4 社区许可证部署 Scout 或 Maverick,前面接 BibiGPT 转录提取。敏感企业会议或付费课程——音频、转录、抽帧不出网,总结全程留在内网。

常见问题解答

有问题?问我们!

一次提示总结 20 集课程——Llama 4 路由就在其中

BibiGPT 自动把长视频/播客总结路由到长上下文后端(包含 Llama 4 Scout 10M 上下文)。贴一个 YouTube/B 站/播客 URL,就能拿到整段转录总结加 5 语 AI 问答——没有分块伪影、不丢跨段引用。