Llama 4 × BibiGPT
Meta 于 2025-04-05 发布 Llama 4——史上首个原生多模态的 Llama,也是 Meta 首次采用混合专家(MoE)架构。Scout 17B 激活 / 109B 总参 / 16 专家 / 10M token 上下文窗口;Maverick 17B 激活 / 400B 总参 / 128 专家 / 1M 上下文窗口。BibiGPT 把长视频总结、跨文档问答和自托管管线路由到 Llama 4,作为开源长上下文后端之一,与 Mistral Medium 3.5、DeepSeek-V4 并列。
核心事实(90 秒速读)
截至 2026-05-09:Meta 于 2025-04-05 发布 Llama 4——史上首个原生多模态的 Llama 家族,也是 Meta 首次采用 MoE 架构。Scout 17B 激活 / 109B 总参 / 16 专家 / 10M token 上下文窗口;Maverick 17B 激活 / 400B 总参 / 128 专家 / 1M 上下文窗口。两者均开源权重,均可单 H100 级 host 运行,按 Meta Llama 4 社区许可证发布。对 BibiGPT 用户而言,Scout 10M 上下文足够把数十段完整转录塞入一次提示——不再分块、不丢跨段引用。
Features
Llama 4 带来什么?
两个开源权重——Scout 与 Maverick,均原生多模态,均采用 MoE 架构。Scout 主打单卡 H100 上 10M 上下文;Maverick 主打单 H100 host 上的多模态推理顶尖表现。
Scout——17B 激活 / 109B 总参 / 10M 上下文
Scout 是 170 亿激活参数的 MoE 模型,含 16 个专家、1090 亿总参数。10M token 上下文窗口为开源层级最长,Int4 量化下可装入单张 NVIDIA H100。
Maverick——17B 激活 / 400B 总参 / 1M 上下文
Maverick 是 170 亿激活参数的 MoE 模型,含 128 个路由专家加 1 个共享专家、4000 亿总参数。1M token 上下文目标是单 H100 DGX host 上的长文推理。Meta 在多模态评测中将 Maverick 排在 GPT-4o 与 Gemini 2.0 Flash 之上。
开源权重 / 原生多模态
Scout 和 Maverick 在 llama.com 与 Hugging Face 提供开源权重。两者均原生支持文本与图像输入(无需独立视觉适配器),可按 Meta Llama 4 社区许可证自托管,部署生产前请审阅条款。
10M 上下文 + 开源权重对 BibiGPT 用户意味什么
BibiGPT 核心工作是把长视频/播客变结构化笔记。Scout 10M 上下文足够把数十段完整转录塞入一次提示;Maverick 多模态头让图像密集内容(幻灯片、截图、抽帧)一等公民。
多集课程总结
一整门 20 集 YouTube 课程或一年播客存档塞进 Scout 10M 上下文。跨集引用(「哪一集介绍了概念 X?」)一次推理直接答出,无需中间检索索引。
幻灯片 + 转录多模态问答
把 BibiGPT 提取的转录与讲座/产品演示的抽帧截图配对。Maverick 原生多模态头能跨模态回答——「演讲者在哪一页幻灯片展示架构图?」——无需 OCR 预处理。
隐私敏感内容自托管
开源权重意味 Scout 或 Maverick 可在自有 GPU 运行。敏感企业会议、付费课程内容、内部培训材料可在内网总结——音频、转录、抽帧不出网。
5 条关键变化(90 秒速读)
Llama 4 发布的关键改变。
- 1
2025-04-05 发布
Meta 在 2025 年 4 月 5 日发布 Llama 4 Scout 与 Maverick——首个原生多模态、MoE 架构的开源 Llama 家族。
- 2
Llama 首次采用 MoE
Llama 4 是 Meta 首次采用 MoE 路由的 Llama。即便总参数 109B(Scout)或 400B(Maverick),每个 token 实际只激活约 17B,推理成本接近 17B dense 模型。
- 3
Scout——10M token 上下文
Scout 10M 上下文窗口是任何开源 Llama 中最长的,也超过多数闭源同期模型。通过交错无位置编码注意力层加推理时温度缩放注意力实现。
- 4
Maverick——400B / 128 专家 / 多模态 SOTA
Maverick 用 128 路由专家加 1 共享专家,总参数 4000 亿。Meta 在多模态评测中将其排在 GPT-4o 与 Gemini 2.0 Flash 之上;可在单 H100 DGX host 部署。
- 5
Behemoth 预览(约 2T 总参)
Meta 同时预览了 Llama 4 Behemoth——约 2T 总参的教师模型,用于训练 Scout 与 Maverick。尚未作为开源权重发布。
BibiGPT 用户的 3 个典型场景
基于真实 BibiGPT 用户画像,全部今日可落地。
多集课程——一次总结
用 BibiGPT 提取一门 20 集 YouTube 课程的转录,再把总结环节路由到 Llama 4 Scout。整套 20 集塞入 10M 上下文,跨集引用保持完整,不再拼分块总结。
幻灯片 + 转录多模态问答
把 BibiGPT 提取的讲座转录与抽帧截图配对。Maverick 原生多模态头回答跨模态问题——「演讲者在哪一页幻灯片介绍架构图?」——无需 OCR 管线,无需字幕预处理。
隐私自托管——开源权重上生产
在自有 GPU 上按 Llama 4 社区许可证部署 Scout 或 Maverick,前面接 BibiGPT 转录提取。敏感企业会议或付费课程——音频、转录、抽帧不出网,总结全程留在内网。
常见问题
常见问题解答
有问题?问我们!
一次提示总结 20 集课程——Llama 4 路由就在其中
BibiGPT 自动把长视频/播客总结路由到长上下文后端(包含 Llama 4 Scout 10M 上下文)。贴一个 YouTube/B 站/播客 URL,就能拿到整段转录总结加 5 语 AI 问答——没有分块伪影、不丢跨段引用。