Llama 4 是 Meta 第四代开源大语言模型家族，于 2025-04-05 发布。首批包含 Scout（17B 激活 / 109B 总参 / 16 专家 / 10M 上下文）与 Maverick（17B 激活 / 400B 总参 / 128 专家 / 1M 上下文），并预览了规模更大的 Behemoth（约 2T 总参）作为教师模型。Llama 4 是史上首个原生多模态的 Llama，也是 Meta 首次采用混合专家架构。

Llama 4 与 Llama 3 有什么不同？

两个架构变化加一个能力跃迁。架构上，Llama 4 是 Meta 首次采用 MoE 路由——即便总参数 109B（Scout）或 400B（Maverick），每个 token 实际只激活约 17B。能力上，Llama 4 原生多模态（文本+图像同模型，无需适配器），Scout 10M 上下文约为 Llama 3 的 128K 窗口的 80 倍。

Scout 和 Maverick 的区别是什么？

激活参数相同（17B），但总参数与专家路由不同。Scout 16 专家、1090 亿总参、10M 上下文窗口——主打长上下文检索与多文档推理。Maverick 128 路由专家加 1 共享专家、4000 亿总参、1M 上下文——主打文本+图像顶级多模态推理。上下文是瓶颈选 Scout；文本+图像推理质量是瓶颈选 Maverick。

Llama 4 与 Mistral Medium 3.5、DeepSeek-V4 怎么比？

三种开源长上下文方案各有取舍。Llama 4 Scout 是 17B 激活 / 10M 上下文 / 多模态 MoE；Mistral Medium 3.5 是 128B dense / 256K 上下文 / 修订版 MIT 协议——部署最简单；DeepSeek-V4 Pro 是 1.6T MoE / 1M 上下文——基础设施最重但规模化推理最强。需要超长上下文与多模态选 Llama 4 Scout；需要宽松许可与 dense 简单部署选 Mistral 3.5；需要顶级 MoE 推理选 DeepSeek-V4。

哪些相关 BibiGPT 页面与本页配合？

长视频总结（https://bibigpt.co/features/free-video-summarizer）、纯文本总结（https://bibigpt.co/features/free-text-summarizer）、YouTube 字幕提取（https://bibigpt.co/features/youtube-subtitle-downloader）都能从 Llama 4 长上下文受益。跨模型对比可参考 Mistral Medium 3.5 解读页、Claude Opus 4.7 解读页、DeepSeek-V4 1M 上下文解读页。

Llama 4 × BibiGPT

Meta 于 2025-04-05 发布 Llama 4——史上首个原生多模态的 Llama，也是 Meta 首次采用混合专家（MoE）架构。Scout 17B 激活 / 109B 总参 / 16 专家 / 10M token 上下文窗口；Maverick 17B 激活 / 400B 总参 / 128 专家 / 1M 上下文窗口。BibiGPT 把长视频总结、跨文档问答和自托管管线路由到 Llama 4，作为开源长上下文后端之一，与 Mistral Medium 3.5、DeepSeek-V4 并列。

用 BibiGPT 总结 10M 长转录

发布 · 2025-04-05 Scout 10M 上下文 · Maverick 400B MoE 开源 · 多模态

核心事实（90 秒速读）

截至 2026-05-09：Meta 于 2025-04-05 发布 Llama 4——史上首个原生多模态的 Llama 家族，也是 Meta 首次采用 MoE 架构。Scout 17B 激活 / 109B 总参 / 16 专家 / 10M token 上下文窗口；Maverick 17B 激活 / 400B 总参 / 128 专家 / 1M 上下文窗口。两者均开源权重，均可单 H100 级 host 运行，按 Meta Llama 4 社区许可证发布。对 BibiGPT 用户而言，Scout 10M 上下文足够把数十段完整转录塞入一次提示——不再分块、不丢跨段引用。

Llama 4 带来什么？

两个开源权重——Scout 与 Maverick，均原生多模态，均采用 MoE 架构。Scout 主打单卡 H100 上 10M 上下文；Maverick 主打单 H100 host 上的多模态推理顶尖表现。

Scout——17B 激活 / 109B 总参 / 10M 上下文

Scout 是 170 亿激活参数的 MoE 模型，含 16 个专家、1090 亿总参数。10M token 上下文窗口为开源层级最长，Int4 量化下可装入单张 NVIDIA H100。

Maverick——17B 激活 / 400B 总参 / 1M 上下文

Maverick 是 170 亿激活参数的 MoE 模型，含 128 个路由专家加 1 个共享专家、4000 亿总参数。1M token 上下文目标是单 H100 DGX host 上的长文推理。Meta 在多模态评测中将 Maverick 排在 GPT-4o 与 Gemini 2.0 Flash 之上。

开源权重 / 原生多模态

Scout 和 Maverick 在 llama.com 与 Hugging Face 提供开源权重。两者均原生支持文本与图像输入（无需独立视觉适配器），可按 Meta Llama 4 社区许可证自托管，部署生产前请审阅条款。

10M 上下文 + 开源权重对 BibiGPT 用户意味什么

BibiGPT 核心工作是把长视频/播客变结构化笔记。Scout 10M 上下文足够把数十段完整转录塞入一次提示；Maverick 多模态头让图像密集内容（幻灯片、截图、抽帧）一等公民。

多集课程总结

一整门 20 集 YouTube 课程或一年播客存档塞进 Scout 10M 上下文。跨集引用（「哪一集介绍了概念 X？」）一次推理直接答出，无需中间检索索引。

幻灯片 + 转录多模态问答

把 BibiGPT 提取的转录与讲座/产品演示的抽帧截图配对。Maverick 原生多模态头能跨模态回答——「演讲者在哪一页幻灯片展示架构图？」——无需 OCR 预处理。

隐私敏感内容自托管

开源权重意味 Scout 或 Maverick 可在自有 GPU 运行。敏感企业会议、付费课程内容、内部培训材料可在内网总结——音频、转录、抽帧不出网。

5 条关键变化（90 秒速读）

Llama 4 发布的关键改变。

1

2025-04-05 发布

Meta 在 2025 年 4 月 5 日发布 Llama 4 Scout 与 Maverick——首个原生多模态、MoE 架构的开源 Llama 家族。
2

Llama 首次采用 MoE

Llama 4 是 Meta 首次采用 MoE 路由的 Llama。即便总参数 109B（Scout）或 400B（Maverick），每个 token 实际只激活约 17B，推理成本接近 17B dense 模型。
3

Scout——10M token 上下文

Scout 10M 上下文窗口是任何开源 Llama 中最长的，也超过多数闭源同期模型。通过交错无位置编码注意力层加推理时温度缩放注意力实现。
4

Maverick——400B / 128 专家 / 多模态 SOTA

Maverick 用 128 路由专家加 1 共享专家，总参数 4000 亿。Meta 在多模态评测中将其排在 GPT-4o 与 Gemini 2.0 Flash 之上；可在单 H100 DGX host 部署。
5

Behemoth 预览（约 2T 总参）

Meta 同时预览了 Llama 4 Behemoth——约 2T 总参的教师模型，用于训练 Scout 与 Maverick。尚未作为开源权重发布。

BibiGPT 用户的 3 个典型场景

基于真实 BibiGPT 用户画像，全部今日可落地。

多集课程——一次总结

用 BibiGPT 提取一门 20 集 YouTube 课程的转录，再把总结环节路由到 Llama 4 Scout。整套 20 集塞入 10M 上下文，跨集引用保持完整，不再拼分块总结。

幻灯片 + 转录多模态问答

把 BibiGPT 提取的讲座转录与抽帧截图配对。Maverick 原生多模态头回答跨模态问题——「演讲者在哪一页幻灯片介绍架构图？」——无需 OCR 管线，无需字幕预处理。

隐私自托管——开源权重上生产

在自有 GPU 上按 Llama 4 社区许可证部署 Scout 或 Maverick，前面接 BibiGPT 转录提取。敏感企业会议或付费课程——音频、转录、抽帧不出网，总结全程留在内网。

深受创作者、学生和研究人员的喜爱

看看大家为什么每天都用 BibiGPT 把视频转成文字。

全球 50,000+ 用户的信赖之选

★★★★★

“贴上链接几秒钟就拿到干净的字幕文字，每周帮我省下好几个小时的手动整理时间。”

Maya R.

内容创作者 · 二次创作短视频

★★★★★

“导出逐字稿后我可以按自己的节奏复习生词，再也不用反复暂停视频了。”

Daniel K.

语言学习者 · 用真实视频学外语

★★★★★

“准确、带时间戳的文字可以直接引用，它已经悄悄成为我日常工作流的一部分。”

Priya S.

研究人员 · 引用公开演讲

常见问题

常见问题解答

有问题？问我们！

一次提示总结 20 集课程——Llama 4 路由就在其中

BibiGPT 自动把长视频/播客总结路由到长上下文后端（包含 Llama 4 Scout 10M 上下文）。贴一个 YouTube/B 站/播客 URL，就能拿到整段转录总结加 5 语 AI 问答——没有分块伪影、不丢跨段引用。

免费体验 BibiGPT

Llama 4 × BibiGPT