Google DeepMind 在 2026-04-02 发布的 Apache 2.0 多模态开源模型族。四档尺寸（E2B、E4B、26B MoE、31B）覆盖端侧到旗舰，文本、图像、音频均为一等输入。31B 模型发布即列开源 Arena #3，256K 上下文一窗装下 90 分钟讲座。

Gemma 4 与 Gemma 3 有什么不同？

三处跃迁：(1) 音频从独立 ASR 助手升为一等输入；(2) 256K 上下文取代上代较小窗口；(3) 中间档加入 MoE，吞吐/成本权衡比上代纯文本族更宽。

BibiGPT 用 Gemma 4 吗？

BibiGPT 路由层在 OpenAI、Anthropic、Google Gemini API 与自托管模型间轮询。Gemma 4 是 ASR 重的字幕流水线与端侧总结的候选自托管底座——我们正在路由层评估；具体场景的现役模型以 BibiGPT changelog 为准。

我应该自托管 Gemma 4 还是调 Gemini API？

看场景与量。高量 ASR/转写批量在 API 客户级别下，Gemma 4 自托管常更便宜。复杂推理与 Agent 追问，旗舰 API 模型仍领先。BibiGPT 路由层按任务挑，不必全局二选一。

BibiGPT 哪些场景受益最大？

三处：(1) 播客与 B 站课程的字幕/ASR 流水线——Gemma 4 原生音频分支替换外部 ASR；(2) API 客户的批量场景，按分钟定价是瓶颈；(3) E2B 在桌面/移动端做离线字幕清洗与初版总结。

哪些相关 BibiGPT 页面与本页配合？

推荐配合 BibiGPT YouTube AI 总结、B 站 AI 总结、播客 AI 总结、cohere-transcribe-2026-explained 解读（平行开源 ASR 底座）。Gemini Embedding 2 解读覆盖与 Gemma 4 生成的总结天然搭配的多模态检索层；Claude Opus 4.7 解读覆盖路由层另一端的旗舰推理模型。

Gemma 4 × BibiGPT 自托管底座

Google DeepMind 在 2026-04-02 发布 Gemma 4——Apache 2.0 多模态开源模型族（E2B/E4B/26B MoE/31B），覆盖文本/图像/音频，256K 上下文，可端侧运行。31B 旗舰发布即位列开源 Arena #3。对 BibiGPT 而言，这是字幕/音频/视频流水线的候选自托管底座，也是与 Gemini/GPT/Claude API 成本对比的标尺。

用 BibiGPT 做视频总结

2026-04-02 发布 Apache 2.0 256K 上下文

核心事实（90 秒速读）

Google DeepMind 在 2026-04-02 发布 Gemma 4——Apache 2.0 多模态开源模型族，覆盖文本/图像/音频，四档尺寸（E2B/E4B/26B MoE/31B）。256K 上下文一窗装下 90 分钟讲座；31B 旗舰发布即列开源 Arena #3。对 BibiGPT 而言，这是字幕/ASR 流水线、API 客户批量场景、端侧客户端的候选自托管底座。

2026-04-02 发布了什么？

Google DeepMind 的 Gemma 4——Apache 2.0 多模态开源模型族，四个尺寸（E2B、E4B、26B MoE、31B）。文本、图像、音频均为一等输入；256K 上下文与端侧可运行变体是亮点。

四档尺寸覆盖端侧到旗舰

E2B / E4B 面向端侧。26B MoE 在吞吐与质量间均衡。31B 旗舰发布即列开源 Arena #3。一族一 tokenizer，四档功率。

音频是一等输入而非附加

Gemma 4 原生吃音频——语音识别、音频理解、声音事件推理由同一模型给出，无需独立 ASR 栈。播客与课程链路天然受益。

256K 上下文 + Apache 2.0

256K token 能在单窗口装下 90 分钟讲座文字稿与章节笔记。Apache 2.0 许可让 BibiGPT（或你的自部署）自托管不必谈付费档。

对 BibiGPT 用户意味着什么

BibiGPT 把字幕下载、ASR、总结、画面分析串成链路。每步都有 API 成本与延迟权衡。Gemma 4 让自托管变体覆盖具体步骤更便宜，最难的推理仍留给旗舰 API 模型。

ASR 与字幕流水线的自托管底座

Gemma 4 音频分支可替换第三方 ASR 处理高量文字稿任务。成本由按分钟变为按硬件，这在 API 客户批量层最重要。

桌面/移动端的端侧变体

BibiGPT 桌面/移动客户端可内置 E2B 做离线字幕清洗、关键词抽取、初版总结——网络不稳或成本要稳时尤其有用。

Apache 2.0 没有许可税

Apache 2.0 没有用量阶梯或营收分成条款。BibiGPT 团队与 API 客户级别自部署的经济模型可预期。

5 条关键变化（90 秒速读）

Gemma 4（2026-04-02 发布）的关键变化。

1

Apache 2.0 多模态——文本+图像+音频

Gemma 4 是首个把音频升为一等输入的 Gemma 代次（不再依赖独立 ASR 助手）。图像与文本仍在；Apache 2.0 让经济模型可预期。
2

四档尺寸——端侧到旗舰

E2B、E4B、26B MoE、31B。E2B/E4B 面向端侧；MoE 在中间档做吞吐；31B 旗舰列开源 Arena #3。
3

256K 上下文窗口

256K token 一窗装下 90 分钟讲座加章节笔记。BibiGPT 典型输入不再需要手工分块。
4

自托管成本变得可观

Apache 2.0 + 端侧变体让 BibiGPT（或你的自部署）可自托管，无需谈付费档。成本由按分钟变按硬件，对 API 客户批量层最重要。
5

BibiGPT 用户由路由层吸收

通过 BibiGPT 消费而非自托管，路由层把 ASR 重的步骤交给 Gemma 4，最硬的推理交给旗舰 API 模型。终端用户拿到更优的成本/质量权衡，无需写迁移代码。

BibiGPT 用户的 3 个典型场景

Gemma 4 的开源许可、多模态覆盖、256K 上下文最受益的场景。

播客 / B 站流水线的自托管 ASR

BibiGPT 每天处理上千条播客与 B 站课程。自托管 Gemma 4 音频分支把按分钟 ASR 成本变为按硬件成本，量大时主导成本，并把旗舰 API 模型留给硬推理。

API 客户的批量总结

API 客户处理批量视频/播客负载。Gemma 4 自托管承接初版总结，旗舰模型处理深度追问。成本栈由按调用变按主机。

桌面/移动端的端侧变体

BibiGPT 桌面/移动客户端可内置 E2B 做离线字幕清洗、关键词抽取、初版总结。路上、教室网络不稳时尤其有用，且让成本可预期。

深受创作者、学生和研究人员的喜爱

看看大家为什么每天都用 BibiGPT 把视频转成文字。

全球 50,000+ 用户的信赖之选

★★★★★

“贴上链接几秒钟就拿到干净的字幕文字，每周帮我省下好几个小时的手动整理时间。”

Maya R.

内容创作者 · 二次创作短视频

★★★★★

“导出逐字稿后我可以按自己的节奏复习生词，再也不用反复暂停视频了。”

Daniel K.

语言学习者 · 用真实视频学外语

★★★★★

“准确、带时间戳的文字可以直接引用，它已经悄悄成为我日常工作流的一部分。”

Priya S.

研究人员 · 引用公开演讲

常见问题

常见问题解答

有问题？问我们！

用 BibiGPT 做视频总结——背后由 Gemma 4 / Gemini / Claude 路由

BibiGPT 按任务挑模型——ASR 重的字幕批量走自托管 Gemma 4，最硬的推理走 Gemini 与 Claude。你拿到合适的成本/质量权衡，无需自管模型部署。

免费体验 BibiGPT

Gemma 4 × BibiGPT 自托管底座