DeepSeek V4 Preview × BibiGPT —— Pro + Flash 双 SKU

DeepSeek 于 2026-04-24 公开 V4 Preview 阵容——V4-Pro（1.6T MoE / 49B 激活）与 V4-Flash（284B / 13B 激活）双 SKU，1M 上下文窗口，新一代 Hybrid CSA+HCA 注意力机制，Fast / Expert / Vision 三种 API 模式。BibiGPT 用户可在路由层接入后，把长视频、播客、多文档总结跑在这条 Preview 阵容上。

用 BibiGPT 总结长视频

发布 · 2026-04-24 Pro 1.6T / Flash 284B 1M 上下文 · CSA+HCA

核心事实（90 秒速读）

截至 2026-05-08：DeepSeek 于 2026-04-24 公开 V4 Preview。一次发布两条 SKU——V4-Pro（1.6T MoE / 49B 激活）与 V4-Flash（284B / 13B 激活）——均为 1M token 上下文，均跑在新一代 Hybrid CSA + HCA 注意力之上，均通过 Fast / Expert / Vision 三种 API 模式调用。相比早期 V4 发布（单独写在 /features/deepseek-v4-1m-context-explained），V4 Preview 的新闻点是双 SKU 拆分、Hybrid CSA+HCA 注意力升级与显式三种 API 模式——而不是 1M 跳跃本身。对 BibiGPT 用户：V4-Flash 是长视频/播客总结的便宜默认档；V4-Pro 留给同一份转录上更难的推理；Vision 模式与 BibiGPT 抽帧工作流天然衔接。权威来源：api-docs.deepseek.com news260424 与 Hugging Face 的 deepseek-ai 集合。

DeepSeek V4 Preview 带来什么？

2026-04-24 一次发布两条 SKU——V4-Pro 与 V4-Flash，均为 1M token 上下文，均跑在新一代 Hybrid CSA+HCA 注意力之上，均通过三种 API 模式调用。

Pro 与 Flash 双 SKU

V4-Pro 是 1.6T MoE，每 token 49B 参数激活；V4-Flash 是 284B MoE，每 token 仅 13B 激活——同样的上下文窗口、同样的注意力机制，但推理负载大幅减轻、单 token 成本只有 Pro 的零头。

Hybrid CSA + HCA 注意力

V4 Preview 用 Hybrid CSA + HCA（cross-shared attention 加 hierarchical-causal attention）替代此前 MoE-only 的注意力。混合机制设计目标是让长文档跨段语义保持连贯，而不是越接近上下文末尾越退化。

三种 API 模式——Fast / Expert / Vision

每条 Preview SKU 都暴露三种模式：Fast 偏吞吐量；Expert 偏推理质量；Vision 在同一模型上加多模态输入——一套 API、三个旋钮，调成本/质量/模态。

V4 Preview 对 BibiGPT 用户意味什么

BibiGPT 把长视频/播客变结构化笔记。V4-Flash 把 1M 上下文总结的单 token 成本砍到地板，V4-Pro 留给最难的推理跳跃，Vision 模式与画面分析工作流天然衔接——同一份上下文预算可调三档。

1M 上下文——8 小时播客一次喂完

100 万 token 足以装下一段 8 小时的会议录音、一整套多集课程或一摞相关论文，单次提示完成。BibiGPT 的分块拼接管线可塌缩为单次推理，跨段引用从一小时到八小时全部保留。

V4-Flash 解锁低成本长上下文总结

V4-Flash 每 token 只有 13B 参数激活。BibiGPT 类总结场景——长转录进、结构化大纲出——Flash 是 1M 上下文档里成本-质量最优解。Pro 留给同一份转录上更难的推理跳跃。

Vision 模式 + BibiGPT 画面分析

V4-Vision 接收截图/视频帧作为输入。BibiGPT 既有的画面分析工作流——抽取关键帧再问模型「画面里有什么」——可以在路由层接入后直接对接 V4-Vision，把帧级问答塌缩为一次推理。

5 条关键变化（90 秒速读）

DeepSeek V4 Preview 2026-04-24 发布的关键改变。

1

Pro 与 Flash 双 SKU

V4-Pro 1.6T MoE / 49B 激活；V4-Flash 284B / 13B 激活——上下文窗口与注意力相同，推理负载大幅减轻。Flash 做便宜长上下文总结，Pro 留给同一份转录上更难的推理。
2

Hybrid CSA + HCA 注意力

Cross-shared attention 加 hierarchical-causal attention 取代 V4 的 MoE-only 注意力。混合机制设计目标是在 1M token 整段上下文里保持语义连贯——这正是长视频总结最容易翻车的失败模式。
3

三种 API 模式——Fast / Expert / Vision

每条 Preview SKU 在同一 API 上暴露 Fast（吞吐）、Expert（推理质量）、Vision（多模态输入）。一份上下文预算，三个旋钮调成本-质量-模态。
4

1M 上下文，8 小时播客友好

Pro 与 Flash 均保留 V4 家族 1M token 上下文窗口。一段 8 小时会议录音或一整套多集课程一次提示装下——BibiGPT 的分块拼接管线可塌缩为单次推理，原本需要检索的内容不再分块。
5

Hugging Face 同步开源权重

V4 Preview 权重当周落地 Hugging Face 的 deepseek-ai 集合。隐私敏感场景可自托管——付费课程内容、内部会议录音——音频与转录无需交给第三方 API。

BibiGPT 用户的 3 个典型场景

基于真实 BibiGPT 用户画像——今天就能落地：先用 BibiGPT 抽转录，再直接调用 V4 Preview，待原生路由接入后切换。

创作者——8 小时播客一次出大纲

用 BibiGPT 抽出 8 小时播客或全天会议的转录，再把大纲与总结环节路由到 V4-Flash 的 Expert 模式。整段转录装入 1M 上下文，章节引用端到端保持连贯，没有分块拼接伪影。

学生——多集课程跨集问答

把 BibiGPT 抽出的多集讲座转录拼到一起。1M 余量下问「哪一集讲过 X？」可在 V4-Flash 上单次推理直接答出，不再依赖会丢跨集引文的外部检索索引。

进阶用户——V4-Vision 帧级画面分析

用 BibiGPT 从幻灯片演讲或图表密集视频里抽关键帧，再把帧和转录一起送给 V4-Vision。帧级问答——「第 14 页幻灯片的纵轴是什么？」——一次推理出结果，无需独立 captioner。

常见问题

常见问题解答

有问题？问我们！

在 1M 上下文播客上跑 V4-Flash——从 BibiGPT 转录提取开始

BibiGPT 在 5 种语言下从 YouTube、B 站、播客 URL 抽出长转录。V4-Flash 是这一档最便宜的 1M 上下文总结点，V4-Pro 留给最难的推理，V4-Vision 配合帧级画面分析。一旦 V4 Preview 接入 BibiGPT 路由，整条工作流就能走在一条 URL 后面端到端跑通。

免费体验 BibiGPT

DeepSeek V4 Preview × BibiGPT —— Pro + Flash 双 SKU

核心事实（90 秒速读）

Features

DeepSeek V4 Preview 带来什么？

Pro 与 Flash 双 SKU

Hybrid CSA + HCA 注意力

三种 API 模式——Fast / Expert / Vision

V4 Preview 对 BibiGPT 用户意味什么

1M 上下文——8 小时播客一次喂完

V4-Flash 解锁低成本长上下文总结

Vision 模式 + BibiGPT 画面分析

5 条关键变化（90 秒速读）

Pro 与 Flash 双 SKU

Hybrid CSA + HCA 注意力

三种 API 模式——Fast / Expert / Vision

1M 上下文，8 小时播客友好

Hugging Face 同步开源权重

BibiGPT 用户的 3 个典型场景

创作者——8 小时播客一次出大纲

学生——多集课程跨集问答

进阶用户——V4-Vision 帧级画面分析

常见问题解答

更多免费工具

Gemini Flash TTS × BibiGPT

NotebookLM 2026 Update × BibiGPT

Cohere Transcribe 03-2026 × BibiGPT

DeepSeek-V4 1M

在 1M 上下文播客上跑 V4-Flash——从 BibiGPT 转录提取开始