DeepSeek V4 Preview × BibiGPT —— Pro + Flash 双 SKU

DeepSeek 于 2026-04-24 公开 V4 Preview 阵容——V4-Pro(1.6T MoE / 49B 激活)与 V4-Flash(284B / 13B 激活)双 SKU,1M 上下文窗口,新一代 Hybrid CSA+HCA 注意力机制,Fast / Expert / Vision 三种 API 模式。BibiGPT 用户可在路由层接入后,把长视频、播客、多文档总结跑在这条 Preview 阵容上。

发布 · 2026-04-24 Pro 1.6T / Flash 284B 1M 上下文 · CSA+HCA

核心事实(90 秒速读)

截至 2026-05-08:DeepSeek 于 2026-04-24 公开 V4 Preview。一次发布两条 SKU——V4-Pro(1.6T MoE / 49B 激活)与 V4-Flash(284B / 13B 激活)——均为 1M token 上下文,均跑在新一代 Hybrid CSA + HCA 注意力之上,均通过 Fast / Expert / Vision 三种 API 模式调用。相比早期 V4 发布(单独写在 /features/deepseek-v4-1m-context-explained),V4 Preview 的新闻点是双 SKU 拆分、Hybrid CSA+HCA 注意力升级与显式三种 API 模式——而不是 1M 跳跃本身。对 BibiGPT 用户:V4-Flash 是长视频/播客总结的便宜默认档;V4-Pro 留给同一份转录上更难的推理;Vision 模式与 BibiGPT 抽帧工作流天然衔接。权威来源:api-docs.deepseek.com news260424 与 Hugging Face 的 deepseek-ai 集合。

Features

DeepSeek V4 Preview 带来什么?

2026-04-24 一次发布两条 SKU——V4-Pro 与 V4-Flash,均为 1M token 上下文,均跑在新一代 Hybrid CSA+HCA 注意力之上,均通过三种 API 模式调用。

Pro 与 Flash 双 SKU

V4-Pro 是 1.6T MoE,每 token 49B 参数激活;V4-Flash 是 284B MoE,每 token 仅 13B 激活——同样的上下文窗口、同样的注意力机制,但推理负载大幅减轻、单 token 成本只有 Pro 的零头。

Hybrid CSA + HCA 注意力

V4 Preview 用 Hybrid CSA + HCA(cross-shared attention 加 hierarchical-causal attention)替代此前 MoE-only 的注意力。混合机制设计目标是让长文档跨段语义保持连贯,而不是越接近上下文末尾越退化。

三种 API 模式——Fast / Expert / Vision

每条 Preview SKU 都暴露三种模式:Fast 偏吞吐量;Expert 偏推理质量;Vision 在同一模型上加多模态输入——一套 API、三个旋钮,调成本/质量/模态。

V4 Preview 对 BibiGPT 用户意味什么

BibiGPT 把长视频/播客变结构化笔记。V4-Flash 把 1M 上下文总结的单 token 成本砍到地板,V4-Pro 留给最难的推理跳跃,Vision 模式与画面分析工作流天然衔接——同一份上下文预算可调三档。

1M 上下文——8 小时播客一次喂完

100 万 token 足以装下一段 8 小时的会议录音、一整套多集课程或一摞相关论文,单次提示完成。BibiGPT 的分块拼接管线可塌缩为单次推理,跨段引用从一小时到八小时全部保留。

V4-Flash 解锁低成本长上下文总结

V4-Flash 每 token 只有 13B 参数激活。BibiGPT 类总结场景——长转录进、结构化大纲出——Flash 是 1M 上下文档里成本-质量最优解。Pro 留给同一份转录上更难的推理跳跃。

Vision 模式 + BibiGPT 画面分析

V4-Vision 接收截图/视频帧作为输入。BibiGPT 既有的画面分析工作流——抽取关键帧再问模型「画面里有什么」——可以在路由层接入后直接对接 V4-Vision,把帧级问答塌缩为一次推理。

5 条关键变化(90 秒速读)

DeepSeek V4 Preview 2026-04-24 发布的关键改变。

  1. 1

    Pro 与 Flash 双 SKU

    V4-Pro 1.6T MoE / 49B 激活;V4-Flash 284B / 13B 激活——上下文窗口与注意力相同,推理负载大幅减轻。Flash 做便宜长上下文总结,Pro 留给同一份转录上更难的推理。

  2. 2

    Hybrid CSA + HCA 注意力

    Cross-shared attention 加 hierarchical-causal attention 取代 V4 的 MoE-only 注意力。混合机制设计目标是在 1M token 整段上下文里保持语义连贯——这正是长视频总结最容易翻车的失败模式。

  3. 3

    三种 API 模式——Fast / Expert / Vision

    每条 Preview SKU 在同一 API 上暴露 Fast(吞吐)、Expert(推理质量)、Vision(多模态输入)。一份上下文预算,三个旋钮调成本-质量-模态。

  4. 4

    1M 上下文,8 小时播客友好

    Pro 与 Flash 均保留 V4 家族 1M token 上下文窗口。一段 8 小时会议录音或一整套多集课程一次提示装下——BibiGPT 的分块拼接管线可塌缩为单次推理,原本需要检索的内容不再分块。

  5. 5

    Hugging Face 同步开源权重

    V4 Preview 权重当周落地 Hugging Face 的 deepseek-ai 集合。隐私敏感场景可自托管——付费课程内容、内部会议录音——音频与转录无需交给第三方 API。

BibiGPT 用户的 3 个典型场景

基于真实 BibiGPT 用户画像——今天就能落地:先用 BibiGPT 抽转录,再直接调用 V4 Preview,待原生路由接入后切换。

创作者——8 小时播客一次出大纲

用 BibiGPT 抽出 8 小时播客或全天会议的转录,再把大纲与总结环节路由到 V4-Flash 的 Expert 模式。整段转录装入 1M 上下文,章节引用端到端保持连贯,没有分块拼接伪影。

学生——多集课程跨集问答

把 BibiGPT 抽出的多集讲座转录拼到一起。1M 余量下问「哪一集讲过 X?」可在 V4-Flash 上单次推理直接答出,不再依赖会丢跨集引文的外部检索索引。

进阶用户——V4-Vision 帧级画面分析

用 BibiGPT 从幻灯片演讲或图表密集视频里抽关键帧,再把帧和转录一起送给 V4-Vision。帧级问答——「第 14 页幻灯片的纵轴是什么?」——一次推理出结果,无需独立 captioner。

常见问题解答

有问题?问我们!

在 1M 上下文播客上跑 V4-Flash——从 BibiGPT 转录提取开始

BibiGPT 在 5 种语言下从 YouTube、B 站、播客 URL 抽出长转录。V4-Flash 是这一档最便宜的 1M 上下文总结点,V4-Pro 留给最难的推理,V4-Vision 配合帧级画面分析。一旦 V4 Preview 接入 BibiGPT 路由,整条工作流就能走在一条 URL 后面端到端跑通。