DeepSeek V4 Preview × BibiGPT —— Pro + Flash 雙 SKU

DeepSeek 於 2026-04-24 公佈 V4 Preview 陣容——V4-Pro(1.6T MoE / 49B 啟用)與 V4-Flash(284B / 13B 啟用)雙 SKU,1M 上下文視窗,新一代 Hybrid CSA+HCA 注意力機制,Fast / Expert / Vision 三種 API 模式。BibiGPT 使用者待路由層接入後,可把長影片、Podcast、多文件摘要跑在這條 Preview 陣容上。

發佈 · 2026-04-24 Pro 1.6T / Flash 284B 1M 上下文 · CSA+HCA

核心事實(90 秒速讀)

截至 2026-05-08:DeepSeek 於 2026-04-24 公佈 V4 Preview。一次發佈兩條 SKU——V4-Pro(1.6T MoE / 49B 啟用)與 V4-Flash(284B / 13B 啟用)——皆為 1M token 上下文,皆跑在新一代 Hybrid CSA + HCA 注意力之上,皆透過 Fast / Expert / Vision 三種 API 模式呼叫。相比早期 V4 發佈(單獨寫在 /features/deepseek-v4-1m-context-explained),V4 Preview 的新聞點是雙 SKU 拆分、Hybrid CSA+HCA 注意力升級與顯式三種 API 模式——而不是 1M 跳躍本身。對 BibiGPT 使用者:V4-Flash 是長影片/Podcast 摘要的便宜預設檔;V4-Pro 留給同一份轉錄上更難的推理;Vision 模式與 BibiGPT 抽幀工作流天然銜接。權威來源:api-docs.deepseek.com news260424 與 Hugging Face 的 deepseek-ai 集合。

Features

DeepSeek V4 Preview 帶來什麼?

2026-04-24 一次發佈兩條 SKU——V4-Pro 與 V4-Flash,皆為 1M token 上下文,皆跑在新一代 Hybrid CSA+HCA 注意力之上,皆透過三種 API 模式呼叫。

Pro 與 Flash 雙 SKU

V4-Pro 是 1.6T MoE,每 token 啟用 49B 參數;V4-Flash 是 284B MoE,每 token 僅啟用 13B——上下文視窗相同、注意力機制相同,但推理負載大幅減輕,每 token 成本只有 Pro 的零頭。

Hybrid CSA + HCA 注意力

V4 Preview 用 Hybrid CSA + HCA(cross-shared attention 加 hierarchical-causal attention)取代過往 MoE-only 的注意力。混合機制設計目標是讓長文件跨段語意保持連貫,而不是越接近上下文末尾越退化。

三種 API 模式——Fast / Expert / Vision

每條 Preview SKU 都暴露三種模式:Fast 偏吞吐量;Expert 偏推理品質;Vision 在同一模型上加多模態輸入——一套 API、三個旋鈕,調成本/品質/模態。

V4 Preview 對 BibiGPT 使用者意味什麼

BibiGPT 把長影片/Podcast 變成結構化筆記。V4-Flash 把 1M 上下文摘要的每 token 成本砍到地板,V4-Pro 留給最難的推理跳躍,Vision 模式與畫面分析工作流天然銜接——同一份上下文預算可調三檔。

1M 上下文——8 小時 Podcast 一次餵完

100 萬 token 足以裝下一段 8 小時的會議錄音、一整套多集課程或一摞相關論文,單次提示完成。BibiGPT 的分塊拼接管線可塌縮為單次推理,跨段引用從一小時到八小時全部保留。

V4-Flash 解鎖低成本長上下文摘要

V4-Flash 每 token 只有 13B 參數啟用。BibiGPT 類摘要場景——長轉錄進、結構化大綱出——Flash 是 1M 上下文檔裡成本-品質最佳解。Pro 留給同一份轉錄上更難的推理跳躍。

Vision 模式 + BibiGPT 畫面分析

V4-Vision 接收截圖/影片幀作為輸入。BibiGPT 既有的畫面分析工作流——抽出關鍵幀再問模型「畫面裡有什麼」——可在路由層接入後直接對接 V4-Vision,把幀級問答塌縮為一次推理。

5 條關鍵變化(90 秒速讀)

DeepSeek V4 Preview 2026-04-24 發佈的關鍵改變。

  1. 1

    Pro 與 Flash 雙 SKU

    V4-Pro 1.6T MoE / 49B 啟用;V4-Flash 284B / 13B 啟用——上下文視窗與注意力相同,推理負載大幅減輕。Flash 做便宜長上下文摘要,Pro 留給同一份轉錄上更難的推理。

  2. 2

    Hybrid CSA + HCA 注意力

    Cross-shared attention 加 hierarchical-causal attention 取代 V4 的 MoE-only 注意力。混合機制設計目標是在 1M token 整段上下文裡保持語意連貫——這正是長影片摘要最容易翻車的失敗模式。

  3. 3

    三種 API 模式——Fast / Expert / Vision

    每條 Preview SKU 在同一 API 上暴露 Fast(吞吐)、Expert(推理品質)、Vision(多模態輸入)。一份上下文預算,三個旋鈕調成本-品質-模態。

  4. 4

    1M 上下文,8 小時 Podcast 友善

    Pro 與 Flash 皆保留 V4 家族 1M token 上下文視窗。一段 8 小時會議錄音或一整套多集課程一次提示裝下——BibiGPT 的分塊拼接管線可塌縮為單次推理,原本需要檢索的內容不再分塊。

  5. 5

    Hugging Face 同步開源權重

    V4 Preview 權重當週落地 Hugging Face 的 deepseek-ai 集合。隱私敏感場景可自架——付費課程內容、內部會議錄音——音訊與轉錄無需交給第三方 API。

BibiGPT 使用者的 3 個典型場景

基於真實 BibiGPT 使用者畫像——今天就能落地:先用 BibiGPT 抽轉錄,再直接呼叫 V4 Preview,待原生路由接入後切換。

創作者——8 小時 Podcast 一次出大綱

用 BibiGPT 抽出 8 小時 Podcast 或全天會議的轉錄,再把大綱與摘要環節路由到 V4-Flash 的 Expert 模式。整段轉錄裝入 1M 上下文,章節引用端到端保持連貫,沒有分塊拼接偽影。

學生——多集課程跨集問答

把 BibiGPT 抽出的多集講座轉錄拼到一起。1M 餘量下問「哪一集講過 X?」可在 V4-Flash 上單次推理直接答出,不再依賴會丟跨集引文的外部檢索索引。

進階使用者——V4-Vision 幀級畫面分析

用 BibiGPT 從投影片演講或圖表密集影片裡抽關鍵幀,再把幀和轉錄一起送給 V4-Vision。幀級問答——「第 14 頁投影片的縱軸是什麼?」——一次推理出結果,無需獨立 captioner。

常見問題

歡迎提問!

在 1M 上下文 Podcast 上跑 V4-Flash——從 BibiGPT 轉錄擷取開始

BibiGPT 在 5 種語言下從 YouTube、Bilibili、Podcast URL 抽出長轉錄。V4-Flash 是這一檔最便宜的 1M 上下文摘要點,V4-Pro 留給最難的推理,V4-Vision 配合幀級畫面分析。一旦 V4 Preview 接入 BibiGPT 路由,整條工作流就能走在一條 URL 後面端到端跑通。