DeepSeek V4 Preview × BibiGPT —— Pro + Flash デュアル SKU

DeepSeek は 2026-04-24 に V4 Preview ラインナップを発表しました——V4-Pro(1.6T MoE / 49B 活性)と V4-Flash(284B / 13B 活性)のデュアル SKU、1M トークンのコンテキストウィンドウ、新世代 Hybrid CSA+HCA アテンション機構、Fast / Expert / Vision の 3 つの API モード。BibiGPT はルーティング層で取り込み次第、長尺動画・ポッドキャスト・複数文書の要約をこの Preview ラインナップに乗せます。

リリース · 2026-04-24 Pro 1.6T / Flash 284B 1M コンテキスト · CSA+HCA

重要事実(90 秒で読む)

2026-05-08 時点:DeepSeek は 2026-04-24 に V4 Preview ラインナップを公開しました。同時リリースの 2 つの SKU——V4-Pro(1.6T MoE / 49B 活性)と V4-Flash(284B / 13B 活性)——どちらも 1M トークンのコンテキストウィンドウ、新世代 Hybrid CSA + HCA アテンション、Fast / Expert / Vision の 3 つの API モード。先行 V4 リリース(/features/deepseek-v4-1m-context-explained に独立記述)と比べて、V4 Preview のニュースはデュアル SKU 分割、Hybrid CSA+HCA アテンション升级、明示的な 3 モード API——1M 跳躍そのものではありません。BibiGPT ユーザー向け:V4-Flash は長尺動画/ポッドキャスト要約の安価なデフォルト、V4-Pro は同一トランスクリプト上の難しい推論用に予約、Vision モードは BibiGPT のフレーム抽出ワークフローと自然に組み合わさります。権威ある出典:api-docs.deepseek.com news260424 と Hugging Face の deepseek-ai コレクション。

Features

DeepSeek V4 Preview で何が出荷されたか?

2026-04-24 に同時リリースされた 2 つの SKU——V4-Pro と V4-Flash。どちらも 1M トークンのコンテキスト、新世代 Hybrid CSA+HCA アテンション、3 つの API モードからアクセス可能です。

Pro と Flash のデュアル SKU

V4-Pro は 1.6T MoE で、トークンごとに 49B パラメータが発火。V4-Flash は 284B MoE で、トークンごとに 13B のみが発火——同じコンテキストウィンドウ、同じアテンション機構ながら、推論コストははるかに軽量。

Hybrid CSA + HCA アテンション

V4 Preview は従来の MoE-only アテンションを Hybrid CSA + HCA(cross-shared attention と hierarchical-causal attention)に置き換えました。長文書の意味的整合性をコンテキストの末尾でも保つよう設計されています。

3 つの API モード——Fast / Expert / Vision

各 Preview SKU は 3 つのモードを提供。Fast はスループット重視、Expert は推論品質重視、Vision は同じバックボーン上にマルチモーダル入力を追加——1 つの API、3 つのつまみでコスト・品質・モダリティを調整。

V4 Preview が BibiGPT ユーザーに意味すること

BibiGPT は長尺動画やポッドキャストを構造化ノートに変換します。V4-Flash は 1M コンテキスト要約のトークン単価を大幅に下げ、V4-Pro は最も難しい推論に充て、Vision モードは画面分析ワークフローと自然に組み合わさる——同じコンテキスト予算で 3 段階に調整可能。

1M コンテキスト——8 時間ポッドキャストを丸ごと

100 万トークンは 8 時間のカンファレンス録音、複数話のコース全体、関連論文のスタックを 1 つのプロンプトに収められます。BibiGPT のチャンク・ステッチパイプラインは単一推論に折りたたまれ、1 時間目から 8 時間目までの参照ロスが消えます。

V4-Flash で安価な長コンテキスト要約

V4-Flash はトークンごとに 13B パラメータしか発火しません。BibiGPT 流の要約ワークロード——長尺トランスクリプトを入れ、構造化アウトラインを出す——では Flash が 1M コンテキスト帯のコスト・品質最適点。Pro は同一トランスクリプト上の難しい推論に予約。

Vision モード + BibiGPT 画面分析

V4-Vision はスクリーンショットや動画フレームを入力に取ります。BibiGPT 既存の画面分析ワークフロー——動画からキーフレームを抽出してモデルに「画面に何があるか」を問う——はルーティング層接続後、V4-Vision に直接対応。フレーム単位の Q&A が 1 回の推論で完結します。

5 つの重要変化(90 秒で読む)

DeepSeek V4 Preview 2026-04-24 リリースの主要変化。

  1. 1

    Pro と Flash のデュアル SKU

    V4-Pro 1.6T MoE / 49B 活性。V4-Flash 284B / 13B 活性——コンテキストウィンドウとアテンションは同じ、推論負荷は大幅軽減。Flash は安価な長コンテキスト要約に、Pro は同一トランスクリプト上のより難しい推論に。

  2. 2

    Hybrid CSA + HCA アテンション

    Cross-shared attention と hierarchical-causal attention が V4 の MoE-only アテンションを置換。混成機構は 1M トークン全体で意味的整合性を保つよう設計——これは長尺動画要約が陥る失敗モードそのもの。

  3. 3

    3 つの API モード——Fast / Expert / Vision

    各 Preview SKU は同じ API 上で Fast(スループット)、Expert(推論品質)、Vision(マルチモーダル入力)を公開。1 つのコンテキスト予算、3 つのつまみでコスト・品質・モダリティを調整。

  4. 4

    1M コンテキスト、8 時間ポッドキャスト対応

    Pro と Flash は V4 ファミリーの 1M トークンコンテキストウィンドウを保持。8 時間のカンファレンス録音や複数話コースが 1 プロンプトに収まり、BibiGPT のチャンク・ステッチパイプラインは単一推論に折りたたみ可能。

  5. 5

    Hugging Face にオープンウェイト

    V4 Preview のチェックポイントは同週 Hugging Face の deepseek-ai コレクションに着地。プライバシー敏感なワークロード——有料コース内容、社内会議録音——で自己ホスト可能、音声やトランスクリプトを第三者 API に送る必要なし。

BibiGPT ユーザーの 3 つの典型シナリオ

実際の BibiGPT ユーザーペルソナに基づく——今日から実行可能:BibiGPT でトランスクリプトを抽出し、ネイティブルーティングが入るまで V4 Preview を直接呼び出す。

クリエイター——8 時間ポッドキャストを 1 プロンプトでアウトライン化

BibiGPT で 8 時間ポッドキャストや終日カンファレンス録音のトランスクリプトを抽出し、アウトラインと要約のステップを V4-Flash の Expert モードでルーティング。トランスクリプト全体が 1M コンテキストに収まり、チャプター参照がエンドツーエンドで整合。

学生——複数話コース横断 Q&A

BibiGPT 抽出の複数話講義トランスクリプトを連結。1M の余裕で「どの回で X を扱った?」を V4-Flash で 1 推論で直接解決——話間の引用を取りこぼす外部検索インデックス不要。

パワーユーザー——V4-Vision でフレーム単位画面分析

BibiGPT でスライド発表や図表豊富な動画からキーフレームを抽出し、フレームとトランスクリプトを V4-Vision に同送。フレーム単位 Q&A——「14 ページスライドの Y 軸は?」——が 1 推論で完結し、別途キャプショナー不要。

よくある質問

ご質問はありますか?お気軽にどうぞ!

1M コンテキストのポッドキャストで V4-Flash を実行——BibiGPT のトランスクリプト抽出から開始

BibiGPT は 5 言語で YouTube・Bilibili・ポッドキャスト URL から長尺トランスクリプトを抽出します。V4-Flash はこの帯で最安の 1M コンテキスト要約点、V4-Pro は最も難しい推論に、V4-Vision はフレーム単位画面分析に。V4 Preview が BibiGPT のルーティングに入れば、ワークフロー全体が 1 つの URL の裏でエンドツーエンドで動きます。