DeepSeek-V4 来啦!BibiGPT 当天上线 4 款新模型 + 1M 上下文,AI 音视频总结体验再升级

DeepSeek-V4 预览版今日开源,1M 超长上下文 + Agent 能力直追 Sonnet 4.5。BibiGPT 已第一时间完成 V4 Pro / Pro Thinking / Flash / Flash Thinking 四款新模型的接入,你现在就可以在模型选择器里把它们用起来。本文同步发出上手笔记:怎么切换、在哪些场景表现更好、以及 BibiGPT 在它之上叠加的长内容处理能力。

BibiGPT 团队

DeepSeek-V4 来啦!BibiGPT 当天上线 4 款新模型 + 1M 上下文,AI 音视频总结体验再升级

今天(2026 年 4 月 24 日),DeepSeek-V4 预览版正式发布并同步开源——百万 token 上下文成为标配,Agent 能力直追 Sonnet 4.5。BibiGPT 已经第一时间完成接入,DeepSeek V4 Pro、V4 Pro Thinking、V4 Flash、V4 Flash Thinking 四款新模型现在可以直接在模型选择器里选用,适合处理一整部纪录片、一场两小时的访谈、或者一整季的播客。

我们也在第一时间用几个真实场景跑了一遍,这篇是同步整理的上手记录,供有同类使用需求的朋友参考。

BibiGPT 总结模型列表中的 DeepSeek V4 系列四款新模型BibiGPT 总结模型列表中的 DeepSeek V4 系列四款新模型

目录

DeepSeek-V4 这次改了什么

DeepSeek-V4 一次升级同时动了三个关键维度,每一项都值得单独说。

第一,1M 上下文成为所有官方服务的标配。 新的注意力机制在 token 维度做压缩,再配上 DSA 稀疏注意力(DeepSeek Sparse Attention),显存与算力消耗被大幅压下来。换句话说,投入一小时视频的字幕不再需要「分段再拼接」那套流程,模型可以当成一整段内容一次性理解。

第二,Agent 能力迈上一个台阶。 按 DeepSeek 自己的测评,V4-Pro 在 Agentic Coding 上已达到当前开源模型最佳水平,交付质量接近 Opus 4.6 非思考模式,他们内部也已经把它作为默认编码模型在使用。对普通用户来说,意味着长文本的结构化处理——划章节、抽要点、生成导图——稳定度有了明显提升。

第三,Pro 与 Flash 双版本互补。 Pro(1.6T 参数 / 49B 激活 / 33T 预训练)对标顶级闭源模型,Flash(284B / 13B / 32T)更偏重性价比,两者都支持思考与非思考模式,思考模式还支持 reasoning_effort 调节。简单任务上 Flash,硬核任务上 Pro,两边的使用体验都相当扎实。

DeepSeek V4 Pro 与 V4 Flash 官方规格对比表DeepSeek V4 Pro 与 V4 Flash 官方规格对比表

详细的 blog 原文可以参考 DeepSeek 官方公众号的这篇:《DeepSeek-V4 预览版:迈入百万上下文普惠时代》。模型权重可以在 Hugging Face 的 DeepSeek V4 合集(Pro / Pro-Base / Flash / Flash-Base 四个 repo)下载,技术报告可以直接看 DeepSeek_V4.pdf

BibiGPT 同步上线的四款 DeepSeek V4 模型

打开任意视频或音频的总结设置,在模型选择器里搜索 deepseek,可以看到四个带 New 标签的新条目:

在 BibiGPT 模型选择器中搜索 deepseek,顶部四条新条目即为 V4 全系列在 BibiGPT 模型选择器中搜索 deepseek,顶部四条新条目即为 V4 全系列

模型定位思考模式
DeepSeek V4 Pro顶级性能,高质量结论与长逻辑链的首选非思考
DeepSeek V4 Pro ThinkingV4 Pro + 显式推理,Agent 与深度分析任务首选思考
DeepSeek V4 Flash性价比优先,日常短内容非思考
DeepSeek V4 Flash ThinkingFlash + 推理,速度与深度的平衡版本思考

怎么挑? 可以参考这个简单的决策规则:

  • 内容较长(1 小时以上的纪录片、整季播客、长访谈)→ 选 Pro 或 Pro Thinking,配合深度推理更稳
  • 内容较短(30 分钟以内的会议、日常 Vlog)→ 选 Flash,更快且更经济
  • 希望 AI 分步推理、对比观点、给出更深分析 → 选 Thinking 版本
  • 只需要干净的摘要、不需要思考过程 → 选非思考版本

如果不想仔细比较,可以先从 V4 Pro Thinking 开始——它在大多数长内容场景都能给出稳定表现。

三步切换到 DeepSeek V4

BibiGPT 首页「默认模型」入口BibiGPT 首页「默认模型」入口

  1. 打开 BibiGPT,把 YouTube / B 站 / 播客 / 本地文件的链接贴进输入框
  2. 点击输入框下方的「默认模型」,在搜索框里输入 deepseek
  3. 从四个 New 条目里选一款,点击「一键总结」

选好的模型会在下一次打开时保留。如果你是重度用户,建议把 V4 Pro Thinking 设为自定义总结置顶默认,之后任意视频都会走它处理。

想在正式切换模型之前先感受一下 BibiGPT 的总结效果?在下面的组件里直接贴一个链接就可以:

试试粘贴你的视频链接

支持 YouTube、B站、抖音、小红书等 30+ 平台

+30

实战:用 DeepSeek V4 Pro 总结 DeepSeek 自己的发布视频

我们第一件事就是用 V4 Pro 跑了一遍 DeepSeek 自己的发布视频。约一分半的短片,开启思考模式后,模型把它切成 7 个结构化章节,每一章都带摘要、亮点、思考与批判性反思。

BibiGPT 用 DeepSeek V4 Pro 总结 DeepSeek V4 官宣视频的界面BibiGPT 用 DeepSeek V4 Pro 总结 DeepSeek V4 官宣视频的界面

几个值得提一下的细节:

  • 事实覆盖完整:DeepSeek 发布中的五大亮点(百万上下文普惠化、Agent 能力跃升、世界知识领先、双版本灵活、Agent 生态适配)全部准确复现,参数数字也没有错乱
  • 结论可追溯:每一条结论都挂有可点击的时间戳,直接跳回视频的对应片段
  • 自动延伸:摘要下方会自动生成延伸问题(「两个 V4 版本有什么区别?」「如何通过 API 调用?」),点开即可继续深入对话

这里的提升主要来自 思考模式 带来的深度推理。BibiGPT 本身在各主流模型上都默认走长上下文路径,V4 的加入让开源阵营也能在「深度推理 + 稳定覆盖全文」这条线上提供第一梯队的体验。

看看 BibiGPT 的 AI 总结效果

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

了解GPT4如何改变工作方式的深度科普视频

总结

本视频深入浅出地科普了ChatGPT的底层原理、三阶段训练过程及其涌现能力,并探讨了大型语言模型对社会、教育、新闻和内容生产等领域的深远影响。作者强调,ChatGPT的革命性意义在于验证了大型语言模型的可行性,预示着未来将有更多更强大的模型普及,从而改变人类群体协作中知识的创造、继承和应用方式,并呼吁个人和国家积极应对这一技术浪潮。

亮点

  • 💡 核心原理揭秘: ChatGPT的本质功能是"单字接龙",通过"自回归生成"来构建长篇回答,其训练旨在学习举一反三的通用规律,而非简单记忆,这使其与搜索引擎截然不同。
  • 🧠 三阶段训练: 大型语言模型经历了"开卷有益"(预训练)、"模板规范"(监督学习)和"创意引导"(强化学习)三个阶段,使其从海量知识的"懂王鹦鹉"进化为既懂规矩又会试探的"博学鹦鹉"。
  • 🚀 涌现能力: 当模型规模达到一定程度时,会突然涌现出理解指令、理解例子和思维链等惊人能力,这些是小模型所不具备的。
  • 🌍 社会影响深远: 大型语言模型将极大提升人类群体协作中知识处理的效率,其影响范围堪比电脑和互联网,尤其对教育、学术、新闻和内容生产行业带来颠覆性变革。
  • 🛡️ 应对未来挑战: 面对技术带来的混淆、安全风险和结构性失业等问题,个人应克服抵触心理,重塑终身学习能力;国家则需自主研发大模型,并推动教育改革和科技伦理建设。

#ChatGPT #大型语言模型 #人工智能 #未来工作流 #终身学习

思考

  1. ChatGPT与传统搜索引擎有何本质区别?
    • ChatGPT是一个生成模型,它通过学习语言规律和知识来“创造”新的文本,其结果是根据模型预测逐字生成的,不直接从数据库中搜索并拼接现有信息。而搜索引擎则是在庞大数据库中查找并呈现最相关的内容。
  2. 为什么说大语言模型对教育界的影响尤其强烈?
    • 大语言模型能够高效地继承和应用既有知识,这意味着未来许多学校传授的知识,任何人都可以通过大语言模型轻松获取。这挑战了以传授既有知识为主的现代教育模式,迫使教育体系加速向培养学习能力和创造能力转型,以适应未来就业市场的需求。
  3. 个人应该如何应对大语言模型带来的社会变革?
    • 首先,要克服对新工具的抵触心理,积极拥抱并探索其优点和缺点。其次,必须做好终身学习的准备,重塑自己的学习能力,掌握更高抽象层次的认知方法,因为未来工具更新换代会越来越快,学习能力将是应对变革的根本。

术语解释

  • 单字接龙 (Single-character Autoregressive Generation): ChatGPT的核心功能,指模型根据已有的上文,预测并生成下一个最有可能的字或词,然后将新生成的字词与上文组合成新的上文,如此循环往复,生成任意长度的文本。
  • 涌现能力 (Emergent Abilities): 指当大语言模型的规模(如参数量、训练数据量)达到一定程度后,突然展现出在小模型中未曾察觉到的新能力,例如理解指令、语境内学习(理解例子)和思维链推理等。
  • 预训练 (Pre-training): 大语言模型训练的第一阶段,通常称为“开卷有益”,模型通过对海量无标注文本数据进行单字接龙等任务,学习广泛的语言知识、世界信息和语言规律。
  • 监督学习 (Supervised Learning): 大语言模型训练的第二阶段,通常称为“模板规范”,模型通过学习人工标注的优质对话范例,来规范其回答的对话模式和内容,使其符合人类的期望和价值观。
  • 强化学习 (Reinforcement Learning): 大语言模型训练的第三阶段,通常称为“创意引导”,模型根据人类对它生成答案的评分(奖励或惩罚)来调整自身,以引导其生成更具创造性且符合人类认可的回答。

想要总结你自己的视频?

BibiGPT 支持 YouTube、B站、抖音等 30+ 平台,一键获得 AI 智能总结

免费试用 BibiGPT

这几个场景,切到 V4 会直接生效

开源模型一家接一家发,有人可能会问:直接在 DeepSeek 官网或者自己接 API 就能用 V4,为什么还要经过 BibiGPT?

原因在于场景。DeepSeek 官网本身是一个通用聊天框,需要你自己把视频下载、转写、粘贴、再思考怎么提问。BibiGPT 做的事情比较纯粹:把长视频和播客变得像阅读文章一样好消化。V4 是最新加进来的一块能力,真正让「粘一个链接就能深度理解一段音视频」跑通的,是我们在模型之外已经打磨多年的产品能力。

在 BibiGPT 的现有能力里,以下几个场景直接跟随你在「默认模型」里选中的模型——换句话说,一旦切到 DeepSeek V4,这些能力就是在用 V4 运行。

📝 视频总结(默认总结 + 自定义总结)

视频粘进来之后最常用的那一下——「一键总结」本身就是用你当前选中的模型生成的。如果你保存过自定义 Prompt(比如「反常识专家」「批判性思考」「投资分析」等),它们也会走同一个模型。切到 DeepSeek V4 Pro Thinking,同一个视频、同一条 Prompt 再跑一次,就可以直接对比推理链和结构化这两块的变化——这一块我们自己也还在持续体验,欢迎你先跑起来,看看结果是否更贴合你的使用预期。

BibiGPT 自定义总结:切换模型后可直接对比同一条 Prompt 的分析深度BibiGPT 自定义总结:切换模型后可直接对比同一条 Prompt 的分析深度

🎯 AI 视频对话与智能溯源

视频详情页下方的「聊天窗口」也跟着默认模型走。每一条答案都附带可点击的时间戳——比如「他在 1:12:30 提到过相反的观点」,一点就能精准跳到那一秒。建议你切到 V4 之后,挑一段 1 小时以上的访谈连着问几轮追问,这是一个很容易感受到不同模型差异的场景,值得亲自跑一次。

AI 视频对话与智能溯源:答案挂时间戳,可点击跳转AI 视频对话与智能溯源:答案挂时间戳,可点击跳转

🔖 AI 高光笔记

自动从视频里挑出带时间戳的高光片段并按主题聚类,这个过程同样走默认模型。如果你过去已经用其他模型给某个视频生成过高光笔记,现在切到 V4 再生成一次,对比一下「哪些被挑成高光」「主题是怎么聚类的」——差异是否明显、是否更合你口味,直接比一比就清楚。

AI 高光笔记:自动挑出视频中的高光片段并分类展示AI 高光笔记:自动挑出视频中的高光片段并分类展示

上面三个场景都是我们目前仍在持续体验 V4 表现的地方——不同内容、不同 Prompt、不同语言下的效果可能都有差异,结论这事最可靠的办法还是在你自己的日常工作流里多跑几次。

另外,画面内容分析走的是视觉模型、视频转图文文章有固定的管线,这些场景目前不会因默认模型的切换而变化,不在本次的对比范围内。

BibiGPT 至今已服务 100 万+ 用户,累计生成 500 万+ AI 总结。这些规模让我们在接入新模型时能更快地把它对上真实的用户场景,而不是停留在 benchmark 对比层面。

AI 时代,真正稀缺的不是模型,是消费内容的速度

2026 年的 AI 模型已经像自来水一样——DeepSeek V4、Gemini 3.1 Pro、Claude Opus 4.6,谁都能调。模型本身不再稀缺。

那什么变成稀缺了?把信息消化成观点、再转化为行动的速度。

音视频是互联网上信息密度最低、消耗时间最长的载体。一场两小时的访谈,文字转下来 8000 字,真正值得记住的结论可能只有 300 字;一整季播客 30 小时,长期被引用的观点也许只有 20 条。过去大家只能 1.5 倍速、2 倍速去扛,用注意力换取密度。大模型能力爆发之后,这笔账可以重新算了:

  • 不必被动听完,主动提问即可——只问关心的点,模型从字幕中定位答案
  • 不必看完再判断,先读摘要再决定要不要深入
  • 不必一个视频接一个视频地翻,直接跨视频检索——「订阅的博主里谁讨论过这个话题」一次搜出来

BibiGPT 做的事情只有一件:把最好的大模型接到「消费音视频」这个最大但最难啃的场景里,让每个人都能把 2 小时的视频压成 15 分钟的高密度阅读。DeepSeek V4 的加入让这件事又多了一个可靠的选项。

常见问题(FAQ)

Q1:DeepSeek V4 Pro 和 V4 Pro Thinking 有什么区别?

核心区别是「是否显式推理」。非思考模式延迟更低、输出更短,适合干净的摘要;思考模式会先生成一段推理链,适合多步逻辑、跨章节对比、论证推演等任务。思考模式还可以通过 reasoning_effort=high/max 调节深度,越深越慢但也越细致。

Q2:我应该选 V4 Pro 还是 V4 Flash?

可以用「长度 × 推理复杂度」来判断:1 小时以上、或需要多步推演的内容建议 Pro;30 分钟以内、只需要干净摘要的日常视频 Flash 已经足够。拿不准时可以先用 Flash,不够满意再切到 Pro——BibiGPT 会缓存原始字幕,重新总结不会重复转写。

Q3:为什么要经过 BibiGPT 而不是直接用 DeepSeek 官网?

DeepSeek 官网是通用聊天框,需要你自己完成视频下载 → 语音转写 → 粘贴 → 提问的全过程。BibiGPT 已经把前置的处理环节(30+ 平台链接解析、转录、画面识别、时间戳对齐)完成好,DeepSeek V4 只需要负责最后一公里的理解与生成。同一份输入,你还能额外拿到思维导图、高光笔记、图文文章、结构化导出等产物,不需要再自己拼接。

Q4:DeepSeek V4 能处理多长的视频?

V4 Pro 与 Flash 都是 1M token 上下文,中文大约对应 150 万字,相当于 20 小时的对话内容,或是一整季的长播客。BibiGPT 会根据模型的有效上下文自动决定是做整体总结还是分段之后再合并。

Q5:DeepSeek V4 的权重开源吗?

完全开源。权重在 Hugging Face deepseek-ai/deepseek-v4 与 ModelScope,技术报告可以直接打开 DeepSeek_V4.pdf 阅读。需要自行研究或部署的用户可以按自己的节奏下载。

现在就体验 V4

感受 V4 最直接的方式:挑一条你最近本来就想认真看一遍的长视频——一场讲座、一期播客、一部纪录片都行——选上 DeepSeek V4 Pro Thinking 跑一次,看看 V4 在你关心的内容上是什么手感。

立即访问 BibiGPT 官网,开启你的 AI 高效学习之旅:

BibiGPT 团队