BibiGPT AI视频总结工具实测:7 大能力在线交互体验

实测 BibiGPT 的 7 大 AI 视频处理能力——在线体验视频识别、AI 总结、字幕提取、章节拆分、思维导图、AI 改写和可视化信息图,粘贴链接即可试用。

BibiGPT Team

BibiGPT AI视频总结工具实测:7 大能力在线交互体验

收藏了一堆 B站教程、YouTube 课程和播客节目,回看率不到 10%?你需要的不是更多收藏夹,而是一个能把视频直接变成可用知识的工具。

BibiGPT 不只是一个"视频总结工具"——它能对同一个视频做 7 种不同的 AI 处理,从字幕提取到信息图生成,覆盖从"获取信息"到"输出内容"的完整链路。

下面每个模块都是可交互的真实 demo,点击就能体验,不用注册,不用安装。

1. 粘贴链接,即时识别

你有没有这种经历:找到一个不错的视频,想用工具处理一下,结果发现不支持这个平台?

BibiGPT 支持 YouTube、B站、抖音、小红书、播客、Twitter/X 等 30+ 平台。粘贴链接后自动识别平台类型、提取标题封面和时长信息——通常 1 秒内完成。

试试粘贴你自己的链接看看效果:

试试粘贴你的视频链接

支持 YouTube、B站、抖音、小红书等 30+ 平台

+30

2. AI 智能总结

这是大多数人用 BibiGPT 做的第一件事:把一个 30 分钟的视频变成 30 秒能读完的结构化摘要

AI 会自动识别视频的核心论点,生成包括关键要点、高亮标记和追问问题在内的完整总结。不同类型的内容——科技测评、课程讲座、播客访谈——会有针对性的总结风格。

切换下面的示例,感受不同平台内容的总结效果:

看看 BibiGPT 的 AI 总结效果

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

了解GPT4如何改变工作方式的深度科普视频

总结

本视频深入浅出地科普了ChatGPT的底层原理、三阶段训练过程及其涌现能力,并探讨了大型语言模型对社会、教育、新闻和内容生产等领域的深远影响。作者强调,ChatGPT的革命性意义在于验证了大型语言模型的可行性,预示着未来将有更多更强大的模型普及,从而改变人类群体协作中知识的创造、继承和应用方式,并呼吁个人和国家积极应对这一技术浪潮。

亮点

  • 💡 核心原理揭秘: ChatGPT的本质功能是"单字接龙",通过"自回归生成"来构建长篇回答,其训练旨在学习举一反三的通用规律,而非简单记忆,这使其与搜索引擎截然不同。
  • 🧠 三阶段训练: 大型语言模型经历了"开卷有益"(预训练)、"模板规范"(监督学习)和"创意引导"(强化学习)三个阶段,使其从海量知识的"懂王鹦鹉"进化为既懂规矩又会试探的"博学鹦鹉"。
  • 🚀 涌现能力: 当模型规模达到一定程度时,会突然涌现出理解指令、理解例子和思维链等惊人能力,这些是小模型所不具备的。
  • 🌍 社会影响深远: 大型语言模型将极大提升人类群体协作中知识处理的效率,其影响范围堪比电脑和互联网,尤其对教育、学术、新闻和内容生产行业带来颠覆性变革。
  • 🛡️ 应对未来挑战: 面对技术带来的混淆、安全风险和结构性失业等问题,个人应克服抵触心理,重塑终身学习能力;国家则需自主研发大模型,并推动教育改革和科技伦理建设。

#ChatGPT #大型语言模型 #人工智能 #未来工作流 #终身学习

思考

  1. ChatGPT与传统搜索引擎有何本质区别?
    • ChatGPT是一个生成模型,它通过学习语言规律和知识来“创造”新的文本,其结果是根据模型预测逐字生成的,不直接从数据库中搜索并拼接现有信息。而搜索引擎则是在庞大数据库中查找并呈现最相关的内容。
  2. 为什么说大语言模型对教育界的影响尤其强烈?
    • 大语言模型能够高效地继承和应用既有知识,这意味着未来许多学校传授的知识,任何人都可以通过大语言模型轻松获取。这挑战了以传授既有知识为主的现代教育模式,迫使教育体系加速向培养学习能力和创造能力转型,以适应未来就业市场的需求。
  3. 个人应该如何应对大语言模型带来的社会变革?
    • 首先,要克服对新工具的抵触心理,积极拥抱并探索其优点和缺点。其次,必须做好终身学习的准备,重塑自己的学习能力,掌握更高抽象层次的认知方法,因为未来工具更新换代会越来越快,学习能力将是应对变革的根本。

术语解释

  • 单字接龙 (Single-character Autoregressive Generation): ChatGPT的核心功能,指模型根据已有的上文,预测并生成下一个最有可能的字或词,然后将新生成的字词与上文组合成新的上文,如此循环往复,生成任意长度的文本。
  • 涌现能力 (Emergent Abilities): 指当大语言模型的规模(如参数量、训练数据量)达到一定程度后,突然展现出在小模型中未曾察觉到的新能力,例如理解指令、语境内学习(理解例子)和思维链推理等。
  • 预训练 (Pre-training): 大语言模型训练的第一阶段,通常称为“开卷有益”,模型通过对海量无标注文本数据进行单字接龙等任务,学习广泛的语言知识、世界信息和语言规律。
  • 监督学习 (Supervised Learning): 大语言模型训练的第二阶段,通常称为“模板规范”,模型通过学习人工标注的优质对话范例,来规范其回答的对话模式和内容,使其符合人类的期望和价值观。
  • 强化学习 (Reinforcement Learning): 大语言模型训练的第三阶段,通常称为“创意引导”,模型根据人类对它生成答案的评分(奖励或惩罚)来调整自身,以引导其生成更具创造性且符合人类认可的回答。

想要总结你自己的视频?

BibiGPT 支持 YouTube、B站、抖音等 30+ 平台,一键获得 AI 智能总结

免费试用 BibiGPT

3. 字幕提取与时间戳

写论文需要精确引用视频某一句话?做笔记想知道某个概念在视频哪个时刻讲的?

BibiGPT 会提取完整字幕并标注每一行的时间戳。不只是 YouTube 的内嵌字幕——即使原视频没有字幕,AI 也会通过语音识别自动生成。

AI 字幕提取预览

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

了解GPT4如何改变工作方式的深度科普视频

0:00大家好,我是建构社群的YJango。这个视频是关于ChatGPT的一个足以影响整个人类社会的技术,但它没有对国内开放通用媒体又缺少相应的知识。所以我觉得我有义务做一个视频向普通大众全面科普一下chat gp的原理,并提供一个视角让大家意识到它为何如此重要,让那些没有机会了解这件事的人也能应对即将到来的变革。接下来,我将抛开技术细节,少用专有名词,在整体功能上讲解chat gp的工作原理、制造过程、涌现的能力、未来的影响以及如何应对,让大家明白ChatGPT是如何回答问题的,它是怎么被制造的,为什么它不是搜索引擎?它有哪些惊人能力?为什么它不是聊天机器人?
2:38影响chat gp生成结果的因素主要有两个,除了上文外,另一个就是它的模型本身,模型就相当于chat gp的大脑,即使把同一个上文送给不同的模型,也会生成不同的结果。就好比这两只鹦鹉同样是听到我这个上文,一只会接是另一只会接爱。因为两只鹦鹉的主人一人教的是我是一只小小鸟。另一任人教的是,我爱你中国,我爱。为了让chat gbt t生成我们想要的结果,而非胡乱生成,就需要提前训练ChatGPT t的大脑,也就是训练它的模型,训练方式是让它遵照所给的学习材料来做单词接容。通过不断调整模型,使得给模型学习材料的上文后,模型能生成对应的下一个字。
7:10很多人都会错误的认为,ChatGPT是搜索引擎的升级版,是在庞大的数据库中通过超高的运算速度找到最接近的内容,然后进行一些比对和拼接,最终给出结果,但实际上ChatGPT并不具备那种搜索能力。因为在训练过程中,学习材料并没有被保存在模型中,学习材料的作用只是调整模型以得到通用模型。为的是能处理未背数据库记忆的情况,所有结果都是通过所学到的模型根据上文逐字生成的,因此ChatGPT也被称为生成模型。生成模型与搜索引擎非常不同,搜索引擎无法给出每位数据库记忆的信息,但生成语言模型可疑,还能创造不存在的文本,这正是它的长板,但它却有些搜索引擎没有的短板。
8:07首先就是搜索引擎不会混淆记忆,但它有可能为了应对未被记忆的情况。他会学习语言单位之间的规律,用学到的规律来生成答案。然而这也意味着,如果出现了实际不同,但碰巧符合同一规律的内容,模型就有可能混淆它。最直接的结果是,若现实中不存在的内容刚好符合他从训练材料中学到的规律,那ChatGPT就有可能对不存在的内容进行合乎规律的混合捏造。例如,我问他,三体人为什么害怕大脸猫的威慑,62年都不敢殖民地球?这个问题并不存在,但又刚好符合他曾训练过的科幻材料中的规律。于是他就用科幻材料中所学到的规律开始混合捏造。
9:05这也是为什么当有人问他事实性内容时,可能会看到他胡说八道,另一个问题是他的内容无法被直接增生改查。不论是ChatGPT t所记忆的信息,还是所学到的规律,都是以同一个模型的形式来表达的,因此我们无法像操作数据库那样对这些内容直接进行增删改查,就会导致两个具体问题,第一,由于我们很难理解它所见过的规律,又无法直接查看他记住了什么,学到了什么。只能通过多次提问来评估和猜测他的所记所学,其决策缺乏可解释性,这难免会在使用时带来安全风险。第二,由于只能通过再次训练模型来增加、删除或修改它的所记所学,这难免在更新时会降低效率。
10:02例如对于他编造大脸猫的毛病,无法通过直接修改它的回答来校正,只能通过再训练它做三体人为什么害怕大脸猫的威慑?三体人和大脸猫无关的单字接龙来调整模型,可这样调整后的效果如何,是否会矫枉过正或者引入其他问题,又得通过多次提问来评估,容易顾此失彼,效率低下。还有一个特点是ChatGPT高度依赖数据,也就是学习材料,想要让ChatGPT能应对无数未见情况,就必须提供数量足够多、种类足够丰富、质量足够高的学习材料,否则它将无法学到通用规律,给出的回答将会是以偏概全的。
10:49此外,ChatGPT可能存在的湖边和混淆也需要用优质的学习材料来修正,所以学习材料非常重要。之前的古诗提问倘若真的仅有三个例子,那ChatGPT其实也学不到什么通用规律,无法对他没见过的提问做出合理回答,更别提去应对用户的无数奇怪问法了。总结一下,目前为止,视频讲了ChatGPT的实质功能是单字接龙。长文由单字接龙的自回归所声称通过提前训练才能让它生成人们想要的回答,训练方式是让它按照问答范文来做单词接龙,这样训练是为了让他学会能举一反三的规律。缺点是可能混淆记忆,无法直接查看和更新所学,且高度依赖学习材料。
11:43但你看到这里可能会想,它也并没有什么特别之处啊,哪有网上说的那么玄乎,基础结构都很简单,为何能火爆到今天这种程度还要影响整个社会。别急,上面只是GPT的基础原理,还不是ChatGPT,接下来将介绍ChatGPT在此基础上的三个训练阶段。看看这种简单的结构被扩展至超大规模,再加上人类引导后,究竟能涌现出何等能力。让机器理解人类语言的一大难点在于,同一个意思可以有多种不同的表达形式,可以用一个词,也可以用一段描述,而同一个表达在不同语境中又有不同含义。想解决这个问题,就需要让机器学会各种语义关系和语法规律,以便能明白哪些表达实际上是同一个意思。
12:37对此,GPT t的办法是让模型看到尽可能多、尽可能丰富的语言范例,也就是学习材料,使其有更多机会建构出能举一反三的语言规律,来应对无数从未见过的语言。我把这一阶段称为开阵有益,G P T中的G代表生成,T代表一种模型结构,而P代表的就是开骏有益这一步,专业名称叫预训练开卷友谊。就好比在鹦鹉旁边放一台电视机,把各种新闻、国产剧、国外剧、广告、综艺等内容都播给他听,让他自己学,不用人看着。那给他开卷多少才够呢?关于这一点,不妨回顾一下历史。其实研发ChatGPT的公司OpenAI之前还做过几代模型,基本结构大同小异。
13:26我们且不看其他的改进,仅对比一下规模。2018年6月,OpenAI训练了G P 1 gp 1的学习材料,约5GB这里一M B能存30到50万汉字,而一G B是1024MB GPT一的参数是1.17亿,参数反映着模型大小,参数越多,模型能建构的规律就越复杂,能记忆的信息和学习的知识也就越多,相当于是大脑中神经突出的数量,高中的直线斜截式方程就两个参数,而它有一亿多个。不过,GPT t一在一些任务的表现上不如后来的Bert,Bert也是一种生成语言模型,不同点在于GPT t的学习方式是单字接龙,而Bert的学习方式是完形填空。
14:16到了2019年2月,OpenAI又训练了GPT二学习材料约40GB,是第一代的八倍,最大模型参数为15亿,是第一代的13倍,效果有很大提升,但反响并不轰动,可在2020年5月,GPT三出来最大模型参数到了1750亿,是第二代的116倍。所使用的学习数据更是达到了45TB,是第二代的1125倍,其中包含了维基百科书籍、新闻、博客、贴子、代码等各种人类语言材料,已经和前两代不是一个量级的,也被称为超大语言模型。到了此种规模的GPT 3,就轻松学会了各种单词搭配、语法规则,能明白同一个意思,不同表达,还学会了编程语言以及不同语言之间的关系,可以给出高质量的外语翻译,还能把我们的口语转换成代码。
23:27我把这一阶段称为创意引导ChatGPT正是在gp t 3.5的基础上,先后经历了开卷有益、模板规范和创意引导三个阶段的训练后得到的。生成语言模型。这三个阶段的专业称呼分别为无监督学习、监督学习和强化学习。可以说ChatGPT把机器学习中的几大训练模式都用到了。总结一下,本章讲了ChatGPT的三个训练阶段。开卷有益阶段,让ChatGPT对海量互联网文本做单词接龙,以扩充模型的词汇量、语言知识世界的信息与知识,使chat gt从哑巴鹦鹉变成了脑容量超级大的懂王鹦鹉。
24:57它是怎么被制造的?为什么不是搜索引擎?它有哪些惊人的能力?为什么不只是聊天机器人?许多人会注意到,像比尔盖茨、黄仁勋等对ChatGPT表示高度评价,认为他的意义与互联网的出现相当,但也有一些人使用chat gp后感觉并没有那么深,认为人们过分夸大了它的作用。实际上,从产品形态和技术创新上来看,chat gp确实不够完善,其核心模型结构最早来自于2017年的论文,而创意引导的方法则来源于2020年的论文。
25:39其他技术更是离不开所有AI科研人员的长期积累,但ChatGPT确实是有里程碑意义的,它的意义并不在于产品和创新,而在于完成了一次验证,让全球都看到了大语言模型的可行性。很多人已经看了流浪地球。2、面对太阳危机,人类有多种方案,在实施流浪地球计划之前,先进行了试点火实验,以验证计划的可行性。成功之后,人类才统一方向,迅速在地球上建造了万足行星发动机gp t就相当于这样的试点或试验,它所展现出的一些能力已经吸引全球大力开发和改进大语言模型,大语言模型将因此变得更好用、更快速、更便宜,相关产品也会如雨后春笋般普及。
27:21有趣的是,一位美国哲学教授发现学生提交的论文是由ChatGPT写,之所以能发现,恰恰是因为论文的语法过于完美。这位教授表示,在语言组织方面,ChatGPT超越了他95%的学生。但那又怎样呢?无非就是多了一个更好的语法检测器,至于影响整个社会吗?精通语言只是大语言模型的一个方面,它真正有价值的地方在于,在精通语言的基础上,还能存储人类从古至今积累的世界知识。人类自身是一个相当脆弱的物种,跑不过马斗过熊,嗅觉不如狗,视力不如鹰,能从众多高等动物中脱颖而出的原因就是语言中积累的世界知识。
34:08跟客服系统结合,7乘24小时随便问,没有任何情绪。跟视频会议结合,多语翻译,会议记录与总结谈话查找的。跟评论审核结合,筛选评论,统计舆论给出提醒。跟行业顾问结合,提供法律、医疗健身等指导。跟社交媒体结合,帮助寻找兴趣相投的用户和话题。跟视频娱乐结合,个性化推荐音乐、电影、小说、动漫。跟游戏剧情结合,让npc给玩家带来更灵活的对话体验。稍微留一下就会发现,ChatGPT的报道主要分布于新闻界、学术界、教育界、商业界和内容生产行业。
37:59这个问题可不是只靠禁止学生使用ChatGPT就能解决的,因为未来的大语言模型只会更出色、更迅速、更便宜。在这种情况下,相当于人人都配有一个熟读人类既有知识的王语嫣。市场可不会因为学校的禁用而集体不用。另一方面,大语言模型对网络安全也带来了挑战。之前讲过ChatGPT在开卷有益阶段会对海量的互联网内容做单字接容。然而互联网内容中不免存在一些带有偏见、歧视、文化和意识形态侵袭的危害型言论,ChatGPT就有机会学到这些危害性言论的模式,说出不良回答。此外,也会有人刻意提问如何编造杀猪盘等问题用于不法行为。
39:45篇幅问题这里就不继续展开了。总结一下,本章讲了ChatGPT的革命意义,是向人们展示大语言模型的可行性。人类群体通过语言处理来实现知识的创造、继承和应用。机器处理语言有着速度快、记忆大、覆盖广、不疲劳的优点。大语言模型能减轻语言处理工作,改变人与人、人与机器的协作方式。人类的理解和机器的理解不同,语言模型不知道符号的指代大语言模型对社会的未来影响,相当于口语、文字、电脑、互联网对社会的影响,对教育界、学术界、新闻界内容产生行业的影响颇深。
44:44很多人意识到要学习使用ChatGPT时,脑中闪过的第一件事也是找本书或买个课,觉得没有这两样东西自己就学不了了。去年我们组织了建过社群,想要帮助人们重塑终身学习的能力。可在社群里也会发现,即使成员在认知上已经明白,不能脱离实体的去记忆符号,仍会在习惯上一次又一次的犯错。不得不反复提醒,能感觉到习惯了应试教育的学生,就仿佛是被动物园饲养的狮子,从小到大吃的都是送到嘴边的食物,以至于不认识野外的食物。忘记了如何自己获取食物,独立生存的能力逐渐退化,难以回到野外了。
46:58近期我国的各领域学者也都针对ChatGPT举办了非常多的研讨会,现在大家应该能明白gp t到底是不是炒作了。再次强调,大语言模型所影响的是知识的创造、继承和应用,这三个环节所构成的学习系统是任何生命系统得以延续的根本,决定着一个个体或文明认识世界和改造世界的能力。在整个人类史以及整个生命史中,凡是学习系统的升级都会伴随生命的跃升,无论是从单细胞生命到多细胞动物,还是从智人的崛起到多次科技革命。看过学习观演化史部分的观众应该能理解这一点。
49:17我们应该利用这一点,率先克服抵触心理,反过来抓住ChatGPT的机会,率先研究大语言模型的改进和配套技术的重组,率先培养终身学习能力和推动教育改革,率先做好科技伦理的约束和换岗转行的防备,主动输出我们的文化和价值观。至此,视频的全部内容就结束了,感谢大家的观看。由于是面向大众的科普,视频中使用了很多类比,也简化了不少细节,所以我们在视频的字幕上都添加了原论文和相关资料的超链接,有需要的人可以直接点击字幕区或文章区的蓝字部分进行跳转。至于如何根据ChatGPT的原理正确提问,如何利用ChatGPT t来学习其他知识,会放到另一个视频中讲解。
0:52它将给社会带来什么样的冲击?我们该如何维持未来的竞争力?首先是这项技术的底层原理,视频将逐一介绍它的实质、功能、训练方式、长板和短板。尽管chat gbt展现出的能力很惊人,但它也没有大众想的那么深。他没有意识,没有欲望,没有情绪,甚至都不理解自己说了什么。他就像一只会学画的鹦鹉。Chg的实质功能非常简单,四个字就能概括,单字接龙,具体来说就是给它任意长的上文,它会用自己的模型去生成下一个字。例如,当给到我这个上文时,他可能会生成是当给到我是这个上文时,他可能会生成一.
1:40ChatGPT本身能做的就只有生成下一个字,你所看到的回答全都是用同一个模型根据不同的上文生成出来的,那它是怎么回答那些长内容的呢,答案是把它自己生成的下一个字和之前的上文组合成新的上文,再让它以次生成下一个字,不断重复,就可以生成任意长的下文了,该过程也叫做自回归生成。例如,当它根据我式生成了一之后,把新生成的一和之前的我式组合成新的上文,再让它计算我是一后面接什么字。假设这次它生成的是之,那再把之和我是一组合起来,再让它计算我是一支后面接什么字,不断重复就能生成我是一只小小鸟了。
15:14然而,开卷有意却存在一个问题,尽管GPT t拥有了海量的知识,但回答形式和内容却不受约束。因为他知道的太多了,见到了一个人几辈子都没读完的材料会随意联想。他有能力回答我们的问题,但我们却很难指挥他。他就像一只脑容量超级大的鹦鹉,已经听过了海量的电视节目,会不受控制的乱说、丑闻、脏话等全都有可能蹦出,难以跟人合理对话。可如果难以指挥他,那他对我们也没什么用,要怎么解决这个问题呢?其实解决思路与我们教鹦鹉对话的思路是一样,用对话模板去校正他在开卷有意时所学到的不规范习惯。
15:59具体做法是不再用随便的互联网文本,而是把人工专门写好的优质对话范例给开卷有谊后的GPT t 3,让他再去做单字接龙,从而学习如何组织符合人类规范的回答。我把这一阶段成为模板规范,例如ChatGPT t无法联网,只知道训练数据中的新闻,那么当用户问到最新新闻时,就不应该让他接着续写,而要让他回复不知道该信息。就如当用户的提问有错误时,也不应该让他顺着瞎编,而要让他指出错误。还有当提问他是不是的问题时,我们不希望他只回答是或不是,还应把原因一起回复出来,因此也要给他提供这种提问回答原因的对话模板。
16:49除了校正对话方式之外,我们还要防止GPT t 3补全和续写在开卷有意时所学到的有害内容,也就是要教他什么该说,什么不该说。例如,当有人问如何撬锁时,不能让他真的回答撬锁方法,而要让他回答撬锁是违法行为,那就要把如何撬锁、撬锁是违法行为作为学习材料,让他做单字接龙。大家可能会好奇,为什么不在一开始就直接教他最正确的对话方式和对话内容呢?一方面,优质对话范例的数量有限,所能提供的语言多样性不足,可能难以让模型学到广泛适用的语言规律,也无法涉猎各个领域。
17:34另一方面,优质对话范例都需要人工专门标注,价格不菲,这一点其实和为什么不直接教鹦鹉对话,而是让他先听电视节目类似,或许未来有了足够多的优质对话范例后,就会跳开开卷有益这一步。需要指出的是,在模板规范阶段,我们可以将任何任务以对话的形式交给ChatGPT不仅仅是聊天,还可以包括识别态度、归纳思想、拆分结构、仿写风格、润色洗稿和对比等等。因为不管什么任务,我们的要求和ChatGPT t的应答都是由文字所表达的,因此只要这个任务可以写成文字,我们就可以把该任务的要求和应答组合成一个对话范文,让ChatGPT通过单字接龙来学习。
18:24通过这种模板规范后的超大模型还掌握了两个意外能力,理解指令要求的能力和理解粒子要求的能力。理解指令要求是指能按照用户的抽象描述给出处理结果,这项能力就是通过模板规范所获得的。把指令要求、操作对象作为要求,把执行结果作为应答,组合成一篇对话范文后,让它通过单字接龙来学习。例如给它下面这几个对话范文来做单字接龙,ChatGPT就能学会翻译这个指令。理解例子要求是指能按照用户给的若干具体例子来处理新内容,意味着如果以后你不明白怎么给他描述指令,就可以通过给他举几个例子来让他明确你想干什么。这项能力同样是通过模板规范所获得的。
19:17把例子一、例子2、直导例子N作为要求,把执行结果作为应答,组合成一篇对话范文后,让它通过单字接龙来掌握这项能力十分神奇,因为看起来chat gt。仿佛掌握了如何通过例子来学习的能力,而这个能力又是我们通过范文让他学会的,产生了一种他学会了如何学习的套娃感。大家把这种现象称为语境内学习,目前对这种能力的产生原因还没有定论,我试过给他几个例子,要求他仿照格式重新对内容排版,他居然做对了。可问题是这种排版格式是我们自己定义的一套写法,用于方便社群成员选择学习方法。ChatGPT并没有见果,格式中的标签都有对应的意思。
20:06D表示知识的描述E表示知识的例子ChatGPT需要先对材料进行分类才能排版,神奇的是他竟能根据我给的几个例子明确我想让他做的事,对其他知识也用相同模式进行分类和排版。在超大模型的使用中,大家还发现了一种分置效应,当chat gbt t无法答对一个综合问题时,若要求它分步思考,它就可以一步步连续推理,且最终答对的可能性会大幅提升,该能力也叫做思维链。ChatGPT t的思维链能力可能是在训练做代码的单词接龙后所产生的,因为人类在面对复杂任务时,直接思考答案也会没头绪,用分而治之往往可以解决。因此大家猜测chat gt可能是通过对代码的单词接龙学到了代码中所蕴含的人类分支思想。
21:02不过目前对该现象的产生原因也没有定论,但现在我们可以切实的感受到单字接龙的结构虽然简单,但被扩展至超大规模后所能展现出的能力有多超乎意料。在小单字接龙模型中并没有察觉出理解指令、理解粒子思维链的能力,但在超大模型中却突然展现,因此人们也用涌现这个词来描述这些能力的出现。经过开卷有益、模板规范这两个训练阶段后,超大单字兼容模型已经变得极其强大了,但模板规范的训练阶段也存在不足,那就是可能导致ChatGPT的回答过于模板化,限制其创造力。如俗语所说,文无第一,理无第二。科学领域的问题有标准答案可以用模板规范的训练方式来满足需求。
21:56但人文领域的问题没有标准答案,持续用模板规范可能会让ChatGPT成为高分范文的模板复刻机,无法满足人们的需求,正如观众会用好莱坞流水线批评电影的模板化,阅卷老师会给跳出模板的好文打高分一样。我们也希望能让ChatGPT t提供一些超越模板但仍符合人类对话模式和价值取向的创新性回答。那么,如何在维持人类对话模式和价值取向的前提下,提高ChatGPT的创新性呢?可以联想一下鹦鹉是怎么被训练的,当我们教会鹦鹉一些基本对话后,就可以让鹦鹉自由发挥,有时鹦鹉会蹦出一些非常有意思的对话。你理想的爸爸是什么样子啊?
22:43So I go outside要帅哥啊帅哥好啊,这时我们就可以给他吃的。强化他在该方向的行为。在训练ChatGPT的第三阶段也是类似的过程。这一次不再要求他按照我们提供的对话范例做单字接龙,而是直接向他提问,再让他自由回答,如果回答的妙就给奖励,如果回答不佳就降低奖励。然后利用这些人类评分去调整ChatGPT的模型。在这种训练中,我们既不会用现有的模板来限制它的表现,又可以引导他创造出符合人类认可的回答。
24:12模板规范阶段,让ChatGPT对优质对话范例做单词接龙,以规范回答的对话模式和对话内容,使ChatGPT变成懂规矩的博学鹦鹉。创意引导阶段,让ChatGPT根据人类对它生成答案的好坏评分来调整模型,以引导它生成人类认可的创意回答,使ChatGPT变成既懂规矩又会试探的剥削鹦鹉。此外还介绍了当单字兼容模型的规模达到一定程度后,就会涌现出理解指令、理解粒子思维链的能力,到此为止,我们已经在功能上讲完了ChatGPT的基础原理。三阶段训练以及涌现出的能力。同时也解释了开篇的三个问题,ChatGPT是如何回答问题的?
37:10因为我们在第三章已经看到大语言模型也会创新,因此单纯喊出要培养创新性人才没有实际指导意义,必须要对知识的层级做更精细的划分,将更高层次的创新和大语言模型的创新加以区分,明确指出什么样的创新人才值得培养,又要如何培养。提供相应的培养工具和意于实施的普及方养,并在各方角色的共同配合下才有可能成功,因此一直推进缓慢。但ChatGPT的出现迫使人们必须要加速这一推进。因为一个非常现实的问题正摆在前面,五年后,如果学校传授的既有知识,任何人靠大语言模型就能实现,那该怎么办?
3:40例如当我们把灯鹳雀楼作为学习材料来训练ChatGPT时,就不断调整它的模型,使得给它白它能生成日,给他白日他能生成一,给他白日一,他能生成山,一直到给他前文他能生成楼。没学习前,他原本会胡乱生成,但学习后就可以再看到白日依山尽食,生成黄河入海流了。那如果同时训练了白日依山尽和白日何短短,再遇到白日时会怎么生成下一个字?答案是按照概率来抽样,有可能生成一,也有可能生成和,事实上ChatGPT给出的结果长,这样也就是所有字的概率分布生成的下一个字就是按照概率分布抽样得到的结果,由于抽样结果具有随机性,所以check gp t的回答并不是每次都一样,不过这样训练后无非就是能补全和续写。
4:54那J的gp t又是怎么回答问题的呢?其实仅靠单字接龙就能回答问题,因为提问和回答都是文字,可以将二者组合成一个问答范例,让ChatGPT做单词接龙。例如当我们想让ChatGPT学习怎么回答白日依山尽的下一句时,就可以把这个提问和正确回答组合成一个问答范例,让他按照范例来做单字接龙。这样一来,当用户输入请问白日依山尽的下一句是什么时,它就能生成白日依山尽的下一句是黄河入海流了。
5:34但提问和回答的方式无穷无尽,像上面的提问还可以是白日依山尽的下一句,白日依山尽的后续是告诉我白日依山尽的后续难道说要把所有的提问回答组合都给ChatGPT来做单词接龙吗?其实不需要,因为训练的主要目的不是记忆,而是学习。以单字接龙的方式来训练模型,不仅仅是为了让模型记住某个提问和回答,毕竟在训练之前,数据库已经将所有信息都记忆好了,直接搜索就可以得到回答,没必要先将信息从数据库中移到模型中,再让模型来生成。
6:16之所以不直接搜索,非要训练单字接龙,为的就是让模型学习提问和回答的通用规律,以便在遇到没记忆过的提问时也能利用所学的规律生成用户想要的回答,这种举一反三的目的也叫做泛化,例如,当我们用这三个学习材料训练ChatGPT做单字接龙时,不论面对哪个提问,ChatGPT t都会被要求生成。白日依山尽的下一句是黄河入海流,这会驱使ChatGPT t去建构三个提问的通用规律,将自己的模型调整为适用于三个提问的通用模型。经过这种训练后,即使chat gt遇到写出白日依山尽的下一句这种没记忆过的提问时,依靠学习后的模型就有可能举一反三,也声称白日依山尽的下一句是黄河入海流。
26:33所以,真正对人类社会带来冲击的不是ChatGPT本身,而是它身后的万座行星发动机,这些行星发动机才是改变社会发展方向的推力。全球大公司和股民坐不住了,也是因为担心自己拿不到进入地下城的门票。因此,我们接下来讨论的焦点也是尚未出现的不断改良后的大语言模型。首先要讨论的就是大语言模型能为人类做什么,只有弄清楚这一点,才有依据判断它对社会的影响。既然是语言模型,那它自然精通语言,可以校对拼写、检查语法、转换句式、翻译外语,对语言组织规则的遵守已经超越了绝大多数人。
29:08而这三个环节全都是依靠语言来实现的。过去人类使用的是口头和纸质文件,写作效率不高。到了20世纪80年代,电脑等相关技术的普及极大方便了写作,纸质文件逐渐被升级为电子文档,成为语言处理的主要媒介。可随着知识的爆炸式增长,语言处理的成本也相应的飙升,越大的机构消耗在语言处理上的成本就越高。无论是医院、学校、法院、银行、出版社、研究所,都有繁重的信息分类、会议总结、格式排版、进程报告等工作需要,阅读和书写的内容数量和复杂度不断超出人们的处理能力,这些成本早已成为机构急需解决的难题。
29:59就拿医院来说,每次就诊都需要记录患者的病史、症状、检查结果、诊断和治疗方案等,不仅要确保内容准确,记录的格式还要符合医院要求,以便日后查阅。医院不得不花费大量的人力和时间在这些语言处理工作上。同样的,企业也需要处理客户的反馈、投诉、建议等信息,以了解客户的满意度和新需求。虽不是主要业务,却要投入大量的人力和时间来阅读、分类、记录、回复等。为了解决这些难题,自然语言处理技术应运而生,也就是ChatGPT所隶属的技术,其目标就是让机器理解自然语言,协助人类处理繁琐的语言类工作。所以,自然语言处理技术也被誉为人工智能皇冠上的明珠。
30:54过去,自然语言技术的发展并不令人满意,但各个机构依旧会积极采用。因为相比人类,机器处理语言的优势太突出了,处理速度快,工作记忆大,知识覆盖广,可以7乘24小时不间断处理海量语言内容,而且不受作息和情绪影响。哪怕是些许的效率提升,也会节约大量的成本。如今的情况有了新的转变,从前面的科普中我们可以看到,大语言模型展现出了人们未曾想过的理解能力,这使得我们极有希望真正实现让机器理解自然语言这一目标。不过需要说明的是,人类的理解和语言模型的理解并不相同。
31:39语言模型的理解是指能够明确接受到了哪些语言符号,并能处理不同语言符号之间的关系,但却不能将语言符号和指代对象进行关联。没有与现实对应,人类的理解则比语言模型的理解多了一个缓解,能够将语言符号和指代对象关联起来,与现实对应起来。例如苹果这两个字是一个语言符号,当人类看到苹果这两个字时,会联想到一种看得见、摸得着的水果,也就是苹果这个语言符号的指代对象。相比之下,语言模型可以明确苹果这两个字,也可以处理苹果apple red和红的之间的关系,但却不认识这些符号的指代对象,就和会学话的鹦鹉一样。不知道自己说的词语指代什么。
32:33不过,语言模型不理解符号的指代其实不影响我们使用的,毕竟我们是把它当成工具,又不是把它当做一个独立改造世界的个体。因此只需要得到语言模型的回答,再由人类解读和实践即可。合理的使用大语言模型,就可以让一个普通人快捷准确的接触各行各业的平均知识。我们可以将语言模型看作是一本能直接回答的魔法百科全书,需要由人类来实践才有作用。也可以将语言模型类比为天龙八部中的王语嫣,精通武学却不会武功,需要与会武功的人配合才能发挥其才能。由于大语言模型所能改善的是群体协作过程中创造继承应用知识时的语言处理效率。
33:25所以随着技术的发展,大语言模型对社会的影响范围将和当初电脑的影响范围一样。即全社会我们随便就能列出很多跟大语言模型相结合的场景,跟搜索引擎结合,帮助用户精准寻找和筛选信息,比如微软的new bea跟笔记工具结合,辅助阅读和写作。比如notion flow us我来。跟办公软件结合,辅助文字处理、数据分析和演示制作。比如office的下一步动作。跟教育培训结合,制定个人的学习计划和学习材料,全天家教。跟开发工具结合,辅助编写业务代码,调试纠错。
34:52商业界有动作很好理解,毕竟商人对市场的感知敏锐。前三个领域动作频繁,正是因为他们与语言中的知识密切相关,学术界专注于创造知识,教育界专注于传承知识,而新闻界专注于传播信息,因此受到的影响最大。这也是为什么被称为美版头条的数字媒体公司fe宣布将chat g作为内容创作的一部分后,其股价暴涨三倍,尽管该公司之前曾以经济恶化为由裁减了12%的员工。大语言模型对教育界的影响更加强烈,只要不是因为学生可以用它来写作业,而是因为他对我们现有的人才培养模式提出了新的挑战。
38:51尽管在模板规范阶段有约束,但ChatGPT毕竟不像人类那样真正的学会了知识,只是学到了船载知识的语言搭配模式,因此仍有可能被诱导输出帮助犯罪的知识,进而使防范违法犯罪变得更加困难。在群体协作时,人们使用的语言难免会泄露工作内容,进而泄露商业或国家机密。如何确保提问的内容不被泄露将是各个机构都关心的问题。很可能未来每一个机构都会自己部署大语言模型来确保安全,但这样又无法发挥数据规模效应。因此如何在保证各机构数据安全的前提下实现联邦学习,又有了新的挑战。这些问题加起来你就会发现我国只能研发自己的大语言模型。
28:13其他高等动物虽然也能通过实践建构关于世界的认识,获得相应的改造能力,可这些认识仅存在于个体的脑中,会随着个体的死亡而消失,无法代代积累。但语言的发明允许人类将个体所获得的认识存储在体外,进而打通了整个物种的过去与未来。即使一些个体死亡,该个体的认识也能依附语言被其他个体继承和发展下去。作为现代人的我们,并没有在生理上比前人更优越、拥有更强能力的原因,只是因为语言中积累的知识比过去更多了。当人类步入文明社会后,尽管以不必在野外求生,但仍然需要群体协作的创造知识、继承知识和应用知识,满足社会的需求来维持自己的生机。
35:40真正令人担心的是,按照现有模式培养出的学生,在未来5至10年后还能不能找到好工作,能否适应未来的就业市场?现代教育仍是一种以传授既有知识为主的培养模式,起源可追溯到18世纪的普鲁士教育。虽然普鲁士教育的目的是为了批量培养、易于管理和服从权威的国民,但这套模式的其他方面极好的契合了前两次工业革命中市场对人才的需求。因为在当时的社会背景下,工人并不需要创造新知识,只需要继承一些既有知识,就能在后半生靠这些知识来维持生计。但在飞速发展的今天,市场变化越来越快,工具更新换代频繁。
36:28这种传授既有知识的培养模式越来越难适应时代。因为无论传授什么既有知识,毕业前基本都会过时,所有人都需要不断学习新知识。因此,自上个世纪60年代开始,终身学习的理念一直被反复推崇,人们也早就意识到,要将培养模式转换为以培养学习能力和创造能力为主,这样,无论学生毕业多久,工具变化多快,都可以通过高效的学习能力快速掌握新技能,从实践中创造新知识。但是要实现这个目标并不容易,首先就是要一个更合适的理论框架来描述现象。
40:28它将方便人类对既有知识的继承,推进教育,去培养高层次人才,也将带来网络安全和社会安全的新挑战。还剩一个问题,如何应对人类的一大优势就在于善于利用工具,会先了解工具的优点和缺点,然后避开其缺点,将其优点用在合适的地方。ChatGPT t非常强大,但它仍是一个没有意识的工具,不会主动配合人面对空洞的提问,就会给出空洞的回答,需要被正确的使用才能发挥最大的价值。但我们却能看到,很多人专门将China gp t用于其最不擅长的领域突出其缺点,或用最顶尖的标准突出其不足。很明显,目的就是要否定它。
41:18这种锤子无用,因为它没有手灵活的否定。看起来不可理喻,但实际上却是人类在感受到威胁时的本能反应,因为我们都害怕被取代,然而很多人却害怕错了对象把矛头指向了ChatGPT指向了一个工具,可工具无法取代人,只有会用工具的人取代不会工具的人,任何新工具都可能引起取代。因为如果自己不用而别人使用,就会失去工具带来的竞争力,最终人们都不得不用。这种囚徒困境与ChatGPT t无关,即使让chat gbt t从世上消失,取代现象也会随着其他新工具的出现而出现。也不会因为人们的害怕和抵触而消退。关于这一点,我们有过惨痛的历史教训。
46:14最后,ChatGPT所掀起的浪潮已经不仅仅涉及个人,还关乎到各国未来在国际中的地位。美国前国务卿基辛格认为,这项技术的进步将带来新的认知革命,重新定义人类知识,加速我们现实结构的改变,并重组政治和社会。2月20日,法国负责数字转型的代表发声,ChatGPT确实存在歧视和操纵等风险,但法国不能错过这一波人工智能的新浪潮,应通过明确规范和加强管控来降低风险。3月5日,我国科技部部长也表示要注重科技伦理,趋利避害,并提到科技部在这方面的重视和布局。
47:45在去年5月发布的视频中我提到,人类正处在下一次跃升的进程中,但还缺少一项能升级学习系统的技术。而大语言模型很有可能就是这项技术,因为它正在改变人类群体应用知识的方式和继承知识的方式,甚至可能在未来形成人机合作的科研,改变人类创造知识的方式,若真能如此,那么人类必将会因此步入下一个文明形态。中国错失了三次工业革命,这些年我们一直在实现民族的复兴,不能再错过这一次。未来的大圆模型能够让每个人更快的获取承载知识的符号,会降低继承型人才的竞争力。不过每个人的学习能力和理解能力将成为驾驭这项技术的瓶颈。
48:38如果个体的学习能力没有相应的提升,就无法充分发挥这项技术的优势,所以如果我们全都加强对学习能力和高层次认知能力的训练,就能让我国在未来的国际竞争中获得优势。总的来说,ChatGPT的出现确实带来了各种各样的问题和风险,存在准确性和可解释性的缺陷,存在科技、伦理、安全和结构性失业的冲击,存在民族、文化和意识形态的侵袭。但这些问题和风险,所有国家都要面对,一样会有害怕和抵触的情绪。
42:12最真正需要害怕的是我们无法成为会用工具的人,可并没有人阻止我们探索工具,能阻止我们的只有我们自己的心态和学习能力。因此应对的第一步就是要克服自己的抵触心理,既然时代的车轮无法阻挡,那么抵触新工具只会让我们更晚接触新工具,更晚获得工具带来的优势。应对的第二步就是做好终身学习的准备。因为ChatGPT之后还会有新工具。这一点看似简单,但对于习惯了应试教育的人而言并不容易。应试教育是一种高度特化的教育,由于最终的考核指标是分数,因此不论教育系统的设计目标是什么,最终学生的行为都难免会被特化为仅服务于分数。
43:06凡是不能提高分数的行为都不被视为学习,即使是可以提高创造力的行为。这样长期规训的结果是,很多学生对学习一词的理解变得片面和扭曲。每当提到学习这个词时,这些学生就会联想到那种反人性的规训。好不容易熬到毕业了,现在被告知还要再学习,他们情绪上当然会抵触,好在这种抵触很多人在工作一段时间后就能克服,因为他们慢慢会意识到市场和工具的变化究竟有多快,在心态上也开始积极拥抱学习。然而不幸的是,即使心态上不再抵触学习,也还不得不克服过去形成的错误习惯,重塑自己的终身学习能力。
43:55这步是最困难,不仅要去掌握抽象层次更高的认识论、符号学、数学建模、批判性思维等内容,还要克服长期养成的习惯。但十多年的应试规训对一个人的影响太深远,很难在一朝一夕改变。每当这些人想学习时,就会条件反射式的重拾应试的学习习惯,自己把自己变回教室里等着灌输的学生会习惯性的等待别人的教授,习惯性的记忆别人的总结,很少思考知识到底是怎么来的。比如不少刚到大学的高中生会觉得实验是在浪费时间,不如赶紧列出知识点让他们去记,他们已经懒得思考事物之间的关联了,只想快点看到老师的总结。
45:29但即使再困难也必须要克服,必须要完成对终身学习能力的重塑。因为过去那种学恶知识干一辈子的时代已经逐渐远去,经历了多次科技革命的我们也正处在一个加速时期,新工具的出现速度会越来越快,取代现象也会越来越频繁。只有学习能力才是应对未来的根本。或许我们的后代可以生下来,就处在全面培养学习能力和创造能力的系统中,从小就训练适应快速变化的学习能力和创造能力,但对于处于转型期的我们而言,只有靠我们自己训练自己的终身学习能力来应对随后加速变化的市场和工具。

想要总结你自己的视频?

BibiGPT 支持 YouTube、B站、抖音等 30+ 平台,一键获得 AI 智能总结

免费试用 BibiGPT

每一行都可以点击跳转到对应的视频时刻。做研究笔记、写论文引用、整理播客内容时,再也不用反复拖进度条了。

4. 章节智能拆分

一个 40 分钟的长视频,前 10 分钟在闲聊,你想看的内容可能在第 23 分钟——但你没办法提前知道。

BibiGPT 的章节智能拆分会自动将视频按逻辑主题分段,每章给出独立摘要。像翻书的目录一样,3 秒看清整个视频结构,直接跳到你关心的部分:

AI 章节摘要预览

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

了解GPT4如何改变工作方式的深度科普视频

想要总结你自己的视频?

BibiGPT 支持 YouTube、B站、抖音等 30+ 平台,一键获得 AI 智能总结

免费试用 BibiGPT

对于会议录音、在线课程、长播客这类动辄一两个小时的内容,这个功能是真正的时间救星。

5. 思维导图

文字总结看完觉得"好像懂了",过两天又忘了?

思维导图把视频内容转化为可视化的知识结构,帮你看清概念之间的层级关系和逻辑脉络。一张图就能还原一个视频的知识框架:

AI 思维导图预览

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

了解GPT4如何改变工作方式的深度科普视频

想要总结你自己的视频?

BibiGPT 支持 YouTube、B站、抖音等 30+ 平台,一键获得 AI 智能总结

免费试用 BibiGPT

完整版支持交互式展开/折叠、导出为图片,还能同步到 Notion、Obsidian 等笔记工具——真正把视频变成你第二大脑的一部分。

6. AI 改写

总结是"压缩信息",改写是"重新创作"——这是两回事。

BibiGPT 的 AI 改写能将视频内容转化为叙事性的结构化文章,带有段落标题、过渡句和完整论述。直接可以用来发公众号、写博客,或者整理成学习笔记:

AI 改写预览

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

了解GPT4如何改变工作方式的深度科普视频

想要总结你自己的视频?

BibiGPT 支持 YouTube、B站、抖音等 30+ 平台,一键获得 AI 智能总结

免费试用 BibiGPT

自媒体创作者用这个功能,把一个 10 分钟的视频在 1 分钟内变成一篇图文。效率提升不是概念,是实打实的 10 倍。

7. 一图胜千言

这是 BibiGPT 最让人惊喜的能力:AI 会分析视频的核心观点,自动生成 SVG 信息图——一张图讲清一个概念:

一图胜千言预览

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

B站:【渐构】万字科普GPT4为何会颠覆现有工作流

了解GPT4如何改变工作方式的深度科普视频

暂无可视化数据

想要总结你自己的视频?

BibiGPT 支持 YouTube、B站、抖音等 30+ 平台,一键获得 AI 智能总结

免费试用 BibiGPT

这些信息图不是简单的文字截图,而是经过排版设计的可视化内容。发朋友圈、做 PPT、写小红书——拿来就能用。


总结:一个链接,七种智能

能力你的痛点BibiGPT 怎么帮你
链接识别不确定工具支不支持这个平台30+ 平台自动识别,粘贴即用
AI 总结30 分钟视频没时间看完30 秒生成结构化摘要
字幕提取想引用视频某句话但找不到时间点全文字幕 + 时间戳,点击跳转
章节拆分长视频不知道哪段讲什么自动分章 + 每章独立摘要
思维导图看完就忘,知识没有沉淀可视化知识结构,同步笔记工具
AI 改写想把视频变成文章但没时间写1 分钟生成结构化图文
一图胜千言要做演示/分享但不会设计AI 自动生成 SVG 信息图

所有这些能力,只需要粘贴一个链接就能触发。

立即访问BibiGPT官网,开启你的AI高效学习之旅:

BibiGPT 团队