233. GPT的魅力所在(1 / 2)
从模式上说,Gpt显然要强很多酷很多。
因为bERt的模式需要对特定的任务做大量的调整工作,仍旧无法摆脱现有人工智能技术的困境。
它更像是一个特定任务上的工具,而非是一个智能。
不过直到chatGpt出现之前,几乎没有多少人相信过Gpt的模式真的能够更强。
因为一直以来,Gpt的性能效果都要比bERt方法差了不少。
“即便我将两个方法都做出来之后选择支持Gpt,恐怕也不会有多少人跟随我的脚步吧他们大概只会觉得,我为了完成当年视频中的宣传效果,已经开始不尊重事实,无法正确看待自己的技术了。”
开源了t方法之后,孟繁岐所有的精力就完全扑在了一件事情上,那就是确立t方法后续路线的两种范式,bERt和Gpt上。
不过这一次,他倒没有着急着手写代码和论文,而是花了很多时间与辛顿师徒以及其他谷歌大脑的同事讨论其中的模式和原理。
“首先,你的这两个路线,肯定都是基于预训练大语言模型的,只是针对后续具体任务的方式不大一样。”
辛顿还是那么擅长把复杂的问题和区别迅速地归纳总结。
所谓的预训练,并不是什么难懂的概念。
所有的模型都是由大量的参数组成的,最初的模型,所有的参数都是依照一些简易的模式随机生成的,这个模型不具备什么能力。
利用这样白纸一张的模型进行人工智能任务的学习,叫做从头训练。
载入已经学到了知识的参数模型,而不是随机产生的参数,就叫做使用【预训练模型】。
比如孟繁岐最开始参赛千分类任务,就是从头训练。
在语言领域当中,模型通常很大,所需要的文本数据也非常之多。
不是每一个都像孟繁岐这样,拥有成百上千张的泰坦Z来做实验的。
倘若现在有一个人,想使用最新的t方法,在自己的任务上使用,比如他想要一个可以辨别哪些语句说了脏话的t方法模型。
那么他就有两个选择,一是随机生成参数,从头训练一个t方法模型。
二,他可以直接载入孟繁岐开源出来的模型参数,然后在自己的数据和任务上做一些细微的调整,俗称基于【预训练模型】的【微调】。
很显然,后者的效果要比前者要好太多太多。
因为前者是从一个什么都不会什么都不知道的模型,从零开始,t方法可不是什么容易训练的模型。
而后者,则是已经在非常庞大的语言数据上学过语言的一般性规律和知识的聪慧模型。
站在巨人的肩膀上,模型学起新东西来,事半功倍。使用少很多的成本就能够取得成效。
“没错,在预训练阶段,我们可以使用大量没有人工打过标签的文本数据,避免了对大量标注数据的依赖。预训练的模型能够抽取出更丰富的语义信息,提高模型在各种自然语言处理任务中的性能。”
这是不论在图像领域、文本领域还是语音领域都已经成为基础的模式。孟繁岐觉得这点没有什么值得讨论的,毫无争议。
“其中的区别就是,究竟是使用特定数据去【微调】模型,还是使用【指令】去提示模型。”孟繁岐如此说道,这两点,就是bERt和Gpt技术最大的区别所在了。
“通常来说,我们都会觉得应该做【微调】。预训练的模型学到的能力比较笼统,如果不专门针对某个任务去做【微调】的话,效果通常都会不大好。”伊利亚和阿里克斯等人都觉得这是常识。
不过如此做的话,显然就无法达到孟繁岐宣传的那种模式和效果了。
举一个很简单的例子,bERt和Gpt都在大量的文本上做了预训练,现在它们有任务了,任务就是判定社交平台上的用户们发言的时候有没有在开车。
那么bERt的模式是【微调】,我会收集一大堆开车搞颜色的文本,然后把它们一个个标注清楚,喂给bERt去训练。
“你小子看清楚了,这样的人就是在开车。”
bERt大量观看开车文本,然后微微调整自己的参数,进行了二次学习,针对性学习。
摇身一变,它就变成了文字交警,专门抓捕社交平台上那些在开车的文本和用户。