AI 2.0 时代,ChatGPT 的出现,让大模型引发的诸神之战正式打响。百度作为中国首个推出真实应战“武器”的公司,其基于千亿量级数据炼就而成的“文心一言”背后,蕴藏哪些鲜为人知的故事?这种打破人类对过往 NLP 之智能对话系统理解的技术是如何实现的?在遵循飞轮效应的 AI 大模型发展趋势下,他人能否复制出相同的能力生成对话、代码能力?开发者又该如何面对这种全新的编程范式?
就在昨日傍晚时分,CSDN 创始人&董事长蒋涛与百度创始人、董事长兼首席执行官李彦宏于线上聊了聊,围绕技术角度,共同探讨百度大模型产品对当代开发者的影响与意义,对中国产业生态的价值。与此同时,李彦宏也对“文心一言”开启邀请测试之后市场产生的一些质疑声音进行了回应。参与本次访谈的还有极客公园创始人兼 CEO 张鹏和品玩创始人兼 CEO 骆轶航。
编辑 | 屠敏
出品 | 《新程序员》编辑部
一周之前,百度带着“文心一言”如约而至。
「邀请测试之后遇到了一些批评的声音,算是我预料之中」,李彦宏在对话中坦然地说道。
文心一言是百度基于 2019 年推出的文心大模型 ERNIE 不断演进的产物,也是其耕耘人工智能十几年厚积薄发的成果。面对前有 ChatGPT 聊天机器人已成型,后有 Google 带着 Bard 大模型疾速追赶,选择在这一阶段开启测试,缘起科技产业市场旺盛的需求,也源于在数据飞轮循环驱动 AI 大模型不断成熟发展的当下,只有将产品发出来,才有机会更快地去迭代,去提升。
现实来看,如今的文心一言所经历的考验与 ChatGPT 诞生之初市场的反应如出一辙。彼时初出茅庐的 ChatGPT,也让众人深刻地感受到了它“一本正经胡说八道”的本领,为此,StackOverflow 曾明令禁止社区通过 ChatGPT 生成内容、美国纽约市教育部紧急将 ChatGPT 拉入“黑名单”,只因 ChatGPT 错误率太高,极容易混淆视听。
而如今,一切在千亿级数据洗礼下,柳暗花明。
数据是基础,也是提升文心一言能力的关键
对于在拿到百度文心一言的邀请码之后,不少用户在开启内测的同时,也将其与经过多轮迭代的最新 ChatGPT、GPT-4、乃至 Midjourney 文本生成图片工具进行了比对与评测,其中不乏有赞扬、有期许、也有批评、质疑等多重声音。
李彦宏表示,「其实,我觉得也无所谓公平不公平,大家这么关注,对你有这么高期望,是我们不断提升的动力。我也不断地在讲文心一言不够完美,事实上如果全面来评测的话,文心一言确实也不如现在最好的 ChatGPT 版本,但是差距不是很大。所谓不是很大,可能就是一两个月的差别。分享我们内部测试的一个数据时间点,大约两个月前,百度内部做过一次评测,用文心一言跟那时的 ChatGPT 做对比,我们大约落后那个时候的 ChatGPT 40 分左右。」
通过分析导致落后的因素,百度用一个月左右的时间解决了短板问题。
万万没想到的是,李彦宏透露,一个月后,当百度再去评测 ChatGPT 和文心一言,发现不仅没有赶上 ChatGPT,反而差距拉大了。
这也引发了百度团队内部的焦虑,为何做了半天反而越来越差了?
分析其中缘由后,百度发现,ChatGPT 本身也在不断升级,它的能力也在快速提升,那一个月的时间,文心一言提升速度并不慢,但 ChatGPT 中间有一次大升级,导致整体能力有一次质的飞跃。
再仔细分析差距之后,李彦宏表示,“如果再给一个月时间,文心一言还能够追的七七八八。按照团队现在的分析,我们水平差不多是 ChatGPT 今年 1 月份的水平。但是大家早就忘了 1 月份 ChatGPT 是什么样子,毕竟当下大家已经习惯了 GPT-4 的存在。GPT—4 技术的发布与文心一言开启邀请测试只相隔了一天,它是一个其他大厂也很难去拿出一个东西跟它比的技术。我觉得没关系,比就比。对我来说,只要自己提升足够快,能够把过去做不到的东西一步步做到,尤其有越来越多的用户给我们这些反馈的时候,我还是逐渐看到不少亮点,不少我们已经做得比现在的 ChatGPT 要好的方向,当然更多的方向不如它,我觉得假以时日我们都是可以弥补的。”
“大模型不是靠提升参数规模,不用太纠结具体的参数值”
蒋涛:ChatGPT 出来的时候正好遇上了 NeurIPS(Neural Information Processing Systems,神经信息处理系统)大会,这场大会覆盖全球 4 万个机器学习和神经网络的博士参与其中,当时,他们都惊呆了——ChatGPT 好像超出了我们对 NLP 或对话能力的理解,后来解释是智能涌现能力,百度开发文心一言后,这个秘密现在被揭秘了吗?
ChatGPT 没有用很多中文语料,中文的事实理解其实很差,但是它仍然可以做很好的中文表达,我们选智利诗人巴勃罗·聂鲁达很有名的作品翻译成中文,发现比翻译家翻译得还要好,你怎么看?这种能力的突破,到底涌现是怎么实现的?为什么用很少的语料,但语言的差距却没有了呢?
李彦宏:这确实是让人感到惊喜和兴奋的地方。百度做大模型做了很多年,其实也有不少其他公司做大模型,当用一个亿级大模型做的时候,可能做某个单项任务,或者一两个任务,相对比较窄。后来变成十亿级,百亿级,一直到最后参数规模达到千亿,同时匹配足够多的数据来训练,最后就会出现智能涌现,应该说是从量变到质变的过程。
仅仅三年前,我们所说的大模型是参数亿量级的大模型,今天当我们说大模型的时候,大家大多数理解参数是千亿量级的大模型,这种进化和技术迭代的速度其实超过了像摩尔定律这样大家熟悉的演化速度,这还是很神奇的。
百度通用大模型肯定是千亿量级的。因为这是一个门槛,如果不过千亿是不会出现智能涌现,这是过去实验都证明过的。但是具体是多少参数,公布意义不大,过了千亿之后,不是万亿量级参数一定比千亿效果要好。GPT-4 出来之前,我看好多媒体猜测是万亿量级参数,十万亿量级,方向就错了。大模型不是靠提升参数规模,是在其他方面进行提升,不用太纠结。
所以,一旦越过那个门槛之后,过去我们觉得不太可能的事发生了质变。如果再稍微往下沉一点看,为什么会有这样的质变?我自己的理解是,学世界各种各样语言的文本,本身虽然是概率模型,还是基于过去已经出现的十个字符或者 token,下一个字符最有可能是什么,简单的技术原理就是这样。但是当实际数据量足够大,算法比较正确的时候,基本上人类对于物理世界的理解逐步压缩到了一个模型里,如果这么来理解大模型的话,确实就是具备了智能涌现或者说是触类旁通的能力,我觉得确实很神奇。
以前人们没有想到,很多东西都是做出来了之后,才会去琢磨这个东西是为什么,里面的科学道理是什么。因为我们上学都是学科学和自然,我们的印象是社会的进步,科技的进步都是先有了理论,在理论的指导下做技术和工程,再把它做成产品推向市场。其实很多时候是工程先做到了,比如人们先发明了飞机,已经飞上天了,人们才开始琢磨为什么比空气重的东西还能在天上飞,由此产生了空气动力学。所以大模型也有点这个意思,先做出来了,我们才开始去研究为什么会是这样。
蒋涛:如果大家都用这个千亿模型,慢慢地是否都能够达到这个能力吗?逐渐变成类似于开源系统一样,大家知道基本原理,但是你并没有开源所有的东西,我们也能够做到吗?其他家也能够做到吗?
李彦宏:对,这是一个移动目标(moving target),一直在变。
ChatGPT 本身也在以一个很快的速度在进化,文心一言在以更快的速度进化。下一个出来的不管是谁,创业公司也好,大厂也好,做到今天这样的水准肯定是没问题的。
但是我们今天觉得这已经很神奇了,也许再过三个月会发现这个东西怎么这么差,它怎么还会出错。人们的期望值会不断抬高,下一个出来的再去追赶之前的大模型,我认为难度是比较高的。在同一个市场上,领先的大模型一定会获得更多的开发者在上面开发各种各样的应用,一定获得更多的用户反馈。那这种规模效应或者数据飞轮一旦转起来,其实后来者追赶起来会挺辛苦的。
开源 vs 闭源大模型之争
蒋涛:大家都把 ChatGPT 的出现比喻为 AI 时代的 iPhone 时刻,在移动开发时代,出现了开源和闭源的竞争,如 iOS 是闭源的,Android 是开源的,开源最后赢得了生态很大的胜利。所以,开源大模型包括 Meta 出了一个 LLaMA,开源大模型有市场机会吗?
其次,行业大模型有两种"炼法",一种是在百度文心一言上炼行业大模型,还有一种是在开源大模型上去练我的垂直大模型。哪种会更好一些?会出现开源大模型的这种生态吗?
李彦宏:我觉得有可能出现,但是最终其实是一个市场的自然选择,对于一个开发者来说,今天去选择一个闭源的大模型还是开源的大模型,最主要是看两个因素。一个就是哪个效果好,一个就是哪个便宜。
开源的话,在价格上有非常明显的优势,基本上可以不要钱就能使用这些东西;闭源如果还有生存空间的话,一定是做得比开源好,才有生存空间。
所以,当你更加追求效果的时候,你就会选择一个闭源的模型。但这是一个静态的观察或者说是讨论,动态的话可能说随着时间的推移,开源和闭源两条技术路线,最后谁会跑得更快,谁会后劲更足,可持续性会更好,我认为这是一个开放性问题,正例反例都有。
对于开发者来说,现在只能选择现在效果更好的,或者性价比更高的这样一个模型来进行开发,对于这两条路线之争我们只能是拭目以待了。
骆轶航:大家都在聊 ChatGPT,但是都忘了后面还有微软的云 Azure,在后面其实可能已经在发生很明显的变化,在云计算行业,你认为大模型出来以后,对于语言的改变是怎样的?另外一个是有些客户场景会涉及到具体的调优,因为中国产业格局、产业复杂度不一样,会带来哪些弯道超车的机会?
李彦宏:我也公开地讲过,我认为文心一言的出现或者大语言模型的出现对于云计算来说,是一个 Game Changer,它会改变云计算的游戏规则。因为过去比较传统的云计算就是卖算力,主要是每秒钟的运算速度、存储这些比较基础的能力。但是随着技术的演进,真正 AI 时代的应用不会建立在一个过去的地基上。
所谓过去的地基,除了刚才说的云计算之外,还有在移动时代的 iOS 或者 Android 操作系统上面去开发 App,或者 PC 时代是在 Windows 上面开发各种各样的软件。而在 AI 时代,新的应用会是基于大模型来开发的。
关于“是不是有一天所有的模型都统一成一个模型”这个存疑,我大概两年前,在内部推动过一段时间,想把语言、视觉、语音模型全都统一成一个模型。虽然当时大家怎么想都觉得不对、做不到,但是语言模型规模变大之后,它会能力越来越强,视觉模型规模变大之后,能力也会越来越强。
未来的应用会基于这些模型去开发,上面开发的不管是搜索或者是贴吧,都是基于我们已经做出来的这些大模型去进行开发。这和过去一个创业公司直接去用某一个云,是很不一样的,那个时候用的确实就是算力,甚至具体到用几块 CPU、GPU,而以后不用再担心这个层面的事了。
比如,我小时候学的是汇编语言,后来学 C 语言,而今天大家都在用 Python 写代码,方便程度是完全不一样的。你如果能用 Python 写,谁还会去学汇编?就是这么简单的一个道理。
所以,对于百度来说,我的理论就是四层架构,芯片层、框架层、模型层,上面才是各种各样的应用。早期的人们是说有什么芯片,我要基于这种芯片去开发各种各样的应用。后来我们说像百度的飞桨,人工智能时代的框架,它的中国市场占有率第一,在美国的话就是 Pytorch、TensorFlow。
在 2023 年之前,开发者做 AI 应用的时候,比较依赖框架。但是大模型出来之后,其实框架也变成相对比较底层的东西,以后开发各种各样的应用基于模型来开发就可以了。下面是什么框架,其实也没有那么重要了。
对于百度这样的公司,当我们在提供基础模型的时候,我们用什么框架、芯片其实还是很重要的,甚至某种意义上讲,它每一层通过反馈不断相互加强,不断提升它的效率。所以,内部叫做端到端的优化。由于我们在芯片层有昆仑,在框架层有飞桨,在大模型层有文心。当然,这种暴力美学如刚才提到的很耗算力,那么同样用价值 10 亿美元的芯片,怎么比别人效率更高,怎么能够算得更快?就需要有飞桨这个框架进行配合。模型也要能够知道这些芯片到底是什么能力可以被充分发挥出来,或者说,昆仑芯片怎么改变一下自己的设计,去更适用于飞桨,更适用于文心一言的模型。
这些东西端到端优化之后,我们的效率会比任何其他的大模型要更高。时间长了,商业的竞争最终竞争的是效率,你的效率比别人更高你就赢了,你的效率比别人低,再给你投多少钱,最终也会打水漂,这是无数的案例都证明了这一点。
程序员、企业如何面对 prompt(提示)编程?
蒋涛:对开发者来说现在硅谷那边已经风起云涌,在做各种基于 GPT 的应用,给编程带来了很大的不同,过去我们面向 API、技术栈,现在变成 prompt 编程了,整个开发者生态和应用会发生很大变化。你怎么看待未来不是那种模型应用?模型之上的 ToC 和 ToB 应用会发生什么变化?
李彦宏:我觉得这是很大的趋势上的变化。未来可能不需要那么多程序员,今天写计算机程序的程序员,大模型很多时候能够自动生成代码。但是我们会需要越来越多的提示(Prompt)工程师。
大模型本身的能力放在那儿了,谁能把它用好,这个东西是有讲究的,用得好不好,完全靠提示词来决定。提示词写得好,智能涌现的可能就多一些,反馈的结果就更有价值一些;提示词不好,出来的东西就是一本正经胡说八道,或者是错误的结论。
因此,如何把提示词写好,这些东西既是技术也是艺术,甚至我觉得艺术的成分还更多一些。今天这种世俗的来看,好像学自然科学的人更好找工作,工资更高,学文科的不太行,以后没准学文科更容易找工作,因为写提示词的时候,想象力、情感、表达这些有可能真的比现在学工程的人要更有意思,更有效果一些。
蒋涛:不同大模型比如文心一言、ChatGPT 或者 GPT-4 提示词会不一样吗?
李彦宏:很不一样,底层训练毕竟是独立训练出来的,如果把它比喻成一个人的话,不同人的脾气禀性肯定是不一样的。和它交互过程当中,也有不断摸索的过程,你才会慢慢知道,我怎么写这个提示词能够获得更好的效果。
蒋涛:你问它数据也会变化是吗?
李彦宏:会变化。最近谈的很厉害那种写成语,出来的东西你觉得它没有理解,但是过两天它就理解了,你老说它不对,它就会知道不对,重新搞一遍好了。