热火烹油的大模型赛道打起了“嘴仗”。
搜狗前CEO王小川评价百度创始人李彦宏的采访发言称:“你们采访的可能是平行世界的他,不是我们这个世界里的。”
而针对王小川的评论,百度集团副总裁、搜索平台负责人肖阳又回应道:“王小川脱离一线太久,确实跟我们不在一个宇宙,自然对国内人工智能技术的发展缺乏了解。”
意外的是,王小川在14日凌晨又“嘲讽”了一把,称对 方是“脱离一线15年的人,去怼离开1.5年的人”。
这场争论也暴露出创业派与大厂间微妙的竞争关系。
毋庸置疑,大模型技术彻底点燃了科技圈的热情,创业者忙着招兵买马,生怕错过了新风口;一级市场关于大模型的投融资热度攀升,不少FA们甚至跑去B站开始恶补AI知识。
政策端也在吹来暖风,北京市经济和信息化局发布的《2022年北京人工智能产业发展白皮书》显示,今年,北京将支持头部企业打造对标ChatGPT的大模型。
热闹只是硬币的A面。
无论是忙着官宣大模型的科技大厂,还是广发英雄帖的创业公司,身处这股浪潮之中的人们都在思考一些关键问题:率先做出第一个中国版GPT的是谁?还有多久才能做出来?市场格局又会是发生怎样的变化?
这些问题都难以给出正确的答案,事实上,也没有人能给出准确的回答。毕竟,人们总是高估一项科技所带来的短期效益,却又低估它的长期影响。
本文将围绕当下中国的大模型竞争现状,基于行业资料与研究,主要回答三个问题:
1. 为什么国内科技公司要纷纷竞逐大模型?
2. 火热背后,中国科技公司究竟缺什么?
3. 中国科技公司“大模型之战”的走向会是什么?
为什么极客们都爱大模型?
理解中国科技巨头们的“大模型焦虑”,一张产品发布时刻表就够了。
在OpenAI发布GPT-4大模型后,百度用“Demo演示”的形式正式发布文心一言。同样在3月,53岁的周鸿祎决定“把刚出生的孩子抱出来给大家看看”,他推出360的大模型产品,甚至仓促到名字都要现场取。
随后的一个多月里,科技巨头、创业公司与高校研究院们展开了一轮关于“大模型”的军备竞赛,整个4月可以被称为“大模型的发布月”,继百度之后,华为、商汤、阿里已在4月亮出自己的大模型产品。
最新的消息是,京东计划在今年发布新一代产业大模型“言犀”,被视为“京东版”ChatGPT。
大模型也成为了互联网大佬扎堆二次创业的热门赛道。
原美团联合创始人王惠文、创新工场CEO李开复、前京东AI掌门人周伯文、前阿里技术副总裁贾扬清等均入局创业。前搜狗CEO王小川的百川智能已完成了5000万美元融资,王小川给了自己一个DDL:“今年年底做到国内最好的”。
一位业内人士这样形容当下百花齐放的图景:“(这波创业)很像2000年左右的互联网创业潮。”
普通读者们很难理解科技圈对大模型的拥趸,毕竟类似的创业潮在元宇宙、XR行业也都复现过。但如果深入理解人工智能的发展历史与传统AI时代的困境,就能理解为何这群极客们如此热爱大模型。
关于大模型的定义,OpenAI创始人Altman与李开复更愿意将大模型定义为“一种新技术平台”,而学界则将“大模型”对比“小模型”,定义为一种“基于大量数据训练的、拥有巨量参数的模型”,这种模型能适应广泛的下游任务。
在AI1.0时代,比起创业者对AI智能化的疾呼,大多数人对人工智能只停留在一些单一场景产品端的理解。
例如人工智能客服、人工智能质检等,上述场景都是针对一项任务具体开发一个专用小模型,并不具备“理解能力”。就像周鸿祎将此前的人工智能产品形容为“人工智障”,在他看来:“在GPT之前,从来没有一个人工智能的产品能真正的理解我们这个世界。”
从人工智障到人工智能的进化,大模型的出现意味着人们正式进入到AI2.0时代,这背后是大模型的涌现性使然。
涌现是人工智能领域经常会被提及到的概念,代表一种从量变到质变的过程,当数据规模足够大,参数达到千亿级,即使在没有专门训练过的领域,AI也能涌现出知识理解和逻辑推理能力,华东政法大学人工智能与大数据指数研究院将“涌现性”定义为一个“多种技术融合的结果”:“(大模型)有效集成自然语言处理等多个人工智能核心研究领域的多项技术,实现1+1>2的融合式涌现。”
换言之,大模型有望解决“人工智能如何理解世界”的问题,实则提供了一条可能迈向AGI(通用人工智能)的可能性。
另一方面,大模型的通用性也在激发更多的商业图景,解决了AI1.0时代的诸多问题。
在上一波AI创业潮中,总结AI企业所面临的问题主要两点:一是成本问题,清洗与标注海量的数据需要耗费巨大的成本,商汤科技联合创始人、副总裁杨帆曾表示,对于每一个新场景,公司都要重新收集新数据,搭建定制化模型。
这种开发模式很像“小作坊”,不但解决问题的成本极高,开发模式也十分低效。
在实际落地过程中,应用场景的复杂性导致AI应用的“孤岛化”,李开复曾提到一个例子:“如果今天一家银行想做AI应用,但没有任何数据可以用来冷启动,还要收集、清洗、标注数据,再去做模型,整个过程代价都很大。”
而当大模型已成为上层应用的技术底座,可以实现在AI1.0时代无法实现的跨领域部署,支撑终端、平台、系统等产品应用落地。这种像搭积木一样“组合创新”的可能性,以及商业化的能力就像ChatGPT一样,人们不仅发现,它可以深夜聊天,抚慰人心,还会写程序和讲故事。
成本问题之外,并不具备通用能力的小模型,由于无法向行业进行推广与复用,难以形成规模效应,也就更难言盈利。
这种“通用性”激发出诸多新的商业图景,可以将其理解为AI时代的“操作系统”,在降低开发成本的同时,人人都可以是开发者,由此发现与生产出新的产品与应用场景。
找钱、找人、找应用场景
大模型竞赛的枪响之后,创投行业又复现“元宇宙”的热潮。
有大模型企业1个月见的投资人相当于去年一整年。一级市场关于大模型的投融资热度攀升,不少FA们甚至跑去B站开始恶补AI知识,生怕错过一个好项目。
但抢到这张通往新世界的“船票”并非容易,区别于AI1.0时代, 找钱、找人与找应用场景的焦虑,在这一波竞逐中,体现的尤为明显。
首先是找钱。 参考多位创业者的观点,2亿美元是行业普遍认为的启动资金。拆解来看,以硬件成本为例,研究机构TrendForce在一份报告中指出,要处理1800亿参数的GPT-3.5大型模型,需要的GPU芯片数量高达2万颗,未来GPT大模型商业化所需的GPU芯片数量甚至会超过3万颗。
仅在算力门槛上,很多创业企业便无力与大厂抗衡。
因此,表面上热火朝天的大模型赛道,风大“鱼”贵,但实际投资人们心里也知道,仅靠几张PPT创新的时代过去了,投资既是要投靠谱的人,也要考虑赛道与具体的商业路径,毕竟,钱也一定要投在刀刃上。
云启资本合伙人陈昱在接受《甲子光年》采访时就表示:“做大模型创业的公司要融到大钱不容易了。”
英诺天使基金合伙人王晟曾表示,“我们也经常‘刷论文’,看到AI领域里很棒的论文,直接就去找作者了,看他是一个学霸,还是有创业潜质、业务没有商业化的潜力,如果合适,我们也会建议他创业并考虑投资。”
比起AI1.0时代的纯科学家创业,AI2.0时代更像是一场互联网大佬与科学家们的“集体二次创业”。
能够融到“大钱”的要么是有创始人经历或个人魅力背书,要么就是此前长期跟踪孵化,双方一直保持着良好的合作关系。
比如,目前融资总额已达数亿元的澜舟科技是创新工场从0到1孵化出的企业,而由前京东技术委员会主席周伯文创立的衔远科技,背后的参投方启明创投等均是AI领域的长期捕手。
其次,找到合适的人也并不容易,在这一点上,科技巨头与创业公司面临相同的处境。 在一档播客节目中,已宣布加入光年之外的北京智源人工智能研究院副院长刘江曾发出呼吁:“所有的同学,如果你是AI的顶级人才,或者有这样的人,欢迎来到光年之外。”
“大数据+强算法+大算力”被视为支撑大模型落地的重要公式,大厂有算力,也有数据,能够提供标准化的产品,但算法背后对应的则是人才。大厂很难留住强算法人才的原因在于,大模型投入是一件长期主义的事,必定会面临与既有业务之间的冲突,从大厂出走的诸多大模型创业者的经历已然说明了这一点。
而对创业公司而言,即便有首席科学家的支撑,找到合适的人也并不容易。
聆心智能创始人、清华大学计算机科学与技术系长聘副教授黄民烈认为,如OpenAI这种技术见长的公司需要很多特别牛的工程技术人才。
对创业企业而言,回到前述的融资环境下,无论是基于创始人的背景背书,抑或是资源合作,都需要长期积淀。
同时,在强调生态的大模型赛道,创业型企业势必要面临来自投资方、合作方乃至竞对间的博弈,一个合适的伙伴不仅要在自己的细分领域内做到顶尖(懂技术+懂产品),还有随时保持战略的独立性,不轻易站队。
最后,能否找到合适的应用场景,另辟赛道,并迅速建立护城河壁垒,这一问题也同样拷问着入局者。
百度李彦宏将当前的大模型生态分为三类,他最看好应用层的市场机遇。
第一类是新型云计算公司,云计算主流商业模式将会从IaaS变为MaaS(模型即服务)。
第二类是进行行业模型精调的公司,介于通用大模型和企业之间的中间,这类企业可以基于对行业的洞察,调用通用大模型能力,为行业客户提供解决方案。
第三类是应用层的企业,基于通用大语言模型开发应用服务,这可能才是真正的机会。
区别于国外专业化的分工,当前,国内的大模型赛道的创业模式主要分类是三类: 一类是聚焦基础层,对标OpenAI,发挥基础设施的作用。一类是锚定中间层,不需要如OpenAI一样花大钱做底层,掌握通用化能力,可以通过开源大模型做精调,让模型具备差异化能力,最终可以形成垂直类模型。还有一类就是调用大模型API的企业,专注开发大模型具体场景的应用,如Jasper。
如果将大模型比喻成AI时代的电,那么基础层与中间层担任的都是“发电厂”的角色,需要极高的门槛,对资金、技术以及资源有严格的准入壁垒,大多也是大公司间的竞逐。
百度、阿里、华为头部企业均采取“模型+工具平台+生态”三层共建模式的模式,推动业务的正向循环。
大厂的竞逐中,也涌现出一些创业公司,既做大模型,又将其能力输出至垂直行业,形成定制化模型,虽然避开了与有钱有势的大厂们的直接竞争,但也面临三大难题。
一是数据如何才能做专做细,很多行业定制化模型依旧难以形成数据飞轮与场景飞轮。二是大厂极容易摘低垂的果实,垂直大模型实现复用的前提是必须要在该行业建立壁垒与护城河,即“人无我有”的竞争优势。三是通用化往往是历史的趋势,因此“未来垂直大模型是否会最终被通用大模型取代”这一问题也值得思考。
大船票or小船票?
人工智能专家侯世达的学生梅拉妮·米歇尔在《AI 3.0时代》里认为,研究人工智能与赛道中的创业者们都熟悉了一种模式——先是“人工智能的春天”,紧接着是过度的承诺和媒体炒作,接下来便是“人工智能的寒冬”。从某种程度上来说,这种模式以5~10年为周期在不断上演。
正在兴起的“大模型热”也必定会经历从繁荣到挤去泡沫的过程。
对中国的科技公司而言,“能不能做出一个中国版GPT”“中国创业公司里是否会出现一个OpenAI”。对上述大模型行业的叩问,从业者们看法不一。
李彦宏在被问到“中国创业公司里会不会再出一个OpenAI?”时,他直接回答“基本不会了”,“没有必要再重新发明一遍轮子。”
但另一种观点也认为,中国攻坚大模型依旧难以绕开OpenAI,这种危机感越发强烈。旷视科技联合创始人印奇在接受钛媒体采访时表示,中国攻坚 AI 大模型要先把GPT-3.5复现出来,但面临长期技术创新与短周期商业化两重压力:
“未来的一段时间,能不能有一个公司首先把大模型真的做出来,且性能真的是达到GPT-3.5,这是所有事情的起点。就像菜你没有炒过,不知道盐和味精怎么放,而且GPT所消耗的资源、门槛都非常高。”
是崇尚“大算力+大数据+强算法”的暴力美学,还是专注将一个垂直模型做透做专?中国企业的机会又在哪里?又可以在哪些方面深耕与挖掘?
这些问题的答案都亟待解决。
与此同时,人们也关注大模型行业未来的市场格局演进。未来究竟是两三家企业间的竞争,还是百花齐放?“大船票”和“小船票”或牵引企业走向不一样的结局。
在关于大模型的这场游戏中,尽管尚未看到终局,但对入局者而言,有两大方向是确定的:
一个是应用与场景先行的逻辑。 国产大模型极为强调产业侧的价值,一方面当前中国智能化浪潮下,产业侧数字化实践本就有广阔的市场需求,另一方面在2B生态下,基于垂直应用的实践本身也有利于形成数据飞轮与场景飞轮。
以金融业为例,BloombergGPT的诞生已说明了这一领域既有数据基础,也有多元化场景需求。但在此前的实践中,存在的问题一是数据量庞大,AI专家培养成本高,因此只有头部银行机构愿意尝试。二是金融机构对业务的连续性与数据的准确性有着严苛要求,因此也对大模型厂商对行业的理解能力提出了高要求。
换言之,回到业务本质,需要什么就用什么。
通用意味着泛化,这为能够输出精准能力的企业提供了机会窗口。如果能将一个垂直领域做专做透, 用高质量的数据持续优化模型,将价值链做长。 对创企而言,金融、医疗、教育等领域都有市场空间。
二是先行者已提供了路线参照。 如周鸿祎所言,差距并非是天壤之别,路线已经明确。周鸿祎指出:“发展大语言模型,别人已经指明了技术路线,剩下的就是长期主义指导下的时间问题。”
很难回答,此轮的大模型竞逐是否是人工智能竞赛浪潮最后的哨声,但几乎每个从业者都害怕自己会成为“最后的一个”。科技大公司们恐惧被颠覆,创业公司恐惧被大公司们颠覆,更大的恐惧则来自于大模型超越摩尔定律的技术迭代速度。
而在商业世界里,危机与恐惧往往是最好的原动力。