国产大模型狂飙,谁能率先做出第一个中国版GPT

news2025/1/11 17:03:43

热火烹油的大模型赛道打起了“嘴仗”。 

搜狗前CEO王小川评价百度创始人李彦宏的采访发言称:“你们采访的可能是平行世界的他,不是我们这个世界里的。” 

而针对王小川的评论,百度集团副总裁、搜索平台负责人肖阳又回应道:“王小川脱离一线太久,确实跟我们不在一个宇宙,自然对国内人工智能技术的发展缺乏了解。” 

意外的是,王小川在14日凌晨又“嘲讽”了一把,称对 方是“脱离一线15年的人,去怼离开1.5年的人”。 

这场争论也暴露出创业派与大厂间微妙的竞争关系。 

毋庸置疑,大模型技术彻底点燃了科技圈的热情,创业者忙着招兵买马,生怕错过了新风口;一级市场关于大模型的投融资热度攀升,不少FA们甚至跑去B站开始恶补AI知识。 

政策端也在吹来暖风,北京市经济和信息化局发布的《2022年北京人工智能产业发展白皮书》显示,今年,北京将支持头部企业打造对标ChatGPT的大模型。 

热闹只是硬币的A面。 

无论是忙着官宣大模型的科技大厂,还是广发英雄帖的创业公司,身处这股浪潮之中的人们都在思考一些关键问题:率先做出第一个中国版GPT的是谁?还有多久才能做出来?市场格局又会是发生怎样的变化? 

这些问题都难以给出正确的答案,事实上,也没有人能给出准确的回答。毕竟,人们总是高估一项科技所带来的短期效益,却又低估它的长期影响。 

本文将围绕当下中国的大模型竞争现状,基于行业资料与研究,主要回答三个问题: 

1. 为什么国内科技公司要纷纷竞逐大模型?

2. 火热背后,中国科技公司究竟缺什么?

3. 中国科技公司“大模型之战”的走向会是什么?

为什么极客们都爱大模型?

理解中国科技巨头们的“大模型焦虑”,一张产品发布时刻表就够了。 

在OpenAI发布GPT-4大模型后,百度用“Demo演示”的形式正式发布文心一言。同样在3月,53岁的周鸿祎决定“把刚出生的孩子抱出来给大家看看”,他推出360的大模型产品,甚至仓促到名字都要现场取。 

随后的一个多月里,科技巨头、创业公司与高校研究院们展开了一轮关于“大模型”的军备竞赛,整个4月可以被称为“大模型的发布月”,继百度之后,华为、商汤、阿里已在4月亮出自己的大模型产品。 

最新的消息是,京东计划在今年发布新一代产业大模型“言犀”,被视为“京东版”ChatGPT。 

大模型也成为了互联网大佬扎堆二次创业的热门赛道。 

原美团联合创始人王惠文、创新工场CEO李开复、前京东AI掌门人周伯文、前阿里技术副总裁贾扬清等均入局创业。前搜狗CEO王小川的百川智能已完成了5000万美元融资,王小川给了自己一个DDL:“今年年底做到国内最好的”。 

一位业内人士这样形容当下百花齐放的图景:“(这波创业)很像2000年左右的互联网创业潮。” 

普通读者们很难理解科技圈对大模型的拥趸,毕竟类似的创业潮在元宇宙、XR行业也都复现过。但如果深入理解人工智能的发展历史与传统AI时代的困境,就能理解为何这群极客们如此热爱大模型。 

关于大模型的定义,OpenAI创始人Altman与李开复更愿意将大模型定义为“一种新技术平台”,而学界则将“大模型”对比“小模型”,定义为一种“基于大量数据训练的、拥有巨量参数的模型”,这种模型能适应广泛的下游任务。 

在AI1.0时代,比起创业者对AI智能化的疾呼,大多数人对人工智能只停留在一些单一场景产品端的理解。 

例如人工智能客服、人工智能质检等,上述场景都是针对一项任务具体开发一个专用小模型,并不具备“理解能力”。就像周鸿祎将此前的人工智能产品形容为“人工智障”,在他看来:“在GPT之前,从来没有一个人工智能的产品能真正的理解我们这个世界。” 

从人工智障到人工智能的进化,大模型的出现意味着人们正式进入到AI2.0时代,这背后是大模型的涌现性使然。 

涌现是人工智能领域经常会被提及到的概念,代表一种从量变到质变的过程,当数据规模足够大,参数达到千亿级,即使在没有专门训练过的领域,AI也能涌现出知识理解和逻辑推理能力,华东政法大学人工智能与大数据指数研究院将“涌现性”定义为一个“多种技术融合的结果”:“(大模型)有效集成自然语言处理等多个人工智能核心研究领域的多项技术,实现1+1>2的融合式涌现。” 

换言之,大模型有望解决“人工智能如何理解世界”的问题,实则提供了一条可能迈向AGI(通用人工智能)的可能性。 

另一方面,大模型的通用性也在激发更多的商业图景,解决了AI1.0时代的诸多问题。 

在上一波AI创业潮中,总结AI企业所面临的问题主要两点:一是成本问题,清洗与标注海量的数据需要耗费巨大的成本,商汤科技联合创始人、副总裁杨帆曾表示,对于每一个新场景,公司都要重新收集新数据,搭建定制化模型。 

这种开发模式很像“小作坊”,不但解决问题的成本极高,开发模式也十分低效。 

在实际落地过程中,应用场景的复杂性导致AI应用的“孤岛化”,李开复曾提到一个例子:“如果今天一家银行想做AI应用,但没有任何数据可以用来冷启动,还要收集、清洗、标注数据,再去做模型,整个过程代价都很大。” 

而当大模型已成为上层应用的技术底座,可以实现在AI1.0时代无法实现的跨领域部署,支撑终端、平台、系统等产品应用落地。这种像搭积木一样“组合创新”的可能性,以及商业化的能力就像ChatGPT一样,人们不仅发现,它可以深夜聊天,抚慰人心,还会写程序和讲故事。 

成本问题之外,并不具备通用能力的小模型,由于无法向行业进行推广与复用,难以形成规模效应,也就更难言盈利。 

这种“通用性”激发出诸多新的商业图景,可以将其理解为AI时代的“操作系统”,在降低开发成本的同时,人人都可以是开发者,由此发现与生产出新的产品与应用场景。 

找钱、找人、找应用场景

大模型竞赛的枪响之后,创投行业又复现“元宇宙”的热潮。 

有大模型企业1个月见的投资人相当于去年一整年。一级市场关于大模型的投融资热度攀升,不少FA们甚至跑去B站开始恶补AI知识,生怕错过一个好项目。 

但抢到这张通往新世界的“船票”并非容易,区别于AI1.0时代, 找钱、找人与找应用场景的焦虑,在这一波竞逐中,体现的尤为明显。 

首先是找钱。 参考多位创业者的观点,2亿美元是行业普遍认为的启动资金。拆解来看,以硬件成本为例,研究机构TrendForce在一份报告中指出,要处理1800亿参数的GPT-3.5大型模型,需要的GPU芯片数量高达2万颗,未来GPT大模型商业化所需的GPU芯片数量甚至会超过3万颗。 

仅在算力门槛上,很多创业企业便无力与大厂抗衡。 

因此,表面上热火朝天的大模型赛道,风大“鱼”贵,但实际投资人们心里也知道,仅靠几张PPT创新的时代过去了,投资既是要投靠谱的人,也要考虑赛道与具体的商业路径,毕竟,钱也一定要投在刀刃上。 

云启资本合伙人陈昱在接受《甲子光年》采访时就表示:“做大模型创业的公司要融到大钱不容易了。” 

英诺天使基金合伙人王晟曾表示,“我们也经常‘刷论文’,看到AI领域里很棒的论文,直接就去找作者了,看他是一个学霸,还是有创业潜质、业务没有商业化的潜力,如果合适,我们也会建议他创业并考虑投资。” 

比起AI1.0时代的纯科学家创业,AI2.0时代更像是一场互联网大佬与科学家们的“集体二次创业”。 

能够融到“大钱”的要么是有创始人经历或个人魅力背书,要么就是此前长期跟踪孵化,双方一直保持着良好的合作关系。 

比如,目前融资总额已达数亿元的澜舟科技是创新工场从0到1孵化出的企业,而由前京东技术委员会主席周伯文创立的衔远科技,背后的参投方启明创投等均是AI领域的长期捕手。 

其次,找到合适的人也并不容易,在这一点上,科技巨头与创业公司面临相同的处境。 在一档播客节目中,已宣布加入光年之外的北京智源人工智能研究院副院长刘江曾发出呼吁:“所有的同学,如果你是AI的顶级人才,或者有这样的人,欢迎来到光年之外。” 

“大数据+强算法+大算力”被视为支撑大模型落地的重要公式,大厂有算力,也有数据,能够提供标准化的产品,但算法背后对应的则是人才。大厂很难留住强算法人才的原因在于,大模型投入是一件长期主义的事,必定会面临与既有业务之间的冲突,从大厂出走的诸多大模型创业者的经历已然说明了这一点。 

而对创业公司而言,即便有首席科学家的支撑,找到合适的人也并不容易。 

聆心智能创始人、清华大学计算机科学与技术系长聘副教授黄民烈认为,如OpenAI这种技术见长的公司需要很多特别牛的工程技术人才。 

对创业企业而言,回到前述的融资环境下,无论是基于创始人的背景背书,抑或是资源合作,都需要长期积淀。 

同时,在强调生态的大模型赛道,创业型企业势必要面临来自投资方、合作方乃至竞对间的博弈,一个合适的伙伴不仅要在自己的细分领域内做到顶尖(懂技术+懂产品),还有随时保持战略的独立性,不轻易站队。 

最后,能否找到合适的应用场景,另辟赛道,并迅速建立护城河壁垒,这一问题也同样拷问着入局者。 

百度李彦宏将当前的大模型生态分为三类,他最看好应用层的市场机遇。 

第一类是新型云计算公司,云计算主流商业模式将会从IaaS变为MaaS(模型即服务)。

第二类是进行行业模型精调的公司,介于通用大模型和企业之间的中间,这类企业可以基于对行业的洞察,调用通用大模型能力,为行业客户提供解决方案。

第三类是应用层的企业,基于通用大语言模型开发应用服务,这可能才是真正的机会。

区别于国外专业化的分工,当前,国内的大模型赛道的创业模式主要分类是三类: 一类是聚焦基础层,对标OpenAI,发挥基础设施的作用。一类是锚定中间层,不需要如OpenAI一样花大钱做底层,掌握通用化能力,可以通过开源大模型做精调,让模型具备差异化能力,最终可以形成垂直类模型。还有一类就是调用大模型API的企业,专注开发大模型具体场景的应用,如Jasper。 

如果将大模型比喻成AI时代的电,那么基础层与中间层担任的都是“发电厂”的角色,需要极高的门槛,对资金、技术以及资源有严格的准入壁垒,大多也是大公司间的竞逐。 

百度、阿里、华为头部企业均采取“模型+工具平台+生态”三层共建模式的模式,推动业务的正向循环。 

大厂的竞逐中,也涌现出一些创业公司,既做大模型,又将其能力输出至垂直行业,形成定制化模型,虽然避开了与有钱有势的大厂们的直接竞争,但也面临三大难题。 

一是数据如何才能做专做细,很多行业定制化模型依旧难以形成数据飞轮与场景飞轮。二是大厂极容易摘低垂的果实,垂直大模型实现复用的前提是必须要在该行业建立壁垒与护城河,即“人无我有”的竞争优势。三是通用化往往是历史的趋势,因此“未来垂直大模型是否会最终被通用大模型取代”这一问题也值得思考。 

大船票or小船票?

人工智能专家侯世达的学生梅拉妮·米歇尔在《AI 3.0时代》里认为,研究人工智能与赛道中的创业者们都熟悉了一种模式——先是“人工智能的春天”,紧接着是过度的承诺和媒体炒作,接下来便是“人工智能的寒冬”。从某种程度上来说,这种模式以5~10年为周期在不断上演。 

正在兴起的“大模型热”也必定会经历从繁荣到挤去泡沫的过程。 

对中国的科技公司而言,“能不能做出一个中国版GPT”“中国创业公司里是否会出现一个OpenAI”。对上述大模型行业的叩问,从业者们看法不一。 

李彦宏在被问到“中国创业公司里会不会再出一个OpenAI?”时,他直接回答“基本不会了”,“没有必要再重新发明一遍轮子。” 

但另一种观点也认为,中国攻坚大模型依旧难以绕开OpenAI,这种危机感越发强烈。旷视科技联合创始人印奇在接受钛媒体采访时表示,中国攻坚 AI 大模型要先把GPT-3.5复现出来,但面临长期技术创新与短周期商业化两重压力: 

“未来的一段时间,能不能有一个公司首先把大模型真的做出来,且性能真的是达到GPT-3.5,这是所有事情的起点。就像菜你没有炒过,不知道盐和味精怎么放,而且GPT所消耗的资源、门槛都非常高。” 

是崇尚“大算力+大数据+强算法”的暴力美学,还是专注将一个垂直模型做透做专?中国企业的机会又在哪里?又可以在哪些方面深耕与挖掘? 

这些问题的答案都亟待解决。 

与此同时,人们也关注大模型行业未来的市场格局演进。未来究竟是两三家企业间的竞争,还是百花齐放?“大船票”和“小船票”或牵引企业走向不一样的结局。 

在关于大模型的这场游戏中,尽管尚未看到终局,但对入局者而言,有两大方向是确定的: 

一个是应用与场景先行的逻辑。 国产大模型极为强调产业侧的价值,一方面当前中国智能化浪潮下,产业侧数字化实践本就有广阔的市场需求,另一方面在2B生态下,基于垂直应用的实践本身也有利于形成数据飞轮与场景飞轮。 

以金融业为例,BloombergGPT的诞生已说明了这一领域既有数据基础,也有多元化场景需求。但在此前的实践中,存在的问题一是数据量庞大,AI专家培养成本高,因此只有头部银行机构愿意尝试。二是金融机构对业务的连续性与数据的准确性有着严苛要求,因此也对大模型厂商对行业的理解能力提出了高要求。 

换言之,回到业务本质,需要什么就用什么。 

通用意味着泛化,这为能够输出精准能力的企业提供了机会窗口。如果能将一个垂直领域做专做透, 用高质量的数据持续优化模型,将价值链做长。 对创企而言,金融、医疗、教育等领域都有市场空间。 

二是先行者已提供了路线参照。 如周鸿祎所言,差距并非是天壤之别,路线已经明确。周鸿祎指出:“发展大语言模型,别人已经指明了技术路线,剩下的就是长期主义指导下的时间问题。” 

很难回答,此轮的大模型竞逐是否是人工智能竞赛浪潮最后的哨声,但几乎每个从业者都害怕自己会成为“最后的一个”。科技大公司们恐惧被颠覆,创业公司恐惧被大公司们颠覆,更大的恐惧则来自于大模型超越摩尔定律的技术迭代速度。 

而在商业世界里,危机与恐惧往往是最好的原动力。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410743.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaSE补充 | 网络编程

目录 一:网络编程 1. 网络编程概述 2. 网络通信要素 3. 传输层协议:TCP 与 UDP 协议 4. 网络编程 API 5. TCP网络编程 6. UDP 网络编程 7. URL编程 一:网络编程 1. 网络编程概述 Java是 Internet 上的语言,它从语言级上提…

【redis】单线程 VS 多线程(入门)

【redis】单线程 VS 多线程(入门) 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成&#…

Python之数据库操作(连接数据库,增删改查操作,易错点理解)

文章目录 前言一、Python之数据库操作二、pymysql 安装三、pymysql 包引入 连接数据库创建游标执行sql数据 - 增删改查要获取查询结果数据关闭游标,关闭数据库连接总结前言 记录:Python操作数据库的步骤,不容易理解的地方。 一、Python之数据…

开局一张图,构建神奇的 CSS 效果

假设,我们有这样一张 Gif 图: 利用 CSS,我们尝试来搞一些事情。 图片的 Glitch Art 风 在这篇文章中 --CSS 故障艺术,我们介绍了利用混合模式制作一种晕眩感觉的视觉效果。有点类似于抖音的 LOGO。 像是这样: 假设…

14、DRF实战总结:获取Django请求路径的方法以及各自的区别

Django项目开发中经常需要在视图中获取用户当前请求url的地址,然后进行跳转或判断操作,比如是否在url黑白名单里。Django提供了多种获取请求路径的实现方式,比如request.path, request.path_info, request.get_full_path和request.build_abso…

【Python】【进阶篇】十六、Python爬虫的浏览器实现抓包

目录十六、Python爬虫的浏览器实现抓包16.1 控制台界面16.1.1 NetWork16.1.2 Sources16.1.3 Console16.1.4 Application16.2 数据包抓取16.3 看变化规律十六、Python爬虫的浏览器实现抓包 几乎所有浏览器都提供了抓取数据包的功能,因为浏览器为抓包提供了一个专门的…

【MQTT协议】使用c++实现mqtt协议(Mosquitto源码编译)

目录MQTT协议简介发布/订阅模式简介MQTT协议与发布/订阅模式的联系基于Mosquitto实现的MQTT服务器Mosquitto安装MQTT协议简介 MQTT(Message Queuing Telemetry Transport)是一种轻量级的、基于发布/订阅模式的消息传输协议,其最初由IBM开发&…

(链表专题) 445. 两数相加 II ——【Leetcode每日一题】

445. 两数相加 II 给你两个 非空 链表来代表两个非负整数。数字最高位位于链表开始位置。它们的每个节点只存储一位数字。将这两数相加会返回一个新的链表。 你可以假设除了数字 0 之外,这两个数字都不会以零开头。 示例1: 输入:l1 [7,2,…

什么是时间复杂度和空间复杂度

什么是时间复杂度和空间复杂度 🍕博客主页:️自信不孤单 🍬文章专栏:数据结构与算法 🍚代码仓库:破浪晓梦 🍭欢迎关注:欢迎大家点赞收藏关注 文章目录什么是时间复杂度和空间复杂度1…

【服务器数据恢复】 EXT4文件系统下KVM虚拟机数据恢复案例

服务器数据恢复环境: Linux系统服务器,EXT4文件系统,部署KVM虚拟机。 服务器故障: 服务器上的KVM虚拟机被误操作删除,每台虚拟机包含一个qcow2格式的磁盘文件和一个raw格式的磁盘文件,需要恢复raw格式的磁…

大数据-玩转数据-oracle创建dblink及应用

一、创建DBLINK的应用场景 oracle在进行跨库访问时,可以通过创建dblink实现。 二、创建DBLINK应用场景 在tnsnames.ora中配置两个数据库别名:orcl(用户名:wangyong 密码:1988)、orcl2(用户名:wangyong 密码&#xf…

第5章 uniapp开发ImoocBlog

收获: 1.微信小程序 2.uni-app开发慕课热搜项目 3.构建企业级项目的编程思维 4.上线可商用的企业项目 第5章 uniapp开发ImoocBlog uniapp开发ImoocBlog 5-1:开篇 经过前面四个章节,我们已经完成了 微信小程序 的学习。那么从这一章开始我…

【微服务笔记10】微服务组件之Hystrix实现服务降级和服务熔断

这篇文章,主要介绍微服务组件之Hystrix实现服务降级和服务熔断。 目录 一、服务降级 1.1、什么是服务降级 1.2、实现服务降级 (1)引入依赖 (2)编写Service层代码 (3)编写Controller层代码…

CesiumForUnreal实现鹰眼地图(MiniMap)效果

文章目录 1.实现目标2.实现过程3.参考资料1.实现目标 基于CesiumForUnreal插件加载的在线地形和影像数据,使用Widget实现鹰眼小地图的效果,GIF动图如下: 2.实现过程 在UE开发中,常用的以Widget方法实现小地图的形式有两种。一种是动态的小地图,即地图的纹理图片会发生变化…

【Spark】RDD缓存机制

1. RDD缓存机制是什么? 把RDD的数据缓存起来,其他job可以从缓存中获取RDD数据而无需重复加工。 2. 如何对RDD进行缓存? 有两种方式,分别调用RDD的两个方法:persist 或 cache。 注意:调用这两个方法后并不…

腾讯云轻量服务器和云服务器区别对比(超详细全方位)

腾讯云轻量服务器和云服务器有什么区别?为什么轻量应用服务器费用更低?是因为轻量服务器CPU内存性能比云服务器CVM性能差吗?轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境,云服务器CV…

Parcel 实践:轻松打包前端项目

结论 Parcel 是一个功能强大且易于使用的前端构建工具,它可以帮助您快速地构建 Web 项目。本文提供了关于如何开始使用 Parcel、配置和优化性能的实践方法。希望这些内容对您有所帮助! Parcel 是一个快速,零配置的 Web 应用打包工具。它的简单…

7nm舱泊一体SoC的新玩家

2016年,高通推出基于14纳米工艺的汽车座舱芯片骁龙820A,彼时,传统座舱SoC霸主NXP主推的是28纳米工艺的iMX8系列。不过,两款芯片都没有能够达到预期的量产效果。 真正的时代变革,来自于高通在2019年发布的全球首款量产7…

【产品设计】电商后台系统设计--订单管理

电商后台产品,涉及众多模块,而以商品、订单、库存,为核心模块,模块之间存在大量交互。订单较为重要,它记录了所有的交易数据 对电商公司来讲,最核心最难做的有三部分:商品、订单、库存。商品与店…

记一次中大规模数据库迁移过程,从MySql到PostgreSQL.

从MySql到PostgreSQL迁移的决策过程就不说了。我也是第一次用PostgreSQL,也没法说好不好。决策已经定了,下面介绍一下执行过程。 一、数据基本情况 服务器:4核CPU,8G内存,1T硬盘,8Mbit网速。 数据库&…