百模大战,谁是下一个ChatGPT?

news2025/1/16 7:57:17

“不敢下手,现在中国还没跑出来一家绝对有优势的大模型,上层应用没法投,担心押错宝。”投资人Jucy(化名)向光锥智能表示,AI项目看得多、投的少是这段时间的VC常态。

ChatGPT点燃AI大爆炸2个月中,中国一直在等待自己的GPT-3.5。

AI真的冒犯到了打工人。游戏团队替代掉30%的原画师、电商团队用AIGC生成低成本数字人模特、基础程序员也感受到了被降维打击的焦虑......眼看着GPT在国外要将所有领域都重新做一遍的趋势,科技颠覆裹挟着金钱的味道滚滚而来。

于是,除了焦虑的打工人,企业急着用大模型降本增效,创业者急着接入大模型推出新产品,股市急着用ChatGPT概念割韭菜,培训机构更是先赚一波为敬。

衬托之下,反而显得喜欢追逐风口的中国科技巨头们比以往更沉得住气。

果然,周期使人成长,公司也是。

终于,众望所归、望眼欲穿、姗姗来迟,4月第二周,中国也迎来了新一代大模型的密集发布。

  • 继通义千问开放测试4天后,张勇在接手阿里云后首次亮相,宣布所有阿里产品未来将接入“通义千问”大模型,进行全面改造;
  • 商汤科技在10日的技术交流会上,演示了“日日新”大模型的能力:对话、AI绘画、编程、数字人,第二天开盘大涨9%;
  • 华为盘古大模型在8日低调亮相,但并于10日发布新产品;
  • 明星创业者王小川公开亮相,携手搜狗老搭档茹立云正式开启AI创业的新征程,将在下半年推出百川智能的大模型;
  • 毫末发布首个自动驾驶大模型DriveGPT雪湖·海若,把人类反馈强化学习引入到驾驶领域。
  • 就连游戏公司昆仑万维也赶来凑热闹,宣称“中国第一个真正实现智能涌现”的国产大语言模型将于17日启动邀请测试,但随后被媒体质疑其借热点炒作股价。

热热闹闹、真真假假,大模型一时竟然有点乱花渐欲迷人眼。中国的大模型怎么就一下子如雨后春笋般都冒了出来?如果不重复造轮子,大家还能干点什么?

虽然是摸着Open AI过河,但中国大模型也都迈入了无人区。

涌现之前:亦步亦趋,又分道扬镳

如果要为AI大模型找一个时间节点,2019年应该是关键的一个。

这一年2月,远在大洋彼岸的OpenAI推出了GPT-2,恰好也是这个时间点,微软慷慨的投入了10亿美元,让OpenAI从“非营利性”组织变成了“盈利上限”组织。

大概在一个月之后,太平洋的另一边,百度发布了ERNIE1.0,成为中国第一个正式开放的预训练大模型。

但这种第一其实有很多,比如华为的盘古大模型,业界首个千亿参数的中文语言预训练模型;比如阿里的M6,中国首个千亿参数多模态大模型;再比如腾讯HunYuan,国内首个低成本、可落地的NLP万亿大模型.....

总之,只要定语加的足够多,就总能在某个领域当第一。那段时间,从硅谷到北京西二旗、再从五道口到上海临港,包括华为、阿里、腾讯、商汤在内,凡是有能力的企业,都开始涉足AI大模型的相关研究。

但中国第一波AI大模型的“涌现”却是在两年之后。

2021年,曾任职过微软亚洲工程院院长、后被雷军亲自邀请到金山接替求伯君任CEO的张宏江,牵头成立的智源研究院发布“悟道1.0”,包括国内首个面向中文的NLP大模型、首个中文通用图文多模态大模型和首个具有认知能力的超大规模预训练的模型等等。

智源成立于2018年,也就是OpenAI发布GPT-1.0的前五个月,作为北京市和科技部牵头成立,并集合学界和头部科技企业资源的研究机构,智源其实是中国早期探索AI大模型的一个代表。

可以说,“悟道1.0”其实为中国后来所有AI大模型的一个样本。除此之外,智源研究院还为中国构建了大规模预训练模型技术体系,并建设开放了全球最大中文语料数据库WuDaoCorpora,为后来其他企业发展AI大模型打下了基础。

也正是在“悟道1.0”之后,中国大模型开始出现井喷的状态。

2021年,华为基于昇腾AI与鹏城实验室联合发布了鹏程盘古大模型。2022年,阿里发布了“通义”大模型系列,腾讯发布混元AI大模型......

在中国AI大模型如雨后春笋般涌现的同时,国外的AI大模型也走到了从量变到质变的节点。

2022年11月,OpenAI发布了基于GPT-3.5的ChatGPT,彻底打开了人工智能的魔盒,然后就是席卷全球的AI 2.0浪潮。

事实上,如果以2018年GPT-1发布为节点,中国的AI大模型的发展与国外的发展脉络一直都亦步亦趋,但ChatGPT为什么并没有出现在中国?

这其实和国内外AI大模型两种不同的发展路径有关。

从目前国外具有代表性的AI大模型产品来看,比如ChatGPT、Midjourney、Notion AI或者Stable diffusion等等,都是以C端用户为基础的产品。

而反观国内,目前大模型的主要应用场景的都在B端。

比如阿里的“通义”大模型的典型应用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等等,而腾讯的HunYuan-NLP-1T大模型则应用在腾讯广告、搜索、对话等内部产品落地,或者像商汤的大模型,为自动驾驶、机器人等通用场景任务提供感知和理解能力支持。

之所以选择To B,一个重要的原因是,B端能够更容易进行商业化。

To B的行业特点导致中国的AI大模型并不需要做到非常大的参数规模,甚至于当ChatGPT出来之后,国内的公司讨论的一个重要方向,是如何将已有的大模型规模“做小”,应用到具体的行业上。

所以中国采用谷歌BERT路线的AI大模型会比较多,以更小的参数,做更有效率,更适合垂类的场景。

所以某种程度上,从出生的第一天,中国大模型就带着商业化的任务。

而国外To C的大模型则不同,如ChatGPT的用户在短短两个月就达到一亿,其底层预训练大模型GPT-3.5作为通用大模型,“大”成为参数的一个基本要求。

这在某种程度上促进OpenAI不停为GPT增加参数,然后激发更强大的“涌现”现象,最终实现“大力出奇迹”的ChatGPT。

因此,To B和To C两种完全不一样的发展路径,也将中国和美国的AI大模型引向了两种完全不同的发展方向。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/419267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么工控行业生意越来越难做了?

前段时间跟几个做工业品销售的朋友聚了一下,大家都说去年一年挺难的,有些甚至想把小店关了。为什么现在工业品领域越来越难做了呢?今天也想给大家说一说我的一些看法。 以前的工控生意相对现在来说较为有限和封闭,技术上也没有现今…

Android 大图检测插件的落地

作者:layz4android 在实际的项目开发中,引入图片的方式基本可以分为两种:本地图片和云端图片,对于云端图片来说,可以动态地配置图片的大小,如果服务端的伙伴下发的图片很大导致程序异常,那么可以…

前端视角-https总结

1.http存在的问题 1.1可能被窃听 HTTP 本身不具备加密的功能,HTTP 报文使用明文方式发送互联网是由联通世界各个地方的网络设施组成,所有发送和接收经过某些设备的数据都可能被截获或窥视。(例如TCP/IP抓包工具:Wireshark),即使经过加密处理,也会被窥视是通信内容,只是可能很…

在 Flutter 多人视频通话中实现虚拟背景、美颜与空间音效

前言 在之前的「基于声网 Flutter SDK 实现多人视频通话」里,我们通过 Flutter 声网 SDK 完美实现了跨平台和多人视频通话的效果,那么本篇我们将在之前例子的基础上进阶介绍一些常用的特效功能,包括虚拟背景、色彩增强、空间音频、基础变声…

HBase高手之路4-Shell操作

文章目录HBase高手之路3—HBase的shell操作一、hbase的shell命令汇总二、需求三、表的操作1.进入shell命令行2.创建表3.查看表的定义4.列出所有的表5.删除表1)禁用表2)启用表3)删除表四、数据的操作1.添加数…

TensorFlow 深度学习实战指南:1~5 全

原文:Hands-on Deep Learning with TensorFlow 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象,只关心如…

【通义千问】继ChatGPT爆火后,阿里云的大模型“通义千问”它终于来了

通义千问一、通义千问名字的由来二、通义千问和ChatGPT有什么区别呢?三、如何申请体验通义千问呢?四、未来通义千问能称为中国版的ChatGPT吗?五、通义千问什么时候正式发布呢?一、通义千问名字的由来 通义千问顾名思义&#xff0…

作物杂交——蓝桥杯20年省赛(JAVA)

题目链接: 用户登录https://www.lanqiao.cn/problems/506/learning/?page2&first_category_id1&sortstudents_count 题目描述 作物杂交是作物栽培中重要的一步。已知有 N 种作物 (编号 1 至 N ),第 i 种作物从播种到成熟的时间为 Ti​。作物…

少儿编程 电子学会图形化 scratch编程等级考试四级真题答案解析(判断题)2022年12月

2022年12月scratch编程等级考试四级真题 判断题(共10题,每题2分,共20分) 16、点击绿旗,反复按下空格键,可以使变量a的值在0和1之间反复变化 答案:对 考点分析:考查积木综合使用,重点考查变量积木的使用,按一下空格键,a变量值会改变5次,0-1-0-1-0-1,按第二下…

budibase <2.4.3 存在 ssrf 漏洞(CVE-2023-29010)

漏洞描述 budibase 是一个开源的低代码平台,元数据端点(metadata endpoint)是Budibase提供的一个REST API端点,用于访问应用程序的元数据信息。 budibase 2.4.3之前版本中存在 ssrf 漏洞,该漏洞可能影响 Budibase 自主托管的用户&#xff0…

安利安利-向大家推荐一个超级牛的etcd管理工具-EtcdKeeperFyne

etcd介绍 关于etcd的介绍大家可以看下这篇文章 etcd 开源仓库地址:EtcdKeeperFyne EtcdKeeperFyne 今天主要是向大家推荐一款使用起来特别方便的Etcd管理工具 EtcdKeeperFyne,具体运行起来的界面如下: 推荐原因 使用简单安装简单&…

卷积层输出尺寸计算 / 感受野尺寸计算

卷积层输出尺寸计算 输入图像a*a, 卷积核大小b*b, stride c, padding d 输出图像的尺寸:[(a - b 2d) // c] 1 (a - b 2d) 表示在输入图像两侧填充 d 个像素后,窗口在输入图像上最多能移动的距离,再加上 1 表示最后一个窗口的右侧边界…

博客文章效果

学习风宇blog md文档转html&#xff08;markdown-it的使用&#xff09;语法高亮、行号、一键复制toc生成目录sticky粘性定位 <style lang"scss"> import url(//at.alicdn.com/t/c/font_4004562_9v94jccafmc.css); import url(https://fonts.font.im/css?fam…

DFIG控制8: 不平衡电网下的网侧变换器控制

DFIG控制8&#xff1a; 不平衡电网下的网侧变换器控制。主要是添加网侧变换器的负序分量控制器。 本文基于教程的第8部分&#xff1a;DFIM Tutorial 8 - Asymmetrical Voltage Dips Analysis in DFIG based WT: Grid Side Converter Control 控制策略简介 来自&#xff1a;G…

过滤器(Filter)与拦截器(Interceptor)区别

1 过滤器&#xff08;Filter&#xff09; Servlet 中的过滤器 Filter 实现了 javax.servlet.Filter 接口的服务器端程序&#xff0c;主要用途是设置字符集&#xff08;CharacterEncodingFilter&#xff09;、控制权限、控制转向、用户是否已经登陆、有没有权限访问该页面等。 …

springboot配置跨域问题

近期自己搭建项目时&#xff0c;遇到一个跨域问题。我们以前项目解决跨域是在controller上加一个跨域注解CrossOrigin(allowCredentials "true")&#xff0c;很方便。但是在我自己搭建的项目中&#xff0c;启动时竟然报错了&#xff0c;错误如下&#xff1a; When …

图的传递闭包

给定一个有向图,对于给定图中的所有顶点对(i, j),找出一个顶点j是否可从另一个顶点i到达。这里的可达性是指从顶点i到j有一条路径。可达性矩阵称为图的传递闭包。 例如,考虑下面的图表 上述图的传递闭包为 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 该图以邻接矩阵的形式给出,…

抛弃 TCP 和 QUIC 的 HTTP

下班路上发了一则朋友圈&#xff1a; 周四听了斯坦福老教授 John Ousterhout 关于 Homa 的分享&#xff0c;基本重复了此前那篇 It’s Time To Rep… 的格调&#xff0c;花了一多半时间喷 TCP… Ousterhout 关于 Homa 和 TCP 之间的论争和论证&#xff0c;诸多反复回执&…

DAY15|102.二叉树的层序遍历。。。。等层序遍历的十道题

102.二叉树的层序遍历 代码随想录中的这题java和c不太一样 class Solution {public List<List<Integer>> resList new ArrayList<List<Integer>>();public List<List<Integer>> levelOrder(TreeNode root) {checkFun01(root,0);return …

NVIDIA- cuSPARSE(四)

cuSPARSE logging 日志记录机制&#xff0c; 可以通过在启动目标应用程序之前设置一下环境变量来启动cuSPARSE日志记录机制&#xff1a; CUSPARSE_LOG_LEVEL<level> level的取值&#xff1a; 0 Off 日志记录关闭1 Error只有报错会被记录2Trace启动CUDA内核的API调用将记…