中国大模型的路,是不是走歪了?

news2024/11/24 8:48:41

8f6cf636050235c62a99e31c0abb5ef2.png

379d1bba3d7144717eb437632fa6a916.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


在这波全球大模型的浪潮中,中国与美国无疑成为了领军者。但中美在大模型的发展策略上却出现了显著的分歧。美国,以OpenAI为代表,持续致力于通用型大模型的研发。与此相反,中国则将目光投向了行业大模型。众所周知,国内科技巨头如百度、阿里、华为等,在已有的通用大模型基础上,纷纷推出了为各个行业量身定做的大模型。同时,众多的创新公司和各行各业的头部企业也开始涌入这个领域,积极地发布各类行业大模型。

然而,当我们沉浸在这种欣欣向荣的景象中时,一系列的迹象引起了笔者的关注,我们不得不思考一个问题:中国在大模型的探索之路上是否已经偏离了正确的轨道?难道我们又要重蹈当年SaaS市场的老路,走入一个看似繁荣却可能是误区的局面吗?

行业大模型并不是空中楼阁

大模型的出现和快速发展为AI领域带来了革命性的变革。其中,大模型的核心流程可以简化为两大环节:预训练和微调。通过预训练,我们得到了所谓的“通用大模型”。进而,基于这种通用模型,我们可以使用特定行业的数据进行微调,从而产生“行业大模型”。

9feebfc61d95f4fd79686a5a64022d96.png

在过去的几个月里,我们目睹了中国涌现出大量的行业大模型。这种现象背后隐含的一个事实是:打造行业大模型的技术门槛相对较低。为什么会这样呢?首先,随着开源技术的普及,技术上的壁垒逐渐被打破。许多优质的预训练技术、框架和工具已经被广大研发者和机构所采纳和使用。其次,相对于开发一个全新的大模型,微调现有的通用大模型更为简单快捷,只需要大量、高质量的行业数据即可。

打造一个强大的通用大模型却是一项长期且复杂的任务,这需要巨大的计算资源、多样化的数据和深厚的技术积累。因此,相比之下,行业大模型的产生,就显得更为便捷了。

但这种便捷性带来的是双刃剑效应。大量涌现的所谓行业大模型,并不具备真正的竞争壁垒。这其中的原因多种多样。技术上,因为它们大多基于相似的开源技术和通用大模型进行微调,很少有真正的技术创新。数据上,尽管行业数据是关键,但许多企业并没有真正挖掘、整合和利用这些数据的能力,使得其微调的效果并不理想。

底层通用大模型的每次迭代,

都将“淹没”一大批所谓的行业大模型

当我们谈论现代技术时,我们必须理解其动态性和快速发展的特性。大模型技术的快速迭代就是一个典型的例子,每次通用大模型的升级都使其前一代的技术变得陈旧。

以OpenAI的GPT系列为例,从GPT到GPT-4,其发展历程几乎可以形容为“飞速”。而在技术世界中,速度就是竞争力。每当OpenAI发布一个新版本,它都会因为更多的参数、更先进的算法和更高的性能,使前一版本相形见绌。而这种进化不仅仅局限于通用模型,实际上,它更多地影响到了基于前一代模型微调出的行业大模型。

试想,一个企业可能已经投入大量资源在GPT-3上,开发出一套专门为医疗领域设计的AI系统。但当GPT-4问世时,这家企业突然发现,他们的专业系统在新的通用模型面前相对落后,甚至可能不如直接使用GPT-4的效果。这就是因为,每次通用大模型的迭代都意味着一个巨大的技术飞跃,其对特定任务的处理能力会显著增强。

这种现象与硬件行业的情况相似,我们可以把它比喻为计算机硬件的迅速更新。当Intel推出新的处理器时,前一代处理器即使还能正常运行,但在性能和能效方面都会相对落后。而在AI领域,这种更新周期更短、变革更剧烈。

回到大模型,当我们基于某一代模型投入大量资源进行微调时,我们必须认识到这种投资的风险性。举例来说,当一个初创公司决定基于GPT-3开发一个针对金融行业的AI助手时,他们可能面临的风险是,仅仅过了几个月,GPT-4或GPT-5的发布会使他们的产品立即过时。

行业大模型是商用的重要方式,

但不要忘了前提条件

诚然,行业大模型的出现似乎为各个垂直领域带来了巨大的机会。它们可以更好地满足特定行业的需求,提供更加定制化的服务,帮助企业提升业务效率,提供更高品质的客户体验。

然而,一切的基石依然是一个强大的通用大模型。只有当通用模型具备强大的能力时,行业大模型的微调才能真正发挥价值。

值得深思的是,中国在AI领域已取得了许多值得骄傲的成果,但与国际顶尖的通用大模型,如GPT-4相比,国内仍存在一定的差距。这对于中国的技术界来说是一个挑战,也是一个机会。挑战在于如何在短时间内弥补这一差距,机会则在于一旦做到,国内的行业大模型将能够站在一个更高的起点。

而现在的现象是,部分企业在通用模型的基础还不够稳固的前提下,急于推出一系列的行业大模型。这种策略显然有其商业逻辑——尽早进入市场,尝试尽快实现商业变现。但这种策略忽视了一个核心问题,那就是技术的根本价值。

企业应用AI技术的根本目的是为了解决实际业务问题,提高运营效率和客户满意度。而如果一个行业大模型在语言理解、逻辑推理、数理计算或内容生成等核心能力上都表现不佳,那么它所带来的实际商业价值就会大打折扣。客户不会因为一个产品声称自己是某个行业的大模型就选择购买,他们更关心的是这个模型能为他们的业务带来什么实际效益。

因此,对于企业和技术研发者来说,关键不在于急于推出各种行业大模型,而是要认识到,强大的通用大模型是所有行业应用的基石。只有在这个基石稳固的基础上,行业大模型才能真正发挥出其应有的价值。

换言之,现在的首要任务是加强通用大模型的研发,尽快追赶国际水平,然后再以此为基础,推出真正有价值的行业大模型。这样的战略布局,既能保障技术的长远发展,也更能真正满足市场和客户的需求。

真正的创新,应该始终以实际需求为导向,而不是盲目追求短期的商业利益。

应该怎么做呢?

对于企业和机构来说,仅仅拥有一个行业大模型并不足以确保其在市场中的竞争优势。

那么,应该怎么做呢?笔者认为,应该在通用大模型和行业大模型上同时发力。

首先,通用大模型还需要尽快进化。无论是文心一格、通义千问还是盘古、混元大模型,都需要进化。

一方面参数规模还需要持续扩大,得有万亿级参数规模的大模型。从技术原理上,扩大参数规模,是提升模型智能涌现的重要方式,这是大模型智能提升的“物理基础”。就像人类为什么比其他动物聪明,人类大脑的神经元数量要显著多于其他动物,就是一个关键的基础。

202ab4e3452a2bbf6d41680de32ebcb3.png

另一方面,在大模型构建、优化的工程能力方面,还需要进一步提升。大家都是基于Transformer架构,技术原理并不是什么秘密,但为什么ChatGPT就是比其他大模型表现得更好?关键就是其AI工程化能力更优。就像造原子弹的技术原理并不是什么秘密,但要造出原子弹,却有大量的技术秘诀和经验,是一个浩大的工程。

只有底层通用大模型足够好,在此基础上构建行业大模型才有意义。

接下来,在构建行业大模型阶段,要在两方面发力:

一方面,要汇集足够规模的高质量行业数据。现在的情况是,各行各业的数据资源都非常有限,并且散落在不同的公司和机构中。这种分散性不仅导致了数据的量不足,更关键的是,没有统一的数据标准和质量控制,使得模型训练效果大打折扣。为了解决这一问题,我们需要促进企业和机构之间的合作,推动行业数据的开放和共享。

比如医疗大模型,关键就是要有足够的医疗数据。这需要通过医疗数据的开放共享来构建行业数据集实现,某个企业、机构的数据量始终是有限的。现在限制行业大模型的一个关键瓶颈,就是没有足够的高质量行业数据,行业数据太分散了,而且质量不够高。要着力解决这个问题。

另一方面,要将行业知识固化到行业大模型当中,这需要一些专业人士与AI人才配合,进行大量的模型调优工作。无论是通用大模型还是行业大模型,其背后的初衷都应该是为用户和客户提供真正的价值。客户需要的不仅仅是技术上的新鲜感,更重要的是在真实的业务场景中,模型能够为他们带来实际的帮助和效益。

无论我们在技术上如何进步,始终不能忘记为什么我们要做这一切。

文:一蓑烟雨 / 数据猿

d4ff585f2ad85425fe188447710a9fdd.jpeg

8585887bd37393dcfd27c4e72fe5b8ca.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1043409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

著名数字音频工作站FL Studio 21.0.3.3517中文破解安装图文激活教程

在一个技术继续塑造我们日常生活的世界里,创造力找到了表达自己的新渠道。FL Studio 21成为一个强大的工具,使个人能够创作自己的音乐杰作。一个人需要广泛的乐器知识或一个成熟的工作室来创作交响乐的日子已经一去不复返了。有了FL Studio 21&#xff0…

MySQL作业:索引、视图、存储、函数

学生表:Student (Sno, Sname, Sex , Sage, Sdept) 学号,姓名,性别,年龄,所在系 Sno为主键 课程表:Course (Cno, Cname,) 课程号,课程名 Cno为主键 学生选课表:SC (Sno, Cno, Score) …

【响应式布局】

响应式布局 1 什么是响应式布局2 响应式布局的5种实现方案2.1 百分比布局2.2 媒体查询布局2.3 rem响应式布局2.4 vw / vh响应式布局2.5 flex弹性布局 1 什么是响应式布局 响应式布局就是一个网站能够兼容多个终端——而不是为每个终端做一个特定的版本。这个概念是为解决移动互…

地球的某一片红薯地中秋圆《乡村振兴战略下传统村落文化旅游设计》——旅行季许少辉八月新书辉少许想象和世界一样宽广

地球的某一片红薯地中秋圆《乡村振兴战略下传统村落文化旅游设计》——旅行季许少辉八月新书辉少许想象和世界一样宽广 地球的某一片红薯地中秋圆《乡村振兴战略下传统村落文化旅游设计》——旅行季许少辉八月新书辉少许想象和世界一样宽广]

定义现代化实时数据仓库,SelectDB 全新产品形态全面发布

导读:9 月 25 日,2023 飞轮科技产品发布会在线上正式召开,本次产品发布会以 “新内核、新图景” 为主题,飞轮科技 CEO 马如悦全面解析了现代化数据仓库的演进趋势,宣布立足于多云之上的 SelectDB Cloud 云服务全面开放…

C++学习资源

https://www.cnblogs.com/xueweihan/p/13928719.html GitHub - Light-City/CPlusPlusThings: C那些事 GitHub - 0voice/introduce_c-cpp_manual: 一个收集C/C新手学习的入门项目,整理收纳开发者开源的小项目、工具、框架、游戏等,视频,书籍&a…

[密码学入门]仿射密码(Affine)

加密算法y(axb)mod N 解密算法x*(y-b)mod N(此处的为a关于N的乘法逆元,不是幂的概念) 如何求,涉及的知识挺多,还没想好怎么写,丢番图方程,贝祖定理(又译裴蜀定理),扩展欧…

学物联网有前途吗?

学物联网有前途吗? 物联网即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点,人、机、物的互联互通。最近很多小伙伴找我&…

中国智能产业高峰论坛:文档大模型与文档图像智能理解的进展和思考

✓ 写在前面✓ 文档大模型的思考与探索✓ 文档图像大模型的进展✓ 多模态大模型与文档图像智能理解多模态大模型的应用和发展文档图像智能理解的技术和挑战产业应用和前景展望 ✓ 写在前面 2023 年第十二届中国智能产业高峰论坛(CIIS 2023)于 9 月 17-1…

LeetCode 474.一和零 动态规划 一维dp(两个维度)

https://leetcode.cn/problems/ones-and-zeroes/description/ 给你一个二进制字符串数组 strs 和两个整数 m 和 n 。 请你找出并返回 strs 的最大子集的长度,该子集中 最多 有 m 个 0 和 n 个 1 。 如果 x 的所有元素也是 y 的元素,集合 x 是集合 y 的…

在SpringBoot中利用Redis实现互斥锁

在SpringBoot中利用Redis实现互斥锁 基本知识 前提条件,有一个能够在Springboot中使用Redis的项目,或者能够直接开也行 为什么要实现互斥锁:当我们利用Redis存储热点数据时,突然就过期失效或者被删除了,导致大量请求同…

Flink安装及简单使用

目录 转载处(个人用最新1.17.1测试) 依赖环境 安装包下载地址 Flink本地模式搭建 安装 启动集群 查看WebUI 停止集群 Flink Standalone搭建 安装 修改flink-conf.yaml配置文件 修改workers文件 复制Flink安装文件到其他服务器 启动集群 查…

秦时明月沧海手游阵容推荐,秦时明月沧海角色强度

秦时明月沧海角色强度如何?在秦时明月沧海手游中,您可以从大量的角色卡牌中选择并发展,为了顺利通过各种副本,玩家们需要精心搭配阵容。那么,具体该如何配置最强的角色呢? 下面,小编将带各位玩家…

简述ceph文件储存系统

Ceph 是一个统一的分布式存储系统和共享机制,它定义了数据如何存储在一个或多个节点上并呈现给其他机器以供文件访问。 Ceph特点 高性能 a. 摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。 b.考…

Vue - 虚拟DOM的简单理解

目录 虚拟DOM虚拟DOM树生成流程 因为直接操作真实的 DOM 会比较影响效率。所以 vue 使用了 虚拟DOM(VNode)来描述要渲染的内容。 虚拟DOM 它是一个 js 对象,比如: const vnode {tag: "h1",children: [{ tag: undefi…

【太阳能多电平逆变器】采用SPWM技术的太阳能供电多电平逆变器研究(simulink)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

centos编译安装opencv,生成opencv-2413.jar

文章目录 前言一、问题来源二、编译安装1.下载源码2.安装基础环境3.安装java环境4.编译安装5.查询结果 总结 前言 在centos7的环境中,编译安装opencv,获得libopencv_java2413.so、opencv-2413.jar的库文件和jar包文件 一、问题来源 异常提示&#xff1…

【力扣2154】将找到的值乘以 2

👑专栏内容:力扣刷题⛪个人主页:子夜的星的主页💕座右铭:前路未远,步履不停 目录 一、题目描述二、题目分析 一、题目描述 题目链接:将找到的值乘以 2 给你一个整数数组 nums ,另给…

AlienSwap 锋芒初现,NFT 市场或将三分天下

本文仅为资讯分享,不构成任何投资建议,也不推荐您购买、出售或者持有任何加密货币。请读者朋友们 DYOR,理性看待区块链,提高风险意识,谨慎投资! ★ Blur 横空出世之前,OpenSea 一直一家独大&am…