野蛮生长后,AI大模型还需要重复“造轮子”?

news2024/11/26 14:49:21

AI大模型带来的智能革命,媲美工业革命和电力革命,深刻改变人类社会的生产生活方式,是开启智能时代的那一台“蒸汽机”。

从文生文到文生图,再到文生视频,以ChatGPT、Sora等为代表的大模型引领了全球人工智能技术与产业的新一轮浪潮,海内外大模型相关研究与产品竞相涌现、加速迭代,进入“百舸争流”的新时代。

不过,人工智能领域似乎进入了一个微妙的节点,众多科技巨头和创业公司纷纷推出自己的AI大模型产品,却难掩同质化的窘境。回顾2023年,自3月份ChatGPT-4上线后,国内科技企业纷纷跑步入场。百度“文心一言”、阿里巴巴“通义千问”、华为“盘古”、360“智脑”、昆仑万维“天工”、京东“灵犀”、科大讯飞“星火”、腾讯“混元”、商汤“日日新” 等大模型先后登场。截至今年5月,国内已经推出超过300个大模型。其中,10亿参数规模以上的大模型已超100个。

无论是何种类型的大模型,在“百模大战”的背景下,其功能、用途、场景都难免重复。但在业内人士看来,大模型的发展还远未触及天花板,不仅“百模大战”不是终点,“万模群舞”或许就在不远的将来。

AI大模型过剩了吗?

近两年来,大模型技术呈现爆发式的增长,而且在各个研究领域和实践任务上都取得了瞩目成果,诸多科技巨头公司也纷纷投身于大模型的浪潮之中。

在最早应用大模型的自然语言处理(NLP)领域,OpenAI推出了拥有1750亿个参数的ChatGPT,这一行动激发了一系列的应用热潮:微软将ChatGPT接入了其搜索引擎Bing;谷歌推出了自家的语言大模型PaLM和对话模型Bard,并且已经开始了PaLM2的研发;我国百度、字节跳动、华为等公司也积极推出了自己的语言大模型。

在NLP大模型取得了巨大成功的鼓舞下,其他领域也涌现出了大模型的身影。在语音识别领域,OpenAI和谷歌分别推出了拥有15亿参数的Whisper模型和20亿参数的USM模型,而微软则推出了能够在几秒钟内准确模仿任何人说话声音和语调的语音生成模型VALL-E;在视觉领域,基于大模型工作的GPT-4和OpenCLIP进行了语音和视觉的跨模态训练,使得这些模型能够用自然语言的方式去理解图片。

此外,谷歌和脸书公司也各自采用了监督学习和非监督学习的方式,分别训练了220亿参数和65亿参数的Vision Transformer视觉大模型,这些模型在性能上大大超越了参数数量更少的模型;在强化学习领域,谷歌和DeepMind公司开发的PaLM-E和Gato,也开始探索和实验强化学习大模型的可能性。

从去年开始,中国涌现出大量的行业大模型。这种现象背后隐含的一个事实是:打造行业大模型的技术门槛相对较低。随着开源技术的普及,技术上的壁垒逐渐被打破。许多优质的预训练技术、框架和工具已经被广大研发者和机构所采纳和使用。相对于开发一个全新的大模型,微调现有的通用大模型更为简单快捷,只需要大量、高质量的行业数据即可。

打造一个强大的通用大模型却是一项长期且复杂的任务,这需要巨大的计算资源、多样化的数据和深厚的技术积累。因此,相比之下,行业大模型的产生,就显得更为便捷了。

但这种便捷性带来的是双刃剑效应。大量涌现的所谓行业大模型,并不具备真正的竞争壁垒。技术上,它们大多基于相似的开源技术和通用大模型进行微调,很少有真正的技术创新。数据上,尽管行业数据是关键,但许多企业并没有真正挖掘、整合和利用这些数据的能力,使得其微调的效果并不理想。

事实上,底层通用大模型的每次迭代,都将“淹没”一大批所谓的行业大模型。大模型技术的快速迭代就是一个典型的例子,每次通用大模型的升级都使其前一代的技术变得陈旧。

以OpenAI的GPT系列为例,从GPT到GPT-4,每当OpenAI发布一个新版本,它都会因为更多的参数、更先进的算法和更高的性能,使前一版本相形见绌。而这种进化不仅仅局限于通用模型,实际上,它更多地影响到了基于前一代模型微调出的行业大模型。

试想,一个企业可能已经投入大量资源在GPT-3上,开发出一套专门为医疗领域设计的AI系统。但当GPT-4问世时,这家企业突然发现,他们的专业系统在新的通用模型面前相对落后,甚至可能不如直接使用GPT-4的效果。这就是因为,每次通用大模型的迭代都意味着一个巨大的技术飞跃,其对特定任务的处理能力会显著增强。

值得深思的是,中国在AI领域已取得了许多值得骄傲的成果。然而,与国外相比,中国在AI大模型的算法创新和理论研究上仍存在差距。尤其是美国在AI大模型的基础算法和架构创新方面领先,例如Transformer模型和BERT等创新技术,对全球AI发展产生了深远影响。

这对于中国的技术界来说是一个挑战,也是一个机会。挑战在于如何在短时间内弥补这一差距,机会则在于一旦做到,国内的行业大模型将能够站在一个更高的起点。

要卷应用,不要卷模型

也有一种观点认为,不要重复造轮子,AI十倍的机会在别处。百度董事长兼CEO李彦宏此前曾表示:“重新做一个ChatGPT没有多大意义。基于语言大模型开发应用机会很大,但没有必要再重新发明一遍轮子。”

今年7月,李彦宏在2024世界人工智能大会呼吁:“不要卷模型,要卷应用!”。他认为,AI技术已经从辨别式转向了生成式,但技术本身并不是目的,真正的价值在于如何将这些技术应用于实际场景,解决实际问题。

通用大模型发展至今,面临算力需求大、训练和推理成本高、数据质量不佳等挑战。一个成功的且可对外商业化输出的通用大模型,要求厂商拥有全栈大模型训练与研发能力、业务场景落地经验、AI安全治理举措、以及生态开放性等核心优势。

另外,训练基础模型的成本也是非常之高,做一个千亿级的大模型,需要单机群万卡以上的算力。从国内外来看,真正做通用模型的公司并没有那么多。相反,训练垂直领域模型所需要的代价和资源远远小于从零开始做通用模型。

因而,从商业逻辑的角度来看,大部分公司不具备做通用大模型的能力,巨头更适合做通用大模型,拥有丰富场景数据积累的公司更适合做垂域模型或者AI原生应用。

AI原生应用开发的具体思路主要包含三个方面。

首先是MoE(Mixture-of-Experts,专家混合),其前身是“集成学习”,作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术,MoE由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。在“分而治之”的核心思想指导下,MoE使用门控网络来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。

通俗来讲,MoE就像复仇者联盟,每个子模型(专家)都是一个超级英雄,门控网络则是尼克·弗瑞,负责协调各个超级英雄,决定在什么情况下召唤哪位英雄。之后选择最合适的专家进行处理,并将各位专家的输出汇总起来,给出最终的答案。

需要强调的是,MoE不是通常意义上的学术概念,更准确地说,是大小模型的混用,不依赖一个模型来解决所有问题。什么时候调用小模型、什么时候调用大模型、什么时候不调用模型,需要针对应用的不同场景做匹配。

其次是小模型。相比大模型,小模型推理成本低,响应速度快,在一些特定场景中,经过SFT精调(在一个已经训练好的模型基础上,通过进一步训练模型的一部分参数,以适应新的任务或数据集)后的小模型,使用效果可以媲美大模型。小模型的独特价值在于通过大模型,压缩蒸馏出来一个基础模型,然后再用数据去训练,这比从头开始训小模型,效果要好很多,比基于开源模型训练出来的模型效果更好、速度更快、成本更低。

第三是智能体。智能体以云为基础,以AI为核心,构建一个立体感知、全域协同、精准判断、持续进化、开放的智能系统。智能体能力提升会不断催生出大量新应用。智能体机制,包括理解、规划、反思和进化,它让机器像人一样思考和行动,可以自主完成复杂任务,在环境中持续学习、实现自我迭代和进化。

智能体还有一个特点,在一些复杂系统中,可以让不同智能体互动,形成群体智能,通过相互协作,更高质量地完成任务,这就好比一个无人机群,可以完成一架无人机难以完成的工作。当前火热的车路云一体化也可以借助群体智能,赋予城市交通协同感知、协同计算、融合决策等能力,从而助力整个城市的交通效率实现全局最优。

AI Infra将是下一个应用热点?

每个科技巨头都希望在自己的生态中形成闭环,一定程度上也是因为整个国内开源的生态不够强大。

目前,大模型产业链大致可以分为数据准备、模型构建、模型产品三个层次。在国外,AI大模型的产业链比较成熟,形成了数量众多的AI Infra(架构)公司,但这一块市场在国内还相对空白。

而在国内,巨头们都有一套自己的训练架构。

比如,华为的模型采用的是三层架构,其底层属于通识性大模型,具备超强的鲁棒性的泛化性,在这之上是行业大模型和针对具体场景和工作流程的部署模型。这种构架的好处是,当训练好的大模型部署到垂类行业时,可以不必再重复训练,成本仅是上一层的5%~7%。

阿里则是为AI打造了一个统一底座,无论是CV、NLP、还是文生图大模型都可以放进去这个统一底座中训练,阿里训练M6大模型需要的能耗仅是GPT-3的1%。

百度和腾讯也有相应的布局,百度拥有覆盖超50亿实体的中文知识图谱,腾讯的热启动课程学习可以将万亿大模型的训练成本降低到冷启动的八分之一。

整体来看,各个大厂之间的侧重点虽然有所不同,但主要特点就是降本增效,而能够实现这一点,很大程度上就是受益于“一手包办”的闭环训练体系。

反观国外,成熟的AI产业链形成了数量众多的AI Infra公司。如果用云计算三层构架做类比,AI Infra与PaaS层级相似,是链接算力和应用的中间层基础设施,包括硬件、软件、工具链和优化方法等,为大模型应用开发提供一站式模型算力部署和开发工具平台。算力、算法、数据可以看作IaaS层,各种开源和闭源模型则是SaaS在大模型时代的新演变,即MaaS。

如果把开发AI应用看成建房子,那么AI Infra就是提供水泥钢筋的施工队。AI Infra施工队的价值点在于它是一个集成平台,将下层的算力芯片层与上层的AI应用层打通,让开发者实现一键调用,并且实现降低算力成本、提升开发效率并且保持模型优秀性能的效果。

让应用更简单,让AI落地更便捷,是AI Infra的使命。可以说,AI应用的市场有多大,AI Infra的机会就有多大。

AI Infra公司有的专门做数据标注、做数据质量、或者模型架构等。这些企业的专业性,能够让他们在某一个单一环节的效率、成本、质量上都要比大厂亲自下场做得更好。

比如,数据质量公司Anomalo就是Google Cloud和Notion的供应商,它可以通过ML自动评估和通用化数据质量检测能力,来实现数据深度观察和数据质量检测。

这些公司就像汽车行业的Tier 1,通过专业的分工,能够让大模型企业不必重复造轮子,而只需要通过整合供应商资源,就能快速地搭建起自己模型构架,从而降低成本。

但国内在这一方面并不成熟,原因在于:一方面国内大模型的主要玩家都是大厂,他们都有一套自己的训练体系,外部供应商几乎没有机会进入;另一方面,国内也缺乏足够庞大的创业生态和中小企业,AI供应商也很难在大厂之外找到生存的空间。

以谷歌为例,谷歌愿意将自己训练的数据结果分享给它的数据质量供应商,帮助供应商提高数据处理能力,供应商能力提升之后,又会反过来给谷歌提供更多高质量数据,从而形成一种良性循环。

国内AI Infra生态的不足,直接导致的就是大模型创业门槛的拔高。如果将在中国做大模型比喻成吃上一顿热乎饭,那必须从挖地、种菜开始。目前,在AI 2.0的热潮中,一个重要的特点就是“两极化”:最热门的要么是大模型层、要么就是应用层。而类似AI Infra的中间层,反而是很大的真空地带,也可能是下一个机遇所在。

伴随AI应用的快速发展,未来谁能够为多样化的应用场景提供高效便捷的大模型一站式部署方案,谁就有可能在这场竞争中胜出。而这其中,底层技术、中层平台、上层应用缺一不可,只有让各方面能力得到更全面、均衡地发展,才能在AI之路上走得更远、更稳健。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2045230.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《使用深度学习三分类模型预测胸部CT中的肺腺癌侵袭性》| 文献速递-基于深度学习的乳房、前列腺疾病诊断系统

Title 题目 Predicting Invasiveness of Lung Adenocarcinoma at Chest CT with Deep Learning Ternary Classification Models 《使用深度学习三分类模型预测胸部CT中的肺腺癌侵袭性》 Background 背景 Preoperative discrimination of preinvasive, minimally invasive,…

开关电源之结构分析

如有技术问题及技术需求请加作者微信! 开关电源之结构分析 1、开关电源的结构 常用开关电源,主要是为电子设备提供直流电源供电。电子设备所需要的直流电压,范围一般都在几伏到十几伏,而交流市电电源供给的电压为220V(110V),频率为50Hz(60Hz)。开关电源的作用就是把一…

Surface Studio 曾经耀眼的骚气光芒至今依然

Surface Studio 曾经耀眼的骚气光芒至今依然 Surface Studio当时上市价格25988RMB,现在小黄鱼大概在3000的样子可以买到屏幕没有老化的那种。看着那块巨大的5K触摸屏,简直让人垂涎三尺欲罢不能。 一、卓越配置,尽显强大性能 Surface Studio…

freeRTOS之任务调度

本节课的内容是重中之重,对复习操作系统的任务调度也很有帮助。

API接口自定义字段返回,最终解决方案,再也不用写 vo、dto 转换逻辑了

西湖的晚霞真美啊 前言 此套方案太过完美,唯一缺点就是,字段返回基于反射操作,损失一点点性能 效果 API接口指定使用自定义增强注解MoreSerializeField,标注只返回 departName 字段 前端只会接收到 departName 字段 实现原理 …

Python爬虫——Selenium方法爬取LOL页面

文章目录 Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字 Selenium介绍 Selenium 是一个用于自动化Web应用程序测试的工具,但它同样可以被用来进行网页数据的抓取(爬虫)。Selenium 通过模拟用户在浏览器中的操作(如点击…

进程间通信---管道通信、命名管道、匿名管道详解

什么是通信? 为什么要通信? 如何做到通信? 管道是什么? 管道用来干什么? 管道如何实现通信? 匿名管道是什么? 如何实现? 命名管道是什么? 如何实现? 什么是文…

探究 Element Plus Menu 横向多层级展开组件的 Bug 及解决方案

文章目录 1 ellipsis 是否省略多余的子项(仅在横向模式生效)问题描述解决方案 2 多个级别的子菜单位置错乱或默认直接展开问题描述解决方案1 index没有设置2 通用策略 1 ellipsis 是否省略多余的子项(仅在横向模式生效) 问题描述…

Global Structure-from-Motion Revisited golmap论文翻译

Global Structure-from-Motion Revisited Paper:https://demuc.de/papers/pan2024glomap.pdf Code:https://github.com/colmap/glomap 摘要- 从图像中恢复三维结构和摄像机运动一直是计算机视觉研究的热点,被称为运动结构恢复(SfM)。这个问…

【RAG提升技巧】查询改写HyDE

简介 提高 RAG 推理能力的一个好方法是添加查询理解层 ——在实际查询向量存储之前添加查询转换。以下是四种不同的查询转换: 路由:保留初始查询,同时查明其所属的适当工具子集。然后,将这些工具指定为合适的选项。查询重写&…

[论文笔记]ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

引言 今天带来ZeRO: Memory Optimizations Toward Training Trillion Parameter Models的论文笔记。 大型深度模型提供了显著的准确性提升,但训练数十亿到数万亿个参数是具有挑战性的。现有的解决方案,如数据并行和模型并行,存在基本的局限…

汇昌联信做拼多多电商如何提升浏览量?

在拼多多电商平台上,如何提升商品的浏览量是每个卖家都关注的问题。高浏览量不仅意味着更多的潜在客户,还能间接提升销量和店铺的知名度。汇昌联信作为电商运营者,需要采取有效策略来吸引消费者的注意力。 一、优化商品标题和描述 商品标题是…

LDR6328Q:重塑电源管理新境界的取电芯片

在电子设备日益普及的今天,高效、智能的电源管理成为了提升用户体验的关键因素之一。而LDR6328Q作为一款专为设备端设计的取电芯片,凭借其出色的性能和创新的技术,正逐步成为电源管理领域的一颗璀璨新星。本文将深入探讨LDR6328Q取电芯片的特…

大模型面经,不要到处找了,收藏我这一篇就够了

在当前技术快速发展的背景下,大模型领域的职位成为了许多求职者的热门选择。为了帮助大家更好地准备面试,这里整理了一份大模型面试经验分享,涵盖了一些常见的面试流程、可能遇到的技术问题以及面试官可能会问到的行为问题等。 大模型面试经…

什么是实时数据仓库? 优势与最佳实践

在当今数据驱动的世界中,许多企业使用实时数据仓库来满足其分析和商业智能 (BI) 需求。这使他们能够做出更好的决策、推动增长并为客户提供价值。 数据仓库是一种数据存储和管理系统,其设计目标只有一个:管理和分析数据,以实现商…

链表求和问题(面试题)

目录 一题目: 二思路汇总: 三解答代码: 一题目: leetcode题目链接 :面试题 02.05. 链表求和 - 力扣(LeetCode) 二思路汇总: 想到这道题,可能看起来第一思路就是把它们…

【C++二分查找】2563. 统计公平数对的数目

本文涉及的基础知识点 C二分查找 LeetCode2563. 统计公平数对的数目 给你一个下标从 0 开始、长度为 n 的整数数组 nums ,和两个整数 lower 和 upper ,返回 公平数对的数目 。 如果 (i, j) 数对满足以下情况,则认为它是一个 公平数对 &…

利用住宅代理优化媒体监控,全面提升品牌管理与市场竞争力

引言 什么是媒体监控?主要用于哪里? 媒体监控面临的主要挑战 住宅代理在媒体监控中的作用 如何利用住宅代理进行媒体监控 总结 引言 在信息化时代,媒体监控(media monitoring)已成为企业进行品牌声誉管理、市场研…

喵喵蓝牙热敏打印机(下)

目录 前言一、电量、温度、缺纸检测1.电量检测2.针头温度检测3.缺纸检测 二、蓝牙APP通信打印1.蓝牙初始化2.APP通信打印 三、FreeRTOS任务整合 前言 喵喵蓝牙热敏打印机(上) 内容有点多,就分为了上下两篇。 一、电量、温度、缺纸检测 先启…

Codigger视频会议(Meeting):科技行业软件开发团队的协作革新

在数字化时代,软件开发团队的协作方式正在经历一场革命。远程工作已成为新常态,而Codigger视频会议(Meeting)作为这场变革的催化剂,正在帮助科技行业的团队突破地理限制,实现无缝协作。 随着科技行业的快速…