GPU受限,国内AI大模型能否交出自己的答卷?

news2024/10/6 1:39:15

        继百度之后,阿里、华为、京东、360等大模型也陆续浮出水面,大模型军备竞赛正式开启。

        4月7日,阿里云宣布自研大模型“通义千问”开始邀请企业用户测试体验。

        4月8日,华为云人工智能领域首席科学家田奇现身《人工智能大模型技术高峰论坛》,分享了华为云盘古大模型的进展及其应用。

        同日,京东集团副总裁何晓冬表示,京东将在今年发布新一代产业大模型,言犀是“京东版”ChatGPT。

        4月9日,360正式官宣,基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景,将面向企业用户开放内测。

        但有业内人士指出,大模型的训练需要庞大的算力资源,GPU是大模型的最佳算力发动机。

        截至目前,英伟达的GPU芯片正在为全球绝大多数的人工智能系统提供最基础的算力支持。

        那么,在GPU受限的情况下,国内AI行业发展境况如何,能否交出属于他们自己的答卷?未来的发展是否会与国外越差越大?


国内厂商大囤AI芯片

        众所周知,OpenAI ChatGPT大模型能有今日风光,英伟达的芯片A100功不可没。公开数据显示,凭借10000片英伟达的GPU芯片,OpenAI成功训练出了GPT-3大语言模型。

        TrendForce研究显示,以A100的算力为基础,GPT-3.5大模型需要高达2万枚GPU,未来商业化后可能需要超过3万枚。

        在这个ChatGPT的出圈元年,英伟达作为全球算力硬件当之无愧的龙头公司,今年前三个月市值翻了一番。

        近日,英伟达又不负众望,推出了适用于ChatGPT的专用GPU,可以将推理速度提升10倍。

        但值得注意的是,自2022年9月,美国禁止向国内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片。

        基于此,针对中国用户,英伟达按照A800操作模式(A100芯片的降维版本),推出了完全符合出口规定的H100的降维版本芯片,具体参数并未公布。

        然而,无论是A800,还是H100中国版本,都和国外市场可使用的原版芯片存在差距。

        据公开信息显示,英伟达专供中国的A800芯片,其传输速度只有A100的70%。

        国内企业担心以后会买不到英伟达AI芯片,自美国制裁令开启,就开始大举囤芯片。

        有厂家自去年下半年起就持续在市场中寻觅能拆出A100的各类整机产品,目的仅是获得GPU芯片。

        但据媒体报道,国内拥有超高算力芯片的厂商并不多。国内云厂商主要采用的是英伟达的中低端性能产品,拥有超过1万枚GPU的企业不超过5家。其中,拥有1万枚英伟达A100芯片的最多只有一家。 

        而国内云计算相关专家认为,做好AI大模型的算力最低门槛,就是1万枚英伟达A100芯片。


国内外AI芯片存在差距

        从长远来看,未来大模型的研发和部署是必然趋势,而每个大模型训练和部署的背后,都有几万个GPU芯片在支持。因此,通用GPU市场需求将会迎来爆发式增长。

        据Verified Market Research数据,2020年中国大陆的独立GPU市场规模为47.39亿美元,预计2027年将超过345.57亿美元。

        有业内人士指出,作为大模型的主要入局者,国内互联网大厂拥有天然的数据优势,自然不希望因算力被卡在大模型能带来的广阔世界和商机之外。

        在经历制裁后,国内的大型互联网企业在采购相关芯片时,尽管目前还是会购买英伟达,但也有相关的国产化替代方案。

        因此,在这波替代潮中,国内的寒武纪、昆仑芯、燧原、华为海思、海光、沐曦、摩尔线程等中国新一代GPU芯片研发公司,都将迎来非常大的机会。

        但同时,也需要看到国产GPU芯片与国外的差距,具体而言:

        大模型对于算力的需求分为两个阶段,一是训练出ChatGPT这类大模型的过程;二是将这个模型商业化的推理过程。

        在大模型训练阶段,需要处理高颗粒度的信息,对云端训练芯片的芯片处理信息的精细度和算力速度要求更高,而现阶段国产GPU大多还不具备支撑大模型训练所需的能力。

        不同于多媒体和图形处理的单精度浮点计算(FP32)计算需求,在超算领域,双精度浮点计算能力FP64是进行高算力计算的硬性指标。

        英伟达的A100同时具备上述两类能力,而国内GPU芯片的云端训练公司,大多只能处理单精度浮点计算,如壁仞科技(通用GPU芯片BR100)、天数智芯(“智铠100”)、寒武纪(云端推理思元270)的产品在FP32的理论指标上做得不错,但没有处理FP64的能力。

        根据公开消息,目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU(协处理器),但是它的性能只有A100的60%左右。

        但有专家认为,国内通用GPU产品在满足大模型训练上与国际旗舰产品存在差距,但并非不可弥补,只是此前行业在产品定义里未朝着大模型方向做设计。

        目前国产GPU公司都在朝着大模型领域去做布局。

        昆仑芯表示,昆仑芯2代芯片相较第一代产品大幅优化了算力、互联和高性能,公司正在不断研发新的产品和技术,为ChatGPT等大模型的应用提供更佳的性能体验。

        登临科技新一代Goldwasser产品针对基于Transformer的网络和生成式AI类大模型的应用在性能有大幅提升,对标国际大厂的产品有明显的能效比和性价比的优势。

                燧原科技宣布对公司品牌做战略升级,要打造AIGC时代的基础设施。

        摩尔线程则表示将推出基于公司全功能GPU的AIGC算力平台。

        此外,行业从业者也都在做相关的探索和努力,如思考能否通过Chiplet(将芯片堆叠或者并列摆放)、先进封装的方式提高算力。


国产AI芯片尚需生态支撑

        事实上,比起硬件性能上的差异,软件适配与兼容让国内客户接受更难。

        当大模型和应用层面的竞争拉响,从商业角度思考,采用国产AI芯片参战并不是好的选择。

        从硬件性能上,使用国产AI芯片计算会比采用英伟达A100慢,在分秒必争的当下,“慢”是企业最不愿意看到的场景。

        此外,哪怕能通过堆芯片的方式堆出一个算力相当的产品,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。

        对厂商而言,把国产AI芯片用起来并不容易。

        算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU,需要突破CUDA生态和整个产业生态的壁垒。

        先说CUDA,为了把GPU的算力能力进一步发挥,英伟达花了10年时间,投入3000多人打造了一个CUDA框架。这套框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。如果没有这套编码语言,软件工程师发挥硬件价值的难度会变得极大。

        目前世界上主流的深度学习框架都基于CUDA进行加速,整个产业中下游软件、驱动厂家等都基于此进行适配。

        这构成了一个极强大的生态壁垒,就像苹果系统内部的闭环生态,和window操作系统+上层应用软件一样。

        尚处于创业阶段的芯片设计公司,很难在生态上投入如此大的人力财力,大多会选择兼容CUDA架构,来降低客户使用门槛。

        当然,也有部分公司会选择自研加速器,如:寒武纪就构建了自己的加速平台;昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈,希望打造自己的生态,也能摆脱硬件需受CUDA更新的困扰。

        但即使有了这个编程框架,整个产业生态上的人也很难把这个芯片用起来。

        对于企业来说,更换云端 AI 芯片要承担一定的迁移成本和风险,除非新产品存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否则客户更换的意愿很低。

        为此,国内从业者已经在构建生态上做努力。

        在一个AI生态中,支撑大模型训练需求,需要底层硬件、中间深度学习平台、上层应用软件的整体适配、互相支持。

        例如,2022年4月,百度飞浆已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商,31种芯片的适配和优化,基本覆盖国内主流芯片。

        昆仑芯和飞浆完成3级兼容性适配,登临科技和飞浆也完成2级适配,沐曦集成电路和飞浆完成1级兼容性测试。

        除此之外,华为的MindSpore和爱可生向量数据库兼容;智源研究院的九鼎智算平台也在和多家国内AI芯片公司合作。


后记

未来,大模型训练对算力的需求会越来越大。想要参战大模型竞赛,算法、算力、数据环环相扣。

在最卡脖子的芯片环节,如何缩小差距,成为国内厂商求共解的命题。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/411127.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一起学 WebGL:图元的类型

大家好,我是前端西瓜哥,今天来说说 WebGL 中的三种图元。 在 WebGL 中,图元有三种:点、线、以及三角形。 绘制的 API 为: gl.drawArrays(mode, first, count)这里的 mode 就是要绘制的图元类型。 我们绘制 4 个点&…

办公协作效率想提质增效,可借助开源大数据工具!

在信息爆炸式发展的今天,提升办公协作效率,让各部门的信息有效互通起来,做好数据管理,已经成为众企业提升竞争力的方式方法。那么,如果想要提升办公效率,就需要了解开源大数据工具了。在数字化发展进程中&a…

HTTP协议概述 | 简析HTTP请求流程 | HTTP8种请求方法

目录 🌏 HTTP的简单介绍 何为HTTP HTTP1.0与HTTP1.1 🌏 HTTP的请求方法 1、OPTIONS 2、HEAD 3、GET 4、POST 5、PUT 6、DELETE 7、TRACE 8、CONNECT 🌏 HTTP的工作原理 🌏 HTTP请求/响应的步骤 1、客户端连接到Web…

AI 芯片的简要发展历史

随着人工智能领域不断取得突破性进展。作为实现人工智能技术的重要基石,AI芯片拥有巨大的产业价值和战略地位。作为人工智能产业链的关键环节和硬件基础,AI芯片有着极高的技术研发和创新的壁垒。从芯片发展的趋势来看,现在仍处于AI芯片发展的…

【案例教程】基于R语言、MaxEnt模型融合技术的物种分布模拟、参数优化方法、结果分析制图与论文写作实践技术

【原文链接】: 基于R语言、MaxEnt模型融合技术的物种分布模拟、参数优化方法、结果分析制图与论文写作实践技术https://mp.weixin.qq.com/s?__bizMzU5NTkyMzcxNw&mid2247537049&idx3&sn31ef342c4808aed6fee6ac108b899a33&chksmfe6897f3c91f1ee5c4fa8e4eeea34…

JDBC概述三(批处理+事务操作+数据库连接池)

一(批处理) 1.1 批处理简介 批处理,简而言之就是一次性执行多条SQL语句,在一定程度上可以提升执行SQL语句的速率。批处理可以通过使用Java的Statement和PreparedStatement来完成,因为这两个语句提供了用于处理批处理…

IO多路复用机制详解

高性能IO模型浅析 服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种: (1)同步阻塞IO(Blocking IO):即传统的IO模型。 (2)同步非阻塞IO(Non-blo…

【WebGIS实例】(7)MapboxGL绘制不同颜色的Symbol图标

前言 在上一篇实例博客中(MapboxGL绘制简易气泡图)我们绘制了一个简易的单色气泡图,现在需求升级了。我们需要为气泡加载不同的颜色。 而要实现这个效果,其实相当简单,直接利用Mapbox提供的SDF渲染方法。 官网教程参考…

当星辰天合 SDS 遇见 Elastic

4 月 8 日,“Elastic 中国开发者大会 2023 ”在深圳举行,XSKY星辰天合对象存储产品总监邹博引代表星辰天合参加了此次大会,并做了主题为《SDS 与 Elasticsearch 的碰撞》的分享。“Elastic 中国开发者大会 2023 ”是由 Elastic、Elastic 中文…

【三十天精通Vue 3】 第三天 Vue 3的组件详解

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: 三十天精通 Vue 3 文章目录引言一、Vue 3 组件的概述1. Vue 3 的组件系统2. Vue 3 组件的特点…

【CE】Mac下的CE教程Tutorial:进阶篇(第9关:共享的代码)

▒ 目录 ▒🛫 导读开发环境1️⃣ 第9关:共享的代码翻译操作🛬 文章小结📖 参考资料🛫 导读 开发环境 版本号描述文章日期2023-03-操作系统MacOS Big Sur 11.5Cheat Engine7.4.3 1️⃣ 第9关:共享的代码 翻…

Python数据分析matplotlib学习

Python数据分析的工具和库包括: 1.Jupyter Notebook:用于交互式数据分析和可视化。 2.NumPy:用于进行数值计算和数组操作。 3.Pandas:用于数据处理和清洗。 4.Matplotlib:用于数据可视化。 5.Scikit-learn:…

MAZDA CX-50没现车怎么办?赶紧去VR看车啊!

爱车一族往往都有过这样的经历:听说某家品牌出了一款心仪的新车,于是一直心心念念想要先睹为快。然而这时候问题就来了:新车从发布到量产上市往往要经历一段过程。没有现车的日子里,就算每天去4S店蹲守也看不到新车。那种心里痒痒…

集成学习详细总结(不涉及数学理论部分)

集成学习(Ensemble Learning) 1概念 集成学习就是将多个弱学习器组合在一起,从而得到一个更好更全面的强监督学习器模型。其中集成学习被分为3大类:bagging(袋装法)不存在强依赖关系,其中基学…

Pytorch深度学习笔记(一)前瞻概述

目录 1.人类智能Human intelligence 2.机器学习Machine learning 3.学习系统Learning System 4.神经网络neural network 课程推荐:《PyTorch深度学习实践》完结合集_哔哩哔哩_bilibili 1.人类智能Human intelligence 人类智能Human intelligence:把视…

2023年第十四届蓝桥杯javaB组省赛真题

👨‍💻作者简介:练习时长两年半的java博主 📖个人主页:君临๑ 🎞️文章介绍:2023年第十四届蓝桥杯javaB组省赛真题 🎉所属专栏:算法专栏 🎁 ps:点…

批量自动翻译软件-准确的翻译软件

现代社会,在全球化背景下,语言障碍是碍企业发展的主要因素之一。而翻译软件的出现,为人们跨越语言障碍带来了新的解决方案。针对翻译需要大量文字内容的情况,有一些能翻译大量文字的翻译软件: 147CGPT翻译软件特点&…

【硬件】嵌入式板卡硬件电路设计、焊接

文章目录嵌入式板卡电路 框图常用焊接工具和焊接操作 框图一、元器件//——有极性——//1 肖特基二极管2 钽电容3 三极管4 MOS5 LED6 SMAJ5.0CA(TVS管)8 SRV05-4(ESD管)7 电解电容//——无极性——//1 电容2 电阻3 电感4 保险丝//…

软件测试别再说简历项目不会写了,给你安排的明明白白

目录 个人信息 职业技能 工作经历 项目经历 工作经历 项目经历 教育经历 自我评价 个人信息 姓 名:xxx 性 别:女 手 机:xxxxxxxxxxxx 最高学历:统招硕士 工作年限:3 年 职…

Linux搭建docker

1. 查看系统的内核版本 [rootwide ~]# uname -r 3.10.0-1160.el7.x86_642. 将yum更新到最新版本 [rootwide ~]# yum upate -y Complete!3. 安装Docker所需的依赖包 [rootwide ~]# sudo yum install -y yum-utils device-mapper-persistent-data lvm2 Loaded plugins: fastes…