算力256TOPS,典型功耗35W,存算一体芯片杀入智能驾驶

news2024/9/23 5:28:47

作者 | 张祥威
编辑 | 德新


fb43dc17097ea1d8f062cf83ede89d60.jpeg国产智驾芯片有了新玩家

“最高物理算力256 TOPS,典型功耗35W,基于12nm制程工艺。”
5月10日,后摩智能发布首款基于存算一体架构的智驾芯片——鸿途™H30,并公布上述关键指标。
算力、数据和算法,并称AI的三大核心要素。其中,算力属于基础设施,又被称为新时代的原油。随着ChatGPT语言大模型的出现,AI迎来了自己的iPhone时刻,算力的重要性也愈加凸显。
走在最前的英伟达,不断推出更高算力的芯片,一些玩家选择了跟随,另外一些选择另辟道路,通过存算一体、量子计算等突破算力瓶颈。
后摩智能的存算一体芯片H30,便是一道新的解题思路,也让主机厂、Tier 1有了更多新选择。

一、 飙升的算力需求,待打破的“存储、功耗”墙

英伟达旗舰AI芯片H100,随着AI生成式大模型受到广泛关注,售价近期一度被炒到46000美金。 H100是英伟达于去年推出的一款全新架构的GPU芯片。
8块H100,再加上4个NVLink可以组合一个DGX H100,AI算力高达32 PetaFlops。英伟达CEO黄仁勋称,20块H100就可以承载全球互联网的流量。
热衷自动驾驶的特斯拉CEO马斯克,不久前购买了数千块H100,笑称“看起来每个人和他们的狗此时都在买GPU。
” H100大热,体现了市场对于 芯片算力需求飙升 ,时代进入了一个AI爆发的新阶段。
不过,算力飙升后也让大家看到了芯片面临的瓶颈,即: 存储墙和功耗墙
目前市面上的大多数芯片,均基于1945年提出的冯·诺依曼计算系统进行设计,计算和存储功能分别由中央处理器和存储器完成。
在这一架构中,每次计算需要先读取内存的数据,计算后再存回内存,大部分过程都在读取和存储数据。
处理器的性能跟随摩尔定律逐年提升,存储器发展滞后。 随着数据处理量增大,存储速度跟不上数据处理速度,形成了“存储墙”。数据在处理器和存储器之间来回搬运,还造成了功耗损失,形成了“功耗墙”。
为了拆掉两块墙,芯片领域提出存算一体的新架构,直接利用存储器进行数据处理,这种新架构具备 大算力、低功耗、低延时 等优点。
后摩智能创始人兼CEO吴强的偶像是Jim Keller,后者是操刀过特斯拉FSD芯片的大神。Jim Keller曾说过,“不满于常规的改良,而是要做底层的重构和创新。”
因此,两年前创立后摩智能时,吴强选择了一个不依赖先进工艺,通过底层架构创新来实现AI计算效率的新方向。
这就有了后来的基于存算一体架构的鸿途™系列芯片。

二、面向智能驾驶,H30已支持点云、BEV网络

a62fa6fcb262f396853216ade164fb28.jpeg

256TOPS是物理算力,不是市面上常说的稀疏虚拟算力。”
吴强向大家介绍H30芯片时重点强调。物理算力是指芯片的理论峰值算力。
有人将算法比作公式,将物理算力比作人的智商。从物理算力的维度,市面上已量产的国产智驾芯片,基本上都不如H30。
H30的能效比也非常高。基于更为成熟的 SRAM 存储介质,采用数字存算一体架构,H30在INT8 数据精度下AI 核心IPU 能效比高达 15 Tops/W,是传统架构芯片的7 倍以上。
根据后摩实验室及MLPerf公开测试结果,以经典的基础网络Resnet50为例,在 Batch Size 等于1 和 8 的条件下,分别达到了 8700 帧/秒和 10300 帧/秒的性能,是英伟达基于8nm芯片性能的5.7倍和2.3倍。
简单来说, H30 在芯片性能提升2倍的同时,功耗减少了50%

b175e6ce9d01d5565aac1b6b6e445233.jpeg

那么,这块芯片能做什么?
后摩智能将第一款芯片产品的应用场景选在了智能驾驶领域。
吴强认为,智能驾驶芯片一定是要 无限接近于人脑的计算方式和效率 ,而存算一体的价值正在于此,与智能驾驶的终局需求天然吻合。
作为一款面向智能驾驶的芯片,H30对于当下热门的神经网络均可以支持。而且,H30的架构专门针对智能驾驶场景,在低延时下性能可以更加充分地展现。
后摩智能表示,一些高阶自动驾驶领域常用的经典CV网络和自动驾驶网络等,目前已经成功移植到H30上,比如点云网络、BEV网络等。

1a267f0fdb9ddcc929b4abd45bf012f2.jpeg

此外,基于H30的智驾方案已经部署在后摩智能合作伙伴的无人小车上。比如,后摩智能与新石器无人车合作的无人驾驶解决方案,便是基于存算一体芯片。
基于H30,后摩智能还打造了力驭智能驾驶硬件平台,作为主机厂面向智能驾驶的参考设计和评估平台。

1c1079f8d55b68945421ff94aee5756e.jpeg

官方数据显示,力驭的CPU算力为200Kdmips,AI算力达到256 TOPS(INT8物理算力)。按照规划,基于第一代产品H30的力驭计算平台将在 今年6月向Alpha客户送测。第二代产品H50将于明年一季度回片,支持主机厂客户2025年的量产车型。

三、 基于存算一体,变革底层架构

3775bec234876fc61ef175b662e64e4f.jpeg
让H30拥有如此成绩的,是一套全新的架构。
主流芯片产品中,英伟达、高通、地平线等自动驾驶的芯片,基于冯·诺依曼架构,也就是存储分离
H30则基于存算一体,从架构上进行底层创新。 后摩智能联合创始人兼研发副总裁陈亮总结,H30这款芯片实现了六项技术突破
大算力、全精度、低功耗、车规级、可量产、通用性。
后摩智能自研了IPU处理器架构,第一代IPU天枢架构专为智能驾驶打造。
天枢架构的设计思路是,采用多核、多硬件线程的方式来灵活扩展算力,AI 计算可以在核内完成端到端处理,保证通用性。
fccf85eea58218d9019241b9565dad80.jpeg

H30芯片里面有 4个IPU核,部署在系统总线NoC上。
每个IPU 核又由 4个Tile组成,每个Tile对应一个硬件线程,既可以独立进行不同任务的计算,又可以联合进行同一个任务的计算。
每个Tile的内部,包含CPU、Tensor Engine、CIM、Feature Buffer、Special Function Unit、Vector Processor、DMA、Shared Memory&Controller。
其中,CPU可以调度这些执行单元,也可以做一些对算力要求不高的计算。
这些计算单元,还可以直接共享一个多Bank的共性存储资源。
基于后摩的IPU架构,AI计算不需要在CPU、GPU、DSP等不同的处理器之间分配任务,而是可以在核内完成端到端的计算。
此外,后摩智能设计了专用的数据传输总线,搭配多通道,可以在4个Tile和各个IPU 核之间建立高速的数据传输通道。
为了发挥数据复用的特性,后摩智能还设计了多播的传输机制,一个Tile里数据,可以通过一次DMA传输,广播给其他多个Tile,从而不需要多个Tile多次读取数据。
存算一体的架构,让H30可以更好地计算与存储, AI Core计算利用率达到80%以上
最后,由于具备良好的扩展性,让这款芯片有了更多想象空间。
据了解,后摩智能的下一代芯片,将支持扩展更多核,基于Mesh互联结构,可以将计算单元灵活配置,实现算力规模的可大可小。
可以合理推测,后摩智能的下一代架构的芯片有望支持类似GPT的大模型,甚至有可能应用于更大算力的自动驾驶场景。
实际上,存算一体领域,不止有后摩智能一家,其它还包括知存科技、亿铸科技等,不同的是,后摩智能选择了智能驾驶赛道作为落地。
随着算力需求的爆发和更多芯片产品落地,存算一体正在获得越来越多的认可。
总之,在降本增效的趋势下,拥有成本优势的存算一体智驾芯片,也让主机厂在英伟达、地平线等芯片外,有了更多新的选择。
退一步说,站在芯片安全的角度,存算一体智驾芯片可以与先进制程工艺解绑,也让智能汽车被“卡脖子”的隐患得到了一定缓解。

97cc20fb9f8311ca6bc4e1f43d6639c6.jpeg





本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/510874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单例模式的饿汉和懒汉写法(基于C++)

目录 单例模式例程饿汉懒汉 对比函数调用线程安全总结 单例模式 单例模式确保一个类只有一个实例,并提供全局访问点。这样可以避免在系统中出现多个相同的对象,从而提高系统的性能和可维护性。 单例模式的实现包括饿汉和懒汉,下面介绍C中这两…

操作系统基础知识之处理器性能方程指标(包含阿达姆定律、CPI、Clock cycle time等)

计算机设计人员通过持续时间或速率来指代时钟周期的时间。程序的 CPU 时间可以用两种方式表示: CPU 时间程序的 CPU 时钟周期 / 时钟频率 除了执行程序所需的时钟周期数外,我们还可以计算执行的指令数。 如果我们知道时钟周期数和指令数,就…

金融学第二版笔记第一章1.1

第1部分 金融和金融体系 第一章金融学 1.1 一、 对金融学进行界定 1.金融 金融是货币流通、信用活动及与之相关的经济行为的总称。 简言之,就是货币资金的融通。一般是指以银行、证券市场等为中心的货币流通和信用调节活动,包括货币的发行和流通、存…

转置卷积(一) 搞懂转置卷积的计算

搞懂转置卷积的计算 0、参考文档1、转置卷积是什么?1.1 定义1.2 需要注意 2、转置卷积的计算2.1 从最简单的开始2.2 考虑stride2.3 考虑padding2.4 考虑dilation 3 转置卷积的加速 文章首发于https://zhaodongyu-ak47.github.io/Transposed_Convolution/ 最近做了一…

数据结构入门-二叉树

树的概念及结构 树的概念 树的一种非线性的数据结构,它是由n(n>0)个有限节点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一颗倒挂的树,也就是说它树根朝上,而叶子朝下。 有一个特殊的节点&#xff…

Web安全行业:零基础学习网络安全需要掌握哪些知识?(附系统路线+工具笔记)

前言 “没有网络安全就没有国家安全”。当前,网络安全已被提升到国家战略的高度,成为影响国家安全、社会稳定至关重要的因素之一。 一、网络安全行业特点 行业发展空间大,岗位非常多 网络安全行业产业以来,随即新增加了几十个…

单元测试 - 集成H2 Dao测测试

SpringBoot 2.7、Mybatis plus、H2 1. pom引入h2 <dependency><groupId>com.h2database</groupId><artifactId>h2</artifactId><version>2.1.214</version> </dependency> 2. 配置h2数据源 & mapper路径 spring:datas…

地狱级的字节跳动面试,6年测开的我被按在地上摩擦.....

前几天我朋友跟我吐苦水&#xff0c;这波面试又把他打击到了&#xff0c;做了快6年软件测试员。。。为了进大厂&#xff0c;也花了很多时间和精力在面试准备上&#xff0c;也刷了很多题。但题刷多了之后有点怀疑人生&#xff0c;不知道刷的这些题在之后的工作中能不能用到&…

( 位运算 ) 260. 只出现一次的数字 III ——【Leetcode每日一题】

❓260. 只出现一次的数字 III 难度&#xff1a;中等 给你一个整数数组 nums&#xff0c;其中恰好有两个元素只出现一次&#xff0c;其余所有元素均出现两次。 找出只出现一次的那两个元素。你可以按 任意顺序 返回答案。 你必须设计并实现线性时间复杂度的算法且仅使用常量额…

精炼计算机网络——数据链路层(一)

文章目录 前言3.1 数据链路和帧3.1.1 数据链路和帧3.1.2 三个基本问题 总结 前言 上篇文章&#xff0c;我们一同学完了物理层的全部内容&#xff0c;在本篇文章中&#xff0c;我们初步学习数据链路层&#xff0c;理解数据链路和帧的相应概念&#xff0c;知晓封装成帧&#xff…

信号完整性分析基础知识之传输线和反射(五):较短阻抗不连续的传输线、残桩和末端容性负载引起的反射

首先来一首定场诗&#xff1a;难难难&#xff0c;道德玄&#xff0c;不对知音不可谈。对了知音谈几句&#xff0c;不对知音枉费舌尖。 较短不连续点引起的反射 很多时候&#xff0c;板载走线的宽度必须要收窄&#xff0c;特别是经过PF区域或者拥挤区域。如果传输线的某一小段…

eSIM证书要求-证书验证-EID

SM-DP 和 SM-DS 应该验证 EUM 和 eUICC 证书中限制的 IIN 和 EID 的一致性&#xff08;参见第 4.5.2.1.0.2 和 4.5.2.1.0.3 节&#xff09;&#xff0c;并考虑 SGP.29 [ 89]。 根据 SGP.29 [89] 颁发的 EID 没有 SGP.02 [2] 中定义的 8 位 IIN。 相反&#xff0c;它们具有可变长…

【计算机视觉 | Python】十个 Python 图像处理工具,建议点赞收藏

文章目录 一、前言二、常见的库2.1 scikit-image2.2 NumPy2.3 SciPy2.4 PIL / Pillow2.5 OpenCV-Python2.6 SimpleCV2.7 Mahotas2.8 SimpleITK2.9 pgmagick2.10 Pycairo 一、前言 这些 Python 库提供了一种简单直观的方法来转换图像并理解底层数据。 今天的世界充满了数据&am…

linux【网络编程】之UDP网络程序模拟实现

linux【网络编程】之UDP网络程序模拟实现 一、开发环境二、服务端实现2.1 接口认识2.1.1 socket创建网络通信套接字2.1.2 bind&#xff1a;绑定Ip和端口号2.1.3 sockaddr_in结构体2.1.4 IP地址转换函数&#xff1a;inet_addr、inet_ntoa2.1.5 recvfrom&#xff1a;读取数据 2.2…

大语言模型进化树重磅发布,感慨技术方向选择的残酷,文末有彩蛋

文 / 高扬&#xff08;微信公众号&#xff1a;量子论&#xff09; 今天说点有深度的内容。五一假期&#xff0c;学习了一篇论文《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》。 这篇论文来自 Amazon 以及 Texas A&M University 研究团队&…

【2023 · CANN训练营第一季】应用开发深入讲解——第五章 端到端案例讲解

学习资源 样例介绍 使用DVPP加速预处理网络输入&#xff0c;并通过模型转换使能静态AIPP功能&#xff0c;使能AIPP功能后&#xff0c;YUV420SP_U8格式图片转化为RGB&#xff0c;然后减均值和归一化操作&#xff0c;并将该信息固化到转换后的离线模型中&#xff0c;对ResNet50…

传统IDC服务器迁移上云流程

上云是趋势&#xff0c;越来越多企业的IDC服务器选择迁移上云&#xff0c;迁移上云的方式有很多&#xff0c;阿里云提供服务器迁移中心SMC来帮助用户迁移上云。使用SMC服务器迁移中心&#xff0c;将您的源服务器方便快捷地迁移至阿里云&#xff0c;支持的迁移源类型包括IDC服务…

【Java EE 初阶】锁策略以及CAS问题

目录 1.常见的锁策略 1.乐观锁 vs 悲观锁 2.读写锁 3.重量级锁 vs 轻量级锁 4.自旋锁&#xff08;Spin Lock&#xff09; 5.公平锁 vs 非公平锁 6.可重入锁 vs 不可重入锁 7.Synchronized实现了哪些锁策略&#xff1f; 1.是乐观锁也是悲观锁 2.既是轻量级锁也是重量级…

K_A37_005 基于STM32等单片机驱动ADS1115 ADC模块 串口与OLED0.96双显示

K_A37_005 基于STM32等单片机驱动ADS1115 ADC模块 串口与OLED0.96双显示 所有资源导航一、资源说明二、基本参数参数引脚说明 三、驱动说明IIC时序对应程序: 四、部分代码说明1、接线引脚定义1.1、STC89C52RCADS1115 ADC模块1.2、STM32F103C8T6ADS1115 ADC模块 五、基础知识学习…

解决“未在本地计算机注册“OraOLEDB.Oracle.1”提供程序“问题

由于本地使用Oracle.ManagedDataAccess批量插入问题&#xff0c;连接数据库时报错 : ProviderOraOLEDB.Oracle;Data Sourceorcl;User IdQueueDp;PasswordQueueDp 此问题之前解决过没记录&#xff0c;又遇到了&#xff0c;忘了怎么解决&#xff0c;试了很多没效果 解决办法一、…