存内计算——发展史与近期成果

news2024/9/21 14:32:58

存内计算的概念早在上个世纪就已经被提出,但当时的人们寄希望于通过优化处理器设计以及工艺制程的升级,来获得性能和能效比的提升,存内计算的研究仅停留在理论阶段。随着大数据时代的到来,存内计算由于其结构特点以及摩尔定律的“失效”,被认为是提升处理器能效和性能以及加速神经网络运算的新出路。接下来我们将从存内计算的源头出发,介绍它的发展史与近期取得的成果。

一、存内计算构想

存内计算这个概念早在1969年就有人提出。当时,斯坦福研究所Kautz等人发表的一篇《Cellular Logic-in-Memory Arrays》首次将存储和逻辑整合,提出“logic-in-memory”方案[1],文中提出设计出一种细胞逻辑存储器(CLIM)阵列,在这一阵列中的基本门和连接方式可以通过“编程”来实现所需的逻辑操作,也即最早的“存储-逻辑一体”。如下图1为文中设计的一种“存储-逻辑一体”阵列及其实现的逻辑功能。

图 1 一种“存储-逻辑一体”阵列[1]

紧接着在1970年,来自斯坦福大学Stone等人发表论文,设计了支持逻辑运算的存储计算架构。但总的来说,在上世纪七八十年代,处理器的性能瓶颈、存储墙、功耗墙等问题并不突出,牵制计算性能的是不够强劲的处理器,并且由于彼时摩尔定律还未“失效”,人们更期望通过工艺制程的升级获取能效比的提升,因此人们更多关注的是如何提升CPU性能,并没有在存内计算架构上做更多的文章与更深的研究

1997年,加州大学伯克利分校Patterson等人将处理器集成在DRAM上,实现了存储与计算的结合,但在这一时期,存内计算也仅仅停留在尖端实验室的理论研究阶段,并没有落地市场实际应用。

近年来,随着大数据、人工智能等应用的兴起以及摩尔定律的“失效”,英伟达、三星等世界知名的IC企业与高效都已将目光转向存内计算,并已有广泛布局和应用落地,目前,存内计算已成为“兵家必争之地”,在AI时代如何实现性能、算力、功耗的突破?存内计算,或许是一个可靠的答案。

二、近代的存内计算

2010年后,大数据驱动应用发展迅猛,数据量呈现指数级暴增[2]。Nvidia的首席科学家Bill Dally在2015年的主题为“Nvidia's Path to Exascale”的演讲中指出,DRAM与CPU之间的数据传输耗能是单纯双精度浮点数加法耗能的1000倍[3],数据传输带来的能耗成为此时计算能耗的主体部分,成为牵制大数据量计算能效的新瓶颈。

与此同时,新型存储器件迅猛发展,包括3D堆叠的存储器件,如HMC/HBM3D XPoint;以及交叉栅栏式(crossbar)结构的非易失性存储器件,如RRAMPCM。这样的非易失性存储器和传统DRAM结构相比,具有存储密度高和静态功耗低的优点,同时其特殊的物理结构为存储和计算相结合提供了支持[2]。

因此,研究者们考虑赋予内存一定的计算能力,从而减少数据移动,降低计算机系统运行能耗,存内计算在2010年后重新被研究者重视。

2010年,惠普实验室Williams教授团队用忆阻器实现简单布尔逻辑功能。新型存储器的快速发展为存内计算奠定了技术基础。随着深度学习热潮的到来,存内计算由于其结构特点,被认为具有加速深度学习运算的能力,高校开始了存内计算的相关研究,国外开始出现以存内计算为卖点的处理器制造公司,如Mythic。2010年至2015年,可以认为是存内计算的技术积累阶段。

2016年至2020年,学术界在存内计算各个领域的研究取得进展。2016年,郭昕婕博士(现知存科技首席科学家)在美国加州大学圣塔芭芭拉分校(UCSB)谢源教授团队,研发出全球第一个3层神经网络的浮栅存内计算深度学习芯片(PRIME架构),首次验证了基于浮栅晶体管的存内计算在深度学习应用中的效用。相较于传统冯诺伊曼架构的传统方案,PRIME可以实现功耗降低约20倍、速度提升约50倍,引起产业界广泛关注。随着人工智能等大数据应用的兴起,存算一体技术得到国内外学术界与产业界的广泛研究与应用。随后,诸如PRIME、ISAAC等基于乘累加的存内计算架构以及基于逻辑操作、搜索操作的存内计算相关研究被提出[2]。

在2017年微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、加州大学圣塔芭芭拉分校等都推出了他们的存内计算系统原型[5]。也就是在2017年,郭昕婕就进一步攻下7层神经网络的浮栅存内计算深度学习芯片,同年归国联合创立知存科技,是国内最早成立的存内计算芯片公司。

2018年的集成电路领域顶会ISSCC专门用了一个议程来研讨存内计算相关话题;到2019年,电子器件领域的顶级会议IEDM上关于存内计算的研讨议程则变成了三个,相关论文也达到二十余篇;2020年的ISSCC上存内计算的论文也上升至七篇[6],足见存内计算在学术界的地位正在不断提升,相关学术成果为后续存内计算产品的井喷奠定了坚实的基础。九天睿芯、后摩智能国内AI芯片公司在此期间成立,并开始技术积累。

图 2 PRIME架构示意图[4]

2021年开始,存内计算相关产品逐步落地。包括三星、海力士、TSMC在内的国际巨头以及Mythic等公司经过技术沉淀,已经开始试产存内计算芯片,三星展示了基于HBM2-PIM技术的存内计算芯片、海力士展示了GDDR6-AiM的样品,TSMC展示了其在SRAM、ReRAM、PCM、STT-MRAM等多种器件上实现存内计算的探索成果。存内计算产业化初见成果,越来越多的存内计算产品落地。美国处理器公司Mythic推出M1076处理器,采用模拟存内计算方案,存储介质为Flash,在40nm制程工艺下实现25TOPS的算力与3W的功耗;2022年国内知存科技推出首款量产存内计算SOC芯片WTM2101,采用模拟存算计算范式,以Flash为介质,在40nm成熟工艺下以2.6x3.2mm²极小封装实现了50Gops的高算力,功耗低至5uA.已商用至智能可穿戴设备中2023年后摩智能推出鸿途H30芯片,采用数字存算计算范式,以SRAM为介质,实现256TOPS的算力与35W的功耗[8]。

图 3 后摩鸿途H30芯片示意图[8]

在高校科研方面,清华大学集成电路学院教授吴华强、副教授高滨团队基于存内计算计算范式,研制出全球首颗全系统集成的、支持高效片上学习的忆阻器(RRAM)存内计算芯片。该研究成果以面向边缘学习的全集成类脑忆阻器芯片为题在线发表在《Science》上[9]。北京大学集成电路学院与人工智能研究院黄如院士课题组基于存内计算技术,提出高效的ADC架构SRAM存内计算加速引擎,并在ISSCC 2022上发表文章[10]。

三、存内计算发展方向

现如今存内计算技术已经具有非常广阔的应用场景和广泛的发展方向,下面简单列举部分存内计算技术的研究热点

(1)视频实时处理

视频实时处理是存内计算技术的一大应用方面,移动端设备(手机、无人机、手持设备)受限于散热,传统视觉芯片无法支持高标准的实时处理。存内计算技术的高带宽、高算力等特点,使得其在新型视觉芯片的研发上具有天然优势。在研究成果方面,国内知存科技推出WTM-8系列产品芯片,这是针对视频增强处理的一款高性能低功耗的移动设备计算AI视觉芯片,采用第二代3D存内计算架构,为全球首款存内计算视觉芯片,已完成投片即将量产,具备高算力、低功耗、高能效、低成本的核心优势,应用于高性能成像和空间计算[11]。

图 4 WTM-8系列芯片示意图[11]

(2)感存算技术

感存算技术实际上就是在存内计算技术中加上了传感,感存算一体架构为集传感、储存和运算为一体的架构,解决冯诺依曼架构的数据搬运的功耗瓶颈的同时与传感结合提升整体效率。在科研成果方面,中国工程院罗毅院士研究团队在中国工程院院刊Engineering》2022年第7期发表《感存算一体化智能视觉芯片的展望》一文,总结了感存算一体化智能成像系统中使用的两种不同类型的架构[12]。

图 5铁电光伏传感器(左)及感存算一体神经网络电路(右)示意图

(3)类脑计算技术

类脑计算,顾名思义是像“人脑”一样思考,借鉴生物大脑的信息处理方式,以神经元与神经突触为基本单元,从结构与功能等方面模拟生物神经系统,进而构建“人造超级大脑”的新型计算形态。在科研成果方面,2019年8月1日,清华大学类脑计算研究中心施路平教授团队研发出世界首款异构融合类脑计算芯片,在《Nature》杂志上发表相关论文《面向人工通用智能的异构“天机芯”芯片架构》[13]。

除了以上研究热点,存内计算技术还有很多其他的研究应用方面,比如AI加速卡、3D存内计算芯片设计等。当然,存内计算技术还有很多可能的研究应用亟待发现,期待存内计算真正全面走入我们生活中的一天

四、存内计算的产业落地

存算一体技术作为解决冯诺依曼架构下存储墙问题的重要方案,吸引了国内外众多企业的研发投入,其中知存科技成为这一领域的引领者之一

在全球范围内,存算一体技术的研究和实践正由传统芯片巨头如三星电子、SK海力士、台积电、美光、IBM、英特尔等主导。SK海力士也展示了其基于GDDR的存内计算产品,大幅提高了计算速度并降低了功耗。其他如台积电、美光、IBM、英特尔等也都在存内计算领域取得了积极进展,探索将存储与计算紧密结合的创新方案。

在国内,新兴AI和存储企业的蓬勃发展也为存算一体技术注入了新的活力。知存科技作为其中一员,在存内计算芯片的研发和推广方面处于领先地位。他们的WTM2101基于nor flash存储介质,40nm的制程实现了超低功耗以及高算力。特别适用于智能语音和智能健康等领域。该公司不仅在技术上取得了突破,2023年1月还获得了2亿元的B2轮融资,显示了市场对其发展的认可和期待。

知存科技的成就不仅在于技术上的创新,更在于其成功将存算一体技术落地并投入量产。这种领先地位使得知存科技成为国内存算一体领域的重要代表之一,为未来的技术发展和产业进步贡献着不可或缺的力量。

    与此同时,全球首个存内计算社区创立,涵盖最丰富的存内计算内容,以存内计算技术为核心,绝无仅有存内技术开源内容,囊括云/边/端侧商业化应用解析以及新技术趋势洞察等, 邀请业内大咖定期举办线下存内workshop,实战演练体验前沿架构;从理论到实践,做为最佳窗口,存内计算让你触手可及。传送门:https://bbs.csdn.net/forums/computinginmemory?category=10003;

社区最新活动存内计算大使招募中,享受社区资源倾斜,打造属于你的个人品牌,点击下方一键加入

https://bbs.csdn.net/topics/617915760

在这里插入图片描述

五、资料来源

[1] W. H. Kautz, “Cellular Logic-in-Memory Arrays,” IEEE Trans. Comput., vol. C–18, no. 8, pp. 719–727, Aug. 1969.

[2] 毛海宇,舒继武,李飞等.内存计算研究进展[J].中国科学:信息科学,2021,51(02):173-205.

[3] in memory computing 存内计算是学术圈自娱自乐还是真有价值? - 知乎 (zhihu.com)

[4] Chi P, Li S, Xu C, et al. Prime: A novel processing-in-memory architecture for neural network computation in reram-based main memory[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 27-39.

[5] 陈巍:存算一体技术是什么?发展史、优势、应用方向、主要介质 - 知乎 (zhihu.com)

[6] 存内计算,走在爆发的边缘 – 澎湃新闻 (thepaper.cn)

[7] 沉寂近30年后火了!存内计算如何打破AI算力瓶颈? - 知乎(zhihu.com)

[8] 后摩智能官网 (houmoai.com)

[9] 再添“芯”动能!清华团队发布最新Science-北京信息科学与技术国家研究中心 (tsinghua.edu.cn)

[10] 类脑智能芯片研究中心黄如院士 — 燕博南助理教授课题组在“存内计算AI芯片”领域取得重要研究成果-北京大学人工智能研究院 (pku.edu.cn)

[11] 知存科技官网 (witintech.com).

[12] Pan W, Zheng J, Wang L, et al. A future perspective on in-sensor computing[J]. Engineering, 2022, 14(7): 7797.

[13] 让自行车真正“自行” “天机芯”面向无限未来-清华大学官网 (tsinghua.edu.cn)

[14] 知存科技助力AI应用落地

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1424219.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WiFi基础知识介绍(超详细)

1.WiFi专业名词概念 AP(Access Point):无线接入点:这个概念特别广,在这里,用大白话说,你可以把CC3200当做一个无线路由器,这个路由器的特点不能插入网线,没有接入Internet,只能等待其他设备的链…

springCloud gateway 防止XSS漏洞

springCloud gateway 防止XSS漏洞 一.XSS(跨站脚本)漏洞详解1.XSS的原理和分类2.XSS漏洞的危害3.XSS的防御 二.Java开发中防范XSS跨站脚本攻击的思路三.相关代码(适用于spring cloud gateway)1.CacheBodyGlobalFilter.java2.XssRequestGlobalFilter.java…

CAS和自旋的区别

一、前言 我们在面试的时候,经常性的会遇到一些关于锁的问题,尤其是面试官会提出问题:你对锁的了解多么?你知道锁的原理么?等等问题,于是也就会有后续延伸出来的:你知道CAS么?你知道…

Habitat环境学习二:导航任务中的Habitat-sim基础Habitat-sim Basics for Navigation

导航任务在Habitat-sim任务中的实现 官方教程概述重要概念1、Hello World程序1.0.1 基础设置Basic settings1.0.2 模拟器设置Configurations for the simulator1.0.3 创建模拟器实例1.0.4 初始化Agent1.0.5 导航和探索 官方教程 Habitat是一个高效的真实的3D模拟器&#xff0c…

基于C++的面向对象程序设计:类与对象的深入剖析

面向对象程序设计的基本特点 面向对象程序设计的基本特点包括:抽象、封装、继承、多态。 抽象 抽象是指对具体问题或对象进行概括,抽出其公共性质并加以描述的过程。一般情况抽象分为数据抽象和行为抽象,其中数据抽象是指一个对象区别于另…

idea/webstorm 创建Vue实例 Unresolved type Vue 处理方法

1.电脑本地安装node.js 官网下载 2. 其他: 未排除变量,前期试错(以下步骤配置了,但不确定对解决问题是否有帮助)

第 10 章:在C++中使用协程进行系统编程

最后一章专门介绍了一项对系统编程非常有用的功能,但这在C标准中相对较新。协程对象迅速找到了应用,成为了一等公民的状态机对象。它们的强大之处在于隐藏了协程帧后面的逻辑。请注意,这是一个高级主题,且C的协程接口既不简单也不…

216961-98-7,BODIPY 493/503 NHS 活化酯,可以应用于分子生物学等领域中

您好,欢迎来到新研之家 文章关键词:216961-98-7,BODIPY 493/503 NHS 活化酯,BODIPY 493/503 NHS ester,BODIPY 493/503 SE 一、基本信息 产品简介:BODIPY 493/503 NHS ester是一种特殊的染料&#xff0c…

【lesson4】高并发内存池ThreadCache(线程缓存)层实现

文章目录 ThreadCache层的结构申请内存逻辑释放内存逻辑自由链表的实现自由链表的成员变量自由链表的成员函数自由链表的完整实现 ThreadCache申请内存过程的实现ThreadCache需要的成员变量ThreadCache需要的成员函数ThreadCache.h文件代码Allocate的实现Deallocate的实现 封装…

02、全文检索 ------ Solr(企业级的开源的搜索引擎) 的下载、安装、Solr的Web图形界面介绍

目录 Solr 的下载和安装Solr的优势:Lucene与Solr 安装 Solr1、下载解压2、添加环境变量3、启动 Solr Solr 所支持的子命令:Solr 的 Core 和 Collection 介绍Solr 的Web控制台DashBoard(仪表盘)Logging(日志&#xff09…

理想架构的高回退Doherty功率放大器理论与ADS仿真-Multistage

理想架构的高回退Doherty功率放大器理论与仿真-Multistage 参考: 三路Doherty设计 01 射频基础知识–基础概念 Switchmode RF and Microwave Power Amplifiers、 理想架构的Doherty功率放大器(等分经典款)的理论与ADS电流源仿真参考&#x…

《云原生安全攻防》-- 云原生安全概述

从本节课程开始,我们将正式踏上云原生安全的学习之旅。在深入探讨云原生安全的相关概念之前,让我们先对云原生有一个全面的认识。 什么是云原生呢? 云原生(Cloud Native)是一个组合词,我们把它拆分为云和原生两个词来…

TS项目实战一:流淌的字符动画界面

使用ts实现虚拟世界,创建ts项目,并编写ts代码,使用tsc编译后直接加载到html界面,实现类似黑客帝国中的流淌的代码界面的效果。 源码下载地址:点击下载 讲解视频 TS实战项目一:数字流界面项目创建 TS实战项…

LRU缓存(Leetcode146)

例题: 分析: 题目要求函数get和put要达到O(1)的时间复杂度,可以用 hashMap 来实现,因为要满足逐出最久未使用的元素的一个效果,还需要配合一个双向链表来共同实现。链表中的节点为一组key-value。 我们可以用双向链表来…

前端工程化之:webpack1-9(plugin)

一、plugin loader 的功能定位是转换代码,而一些其他的操作难以使用 loader 完成,比如: 当 webpack 生成文件时,顺便多生成一个说明描述文件;当 webpack 编译启动时,控制台输出一句话表示 webpack 启动了&…

Gas Hero Common Heroes NFT 概览与数据分析

作者:stellafootprint.network 编译:mingfootprint.network 数据源:Gas Hero Common Heroes NFT Collection Dashboard Gas Hero “盖世英雄” 是一个交互式的 Web3 策略游戏,强调社交互动,并与 FSL 生态系统集成…

THREE.JS动态场景开发实战【赛博朋克】

在本教程中,我们将探索如何创建类似 Three.js 的赛博朋克场景,灵感来自 Pipe 网站上的背景动画。 我们将指导你完成使用 Three.js 编码动态场景的过程,包括后处理效果和动态光照,所有这些都不需要任何着色器专业知识。 我用这个场…

自动保存知乎上点赞的内容至本地

背景:知乎上常有非常精彩的回答/文章,必须要点赞收藏,日后回想起该回答/文章时翻看自己的动态和收藏夹却怎么也找不到,即使之前保存了链接网络不好也打不开了(。所以我一般碰到好的回答/文章都会想办法保存它的离线版本…

文件上传的另类应用

1.Imagemagick CVE-2016-3714 CVE-2022-44268 CVE-2020-29599可在vulhub靶场进行复现1.1.Imagemagick简介 ImageMagic是一款图片处理工具,当传入一个恶意图片时,就有可能存在命令注入漏洞。 ImageMagick默认支持一种图片格式mvg,而mvg与svg…