IBM展示非冯·诺依曼架构AI芯片NorthPole

news2024/11/16 13:50:30





 



我们正处于人工智能的“寒武纪大爆发”时期。在过去的十年中,人工智能已经从理论和小型测试发展到企业规模的使用案例。但是,用于运行人工智能系统的硬件虽然越来越强大,但在设计时却没有考虑到当今的人工智能。随着人工智能系统规模的扩大,成本也随之飙升。而摩尔定律,即处理器电路密度每年翻一番的理论,已经放缓。

但是,位于加利福尼亚州阿尔马登的 IBM 研究实验室经过近二十年的努力,终于完成了一项新的研究,它有可能彻底改变我们如何高效地扩展强大的人工智能硬件系统。

自半导体工业诞生以来,计算机芯片主要遵循相同的基本结构,即处理单元和存储待处理信息的内存是离散存储的。虽然这种结构使得设计更加简单,几十年来一直能够很好地扩展,但它也造成了所谓的冯-诺依曼瓶颈,即在内存、处理单元和芯片内的任何其他设备之间不断地来回切换数据都需要时间和能量。IBM 研究院的达曼德拉-莫德哈(Dharmendra Modha)和他的同事们从大脑的计算方式中汲取灵感,旨在改变这种状况。"莫德哈说:"它开辟了一条与冯-诺依曼架构完全不同的道路"。

过去八年来,Modha 一直在研究一种用于神经推理的新型数字人工智能芯片,这就是 NorthPole。它是 Modha在2014年开发的类脑芯片 TrueNorth 的延伸。在对流行的 ResNet-50 图像识别和 YOLOv4 物体检测模型的测试中,新的原型设备比目前市场上的任何其他芯片都表现出更高的能效、更高的空间效率和更低的延迟,速度大约是 TrueNorth 的 4000 倍。

NorthPole 芯片取得的第一批令人鼓舞的成果发表在今天的《科学》杂志上。Modha表示,NorthPole是芯片架构的一个突破,它在能源、空间和时间效率方面都有巨大的改进。以ResNet-50模型为基准,NorthPole的效率大大高于普通的12纳米GPU和14纳米CPU。(在这两种情况下,NorthPole 的能效是普通 12nm GPU 和 14nm CPU 的 25 倍(NorthPole 本身就是基于 12nm 节点处理技术构建的)。就每十亿个晶体管每秒所需的解释帧数而言,NorthPole 在延迟和计算所需空间方面也更胜一筹。根据 Modha 的说法,在 ResNet-50 上,NorthPole 的性能优于所有主流架构,甚至优于那些使用更先进技术工艺的架构,例如使用 4nm 工艺实现的 GPU。

它是如何做到比现有芯片的计算效率如此之高的呢?NorthPole 最大的不同之处在于,设备的所有内存都在芯片上,而不是单独连接。没有了冯-诺依曼瓶颈,该芯片进行人工智能推理的速度大大快于市场上的其他芯片。NorthPole 采用 12 纳米节点工艺制造,在 800 平方毫米内包含 220 亿个晶体管。它有 256 个内核,在 8 位精度下,每个内核每个周期可执行 2,048 次运算,在 4 位和 2 位精度下,运算次数有可能分别增加一倍和四倍。"Modha说:"这是一个芯片上的整体网络。
 



Modha说:"从架构上讲,NorthPole模糊了计算与内存之间的界限。"在单个内核层面,NorthPole表现为接近计算的内存,而在芯片外部,在输入输出层面,它表现为活动内存。这使得 NorthPole 很容易集成到系统中,并大大减轻了主机的负担。

但是,NorthPole 的最大优势同时也是一种限制:它只能轻松地从板载内存中提取数据。如果必须从其他地方获取信息,芯片上可能实现的所有加速都会被削弱。通过一种称为 "扩展"(scale-out)的方法,NorthPole 可以将更大的神经网络分解成适合 NorthPole 模型内存的更小的子网络,并将这些子网络连接到多个 NorthPole 芯片上,从而支持更大的神经网络。因此,虽然一个 NorthPole(或一组 NorthPole 的总和)上有充足的内存,可用于许多对特定应用有用的模型,但这种芯片并不是万能的。"Modha 说:"我们不能在上面运行 **-4,但我们可以为企业需要的许多模型提供服务。"当然,NorthPole 也只能用于推理。

这种功效意味着该设备也不需要笨重的液冷系统来运行--风扇和散热片就足够了--也就是说它可以部署在一些相当狭小的空间里。



NorthPole 的潜在应用
尽管对 NorthPole 芯片的研究仍在进行中,但其结构适合新兴的人工智能用例以及更成熟的用例。

在测试过程中,NorthPole 团队主要关注与计算机视觉相关的应用,部分原因是该项目的资金来自美国国防部。考虑的一些主要应用包括检测、图像分割和视频分类。但它也在其他领域进行了测试,如自然语言处理(在仅编码器的 BERT 模型上)和语音识别(在 DeepSpeech2 模型上)。该团队目前正在探索将纯解码器大型语言模型映射到 NorthPole 扩展系统。

一想到这些人工智能任务,各种天马行空的用例就会涌上心头,从自动驾驶汽车到机器人、数字助理或空间计算。许多需要实时处理大量数据的边缘应用都非常适合 NorthPole。例如,NorthPole 有可能成为将自动驾驶汽车从需要设定地图和路线才能在小范围内运行的机器,转变为能够对罕见的边缘情况进行思考并做出反应的设备。这些边缘情况正是 NorthPole 未来应用的甜蜜点。NorthPole 可使卫星监控农业和管理野生动物种群,监控车辆和货运以减少道路拥堵,安全操作机器人,以及检测网络威胁以确保企业安全。

下一步工作
这只是 Modha 在 NorthPole 上工作的开始。目前最先进的中央处理器是 3 纳米,而 IBM 本身已经在 2 纳米节点上进行了多年的研究。这意味着,除了基本的架构创新外,NorthPole 还可以在几代芯片处理技术上实现,从而不断提高效率和性能。


NorthPole大部分成员合照,中为Modha

但对 Modha 来说,这只是他过去 19 年职业生涯中的一个重要里程碑。在这段时间里,他一直在研究受大脑启发的数字芯片,他知道大脑是我们已知的最节能的处理器,并一直在寻找以数字方式复制大脑的方法。TrueNorth 的灵感完全来源于大脑中的神经元结构--其中的数字 "突触 "就像蜜蜂的大脑一样多。但 2015 年, Modha 坐在旧金山一个公园的长椅上,说他正在思考自己迄今为止的工作。他相信,将传统处理设备的精华与大脑的处理结构结合在一起,一定会有所收获,因为大脑中的记忆和处理都是穿插进行的。莫德哈认为,答案就是 "大脑启发的计算,但具有硅片的速度"。

在接下来的八年里, Modha 和他的同事们一心一意、密不透风地致力于将这一愿景变为现实。他们在阿尔马登默默无闻地工作着,直到今年,他们才就自己的工作发表过任何演讲或论文。每个人都带来了不同的技能和观点,但每个人都通力合作,因此团队的整体贡献远远大于各部分的总和。现在,我们的计划是展示 NorthPole 的能力,同时探索如何将设计转化为更小的芯片生产流程,并进一步探索架构的可能性。

这项工作源于一个简单的想法--我们如何才能制造出像大脑一样工作的计算机--经过多年的基础研究,我们终于找到了答案。如今,只有在 IBM 研究院这样的地方才有可能实现这一目标,因为这里有足够的时间和空间来探索计算领域的重大问题,以及这些问题会将我们带向何方。"NorthPole是大脑在硅片镜面上的微弱呈现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1131008.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用C# RDLC环境搭建

搭建C# RDLC环境 在vs环境中,菜单扩展>管理扩展 用来打开报表文件的 用来新建报表文件的 搜索Microsoft Reporting Services Projects 选择第一个进行下载 安装完以上两个即可进行报表文件的创建和预览 reportview组件 推荐nuget安装:Install-…

RabbitMQ 笔记

一、win10安装erlang 1.1 安装erLang语言,配置环境变量 erLang官网地址 1.2 配置环境变量 (1)添加系统变量ERLANG_HOME (2)path路径,指向bin目录 1.3 配置完成后再cmd命令窗口erl -version可以查看…

ubuntu安装golang

看版本:https://go.dev/dl/ 下载: wget https://go.dev/dl/go1.21.3.linux-amd64.tar.gz卸载已有的go,可以apt remove go,也可以which go之后删除那个go文件,然后: rm -rf /usr/local/go && tar…

苹果手机怎么设置壁纸?解锁设置壁纸的2种方法!

手机壁纸便是我们常说的屏幕背景图,一张好看的手机壁纸能使我们的心情变得愉悦。这个壁纸可以是风景、美食、喜欢的偶像、自己养的宠物,或者是你的家人、朋友。 拥有特殊含义的照片会更让人想要设置成壁纸。苹果手机怎么设置壁纸?本文将给大…

18.1 Socket 原生套接字抓包

原生套接字抓包的实现原理依赖于Windows系统中提供的ioctlsocket函数,该函数可将指定的网卡设置为混杂模式,网卡混杂模式(Promiscuous Mode)是常用于计算机网络抓包的一种模式,也称为监听模式。在混杂模式下&#xff0…

从github下载文件时遇到报错(Unable to render code block)解决办法

1、报错情况 2、解决办法 https://ghproxy.com/ (GitHub 文件 , Releases , archive , gist , raw.githubusercontent.com 文件代理加速下载服务)

提高生产力,开启高效办公——ConceptDraw Office办公软件套件

在当今快节奏的工作环境中,一款强大的办公软件套件对于提高工作效率和生产力至关重要。ConceptDraw Office,作为一款专业的办公软件套件,凭借其强大的功能和易用性,成为了市场上备受瞩目的办公利器。本文将带您深入了解ConceptDra…

Qt扫盲-QPixmap理论总结

QPixmap 理论总结 一、概述二、读写 Image 文件三、Pixmap 像素图信息四、Pixmap 格式转换五、Pixmap 像素转换 一、概述 QPixmap 也是一个用得很多的描述图像的类,也是界面显示相关的时候用得很多的。 QPixmap类是一个可以用作绘画设备的屏幕外图像表示。Qt提供了…

文生图——DALL-E 3 —论文解读——第一版

概述 本文主要是DALLE 3官方第一版技术报告(论文)的解读,原文《Improving Image Generation with Better Captions》论文解读。该文要提升文生图的效果,将技术点放到了,提升指令跟随能力上,然后顺藤摸瓜分为…

Linux下挂载大于2T的硬盘

fdisk和gdisk命令的区别 fdisk和gdisk命令都可以给磁盘分区,但是在公司里,如果磁盘大于2T,不能用fdisk分区,只能用gdisk命令分区。 gdisk可以分128个主分区,用gdisk分区没有逻辑分区和扩展分区之说,只有主…

【FPGA零基础学习之旅#17】搭建串口收发与储存双口RAM系统

🎉欢迎来到FPGA专栏~搭建串口收发与储存双口RAM系统 ☆* o(≧▽≦)o *☆嗨~我是小夏与酒🍹 ✨博客主页:小夏与酒的博客 🎈该系列文章专栏:FPGA学习之旅 文章作者技术和水平有限,如果文中出现错误&#xff0…

超声波清洗机品牌哪些好用?好评不断的超声波清洗机推荐

超声波清洗机目前的使用范围逐渐变广,一开始超声波清洗机只出现在大型的工业领域中的零件清洗,逐渐衍生到现在,出现了小型的超声波清洗机,可以让大家可以在家也使用上超声波清洗机。眼镜是现在大部分都离不开视线辅助的一个工具&a…

越流行的大语言模型越不安全

源自:GoUpSec “人工智能技术与咨询” 发布 安全研究人员用OpenSSF记分卡对GitHub上50个最流行的生成式AI大语言模型项目的安全性进行了评估,结果发现越流行的大语言模型越危险。 近日,安全研究人员用OpenSSF记分卡对GitHub上50个最流…

Powershell脚本自动备份dhcp数据库

文章目录 为什么要备份DHCP数据库呢?在PowerShell中自动备份DHCP数据库1,创建备份目录2,判断备份路径是否存在3,备份DHCP数据库4,完整自动备份脚本5,安排定期备份 推荐阅读 为什么要备份DHCP数据库呢&#…

故障解析丨Clone节点导致主从故障

1.背景概述 在一次主从复制架构中,由于主节点binlog损坏,导致从节点无法正常同步数据,只能重做从节点;因此使用MySQL 8.0.17开始提供的clone技术进行恢复,恢复后的2天都发生了主从报错数据冲突。 通过解析binlog发现…

网页轮播图

<!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>纯CSS实现轮播图(自动轮播)</title><style&…

Warning: ‘Destination Folder‘ contains 1 space.【Anaconda安装】

报错内容如下&#xff1a; 意思就是说你的安装路径下不要有空格哈哈&#xff0c;有空格就不行&#xff0c;比如&#xff1a; "D:\Program Files\Anaconda3"中间就有空格&#xff0c;Program与Files之间。 换个路径&#xff0c;例如&#xff1a; 就可以了。

EmbedChain:比LangChain更加轻量化的LLM框架

一、前言 在之前的文章中&#xff0c;我们研究了如何使用LangChain结合大型语言模型&#xff08;LLM&#xff09;API来构建用户友好且直观的聊天机器人。现在&#xff0c;我们将探索一个新的Python包来进一步简化LangChain的实现。只需3-4行代码&#xff0c;我们就可以轻松地与…

Runner GoUI自动化测试发布

构建自动化测试体系是当下每个项目团队愿意去做的&#xff0c;自动化测试减少重复操作节省人力成本。 RunnerGo UI自动化平台 RunnerGo提供从API管理到API性能再到可视化的API自动化、UI自动化测试功能模块&#xff0c;覆盖了整个产品测试周期。 RunnerGo UI自动化基于Selen…

APUS入驻百度灵境矩阵,普惠AI大模型插件能力

10月17日&#xff0c;APUS出席百度世界大会2023。会上&#xff0c;百度公布了灵境矩阵业务进展&#xff0c;APUS作为灵境矩阵首批合作伙伴正与百度携手拓展大模型能力边界、构建大模型应用生态。 百度认为&#xff0c;大模型将繁荣AI应用生态&#xff0c;在生态搭建过程中&…