微软分享其首款定制人工智能芯片Maia 100的更多细节

news2024/9/24 11:31:36

在2023年Ignite大会期间,微软首次宣布其已开发出名为Maia的自主人工智能加速器芯片。今年早些时候,在Build开发者大会上,微软分享了其首个自主研发的人工智能加速器Azure Maia 100的更多细节。Maia 100 是台积电 5nm 节点上制造的最大处理器之一,专门为部署在 Azure 中的大规模 AI 工作负载而设计。

在这里插入图片描述
昨天,在 Hot Chips 2024 大会上,微软首次分享了 Maia 100 的规格,并透露了更多细节。你可以在下面找到它们的摘要。

Maia 100 规格

芯片尺寸 - 820mm2

封装 - 采用 COWOS-S 夹层技术的 TSMC N5 工艺

HBM BW/Cap - 1.8TB/s @ 64GB HBM2E

峰值密集张量 POPS - 6 位:3,9 位1.5,BF16:0.8

L1/L2 - 500MB

后端网络 BW - 600GB/秒(12X400gbe)

主机 BW(PCIe)= 32GB/s PCIe Gen5X8

最高 TDP - 700W

额定 TDP - 500W

微软 Maia 100 系统采用垂直集成方式,以优化成本和性能。它还采用定制服务器板,配备专门设计的机架和软件堆栈,以提高性能。

Maia 100 SoC 架构

在这里插入图片描述
高速张量单元可为训练和推理提供高速处理,同时支持多种数据类型。该张量单元采用 16xRx16 结构。

矢量处理器是一个松散耦合的超标量引擎,采用定制指令集架构(ISA),支持包括 FP32 和 BF16 在内的多种数据类型。

直接内存访问(DMA)引擎支持不同的张量分片方案。

硬件 semaphores 支持 Maia 系统的异步编程。

为提高数据利用率和能效,大型 L1 和 L2 划痕垫采用软件管理。

Maia 100 采用基于以太网的互联技术和类似 RoCE 的定制协议,可实现超高带宽计算。它支持高达 4800 Gbps 的全收集和散射降低带宽,以及 1200 Gbps 的全对全带宽。

在软件方面,Maia 软件开发工具包(SDK)允许任何人快速将其 PyTorch 和 Triton 模型移植到 Maia。Maia SDK 为开发人员提供了多个组件,使他们能够轻松地将模型部署到 Azure OpenAI 服务。

开发人员可以选择两种编程模型来为 Maia 系统编程。他们既可以使用 Triton(一种用于深度神经网络 (DNN) 的流行开源特定领域语言 (DSL)),也可以使用 Maia API(一种 Maia 专用的定制编程模型,可通过更详细的控制实现最高性能)。此外,Maia 还原生支持 PyTorch 模型,开发人员只需更改一行即可执行 PyTorch 模型。

凭借其先进的架构、出色的开发者工具以及与 Azure 的深度集成,Maia 100 正在改变微软管理和执行人工智能工作负载的方式。微软 是否会像Google对其TPU和亚马逊对其Trainium和Inferentia芯片那样向第三方机构开放Maia 100加速器,还值得观察。

有关 Maia 100 的更多信息,请点击此处查看微软官方博文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2090231.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深拷贝与浅拷贝的区别

浅拷贝会导致深层数据改变,而深拷贝不会改变任何数据。 简单说就是: 浅拷贝只复制某个对象的引用,而不复制对象本身,新旧对象还是共享同一块内存。 深拷贝会创造一个一模一样的对象,新对象和原对象不共享内存&#x…

江协科技stm32————10-4 I2C通信协议

目录 I2C外设简介 I2C功能框图 基本结构图(一主多从) GPIO复用输入输出图 主机发送​编辑 START stop ​ EV5 (标志位) BTF 主机接收 ACK 软件/硬件波形对比 I2C外设简介 可变多主机模型11110作为10位地址模式的标志位…

「OC」初识MVC —— 简单学习UITableView的解耦

「OC」初识MVC —— 简单学习UITableView的解耦 文章目录 「OC」初识MVC —— 简单学习UITableView的解耦写在前面认识MVC解耦数据源代理 创建cell的基础类创建section的相关类分离数据源分离代理总结参考资料 写在前面 最近在学习了解MVC,然后开始发现&#xff0c…

VSCode连接SSH发生connection timeout

想用用实验室服务器连接vscode跑HM编码,今天突然连服务器连不到,报错:[13:47:13.068] Opening exec server for ssh-remotea406-server-lan [13:47:13.082] Initizing new exec server for ssh-remotea406-server-lan [13:47:13.089] Using c…

Apple LLM: 智能基础语言模型(AFM)

今天想和大家分享一下我最近在arXiv.org上看到苹果发表的一篇技术论文 Apple Intelligence Foundation Language Models (https://arxiv.org/abs/2407.21075),概述了他们的模型训练。这虽然出乎意料,但绝对是一个积极的惊喜! 这篇论文有那么多…

Dubbo如何传递链路追踪id?

1.什么是链路追踪? 分布式链路追踪就是将一次分布式请求还原成调用链路,将一次分布式请求的调用情况集中展示,比如各个服务节点上的耗时、请求具体到达哪台机器上、每个服务节点的请求状态等等。 链路跟踪主要功能: 故障快速定…

ET6框架(五)ECS组件式编程

文章目录 一、什么是ECS:二、ECS编程原则:三、组件生命周期: 一、什么是ECS: ECS即Entity、Component、System的简称,遵循组合优于继承的原则 Entity(实体) : 实体是一个概念,是指存在你游戏世界中的一个独立物体,是一…

图机器学习实战:从数据源到可视化

《动手学图机器学习》并不是一本纯粹介绍图机器学习理论的著作,Alessandro Negro 博士作为科学家和 Reco4 公司的 CEO,长期维护图数据源的推荐系统。他结合机器学习工程和图机器学习方法,通过推荐引擎、欺诈检测和知识图谱等案例,…

【书生2.4】InternLM + LlamaIndex RAG 实践

InternLM LlamaIndex RAG 实践 1 环境安装2 材料准备3 还原实验4 更换问题验证rag 【Intern Studio的gpu不足。本实验使用自有服务器】 1 环境安装 conda create -n llamaindex python3.10 conda activate llamaindex conda install pytorch2.0.1 torchvision0.15.2 torchau…

新160个crackme - 042-crackme

运行分析 提示需要key.dat文件 同目录下创建一个key.dat,提示key.dat内容不对 PE分析 C程序,32位,无壳 静态分析&动态调试 ida搜索字符串,找到关键字符串双击进入关键函数 对关键函数进行分析,注释如上当满足67行公…

信息安全数学基础(4)最大公因数

前言 在信息安全数学基础中,最大公因数(Greatest Common Divisor, GCD)是一个核心概念,它在密码学、数论等多个领域都有广泛应用。以下是对最大公因数的详细阐述: 一、定义 设a和b是两个非零整数,若整数d同…

论文阅读——Compact Single-Feed Dual-Mode Antenna for Active RFID Tag Application

文章目录 摘要一、天线设计A. 天线结构B. 天线演进 二、天线仿真与测试总结 论文来源:https://ieeexplore.ieee.org/document/7247651 摘要 文章提出了一种用于主动射频识别(RFID)标签应用的紧凑型单馈双模天线。该天线由一个位于FR4基板上的…

【读点论文】Scene Text Detection and Recognition: The Deep Learning Era

Scene Text Detection and Recognition: The Deep Learning Era Abstract 随着深度学习的兴起和发展,计算机视觉发生了巨大的变革和重塑。场景文本检测与识别作为计算机视觉领域的一个重要研究领域,不可避免地受到了这波革命的影响,从而进入…

ARM32开发——(二十一)ADC系统工作原理

1. ADC硬件结构 内部结构简化框图 2. ADC转换模式 2.1 单次转换,非扫描模式 2.2 连续转换,非扫描模式 2.3 单次转换,扫描模式 2.4 连续转换,扫描模式 3. 规则组和注入组 4. ADC数据对齐 5. ADC转换时间 总转换时间采样时间12 个 CK_ADC 周期 6. ADC内部校准 ADC有一个内置自…

前端速通面经八股系列(六)—— Vue(下)

接上ueue Vue下篇 四、路由1. Vue-Router 的懒加载如何实现2. 路由的hash和history模式的区别1. hash模式2. history模式3. 两种模式对比 3. 如何获取页面的hash变化4. $route 和$router 的区别5. 如何定义动态路由?如何获取传过来的动态参数?6. Vue-rou…

读书笔记:《深入理解Java虚拟机》(2)

Java内存区域与内存溢出异常 Java与C之间有一堵由内存动态分配和垃圾收集技术所围成的高墙,墙外面的人想进去,墙里 面的人却想出来。 对于从事C、C程序开发的开发人员来说,在内存管理领域,他们既是拥有最高权力的“皇帝”&#xf…

[Leetcode 435][Medium]-无重叠区间-贪心

目录 一、题目描述 二、整体思路 三、代码 一、题目描述 题目地址 二、整体思路 要求移除区间的最小个数,也就是要求使得剩余区间互不重叠的最大区间数。 可以先将区间按右端点的值进行升序排序,然后遍历数组,在此基础上保留左端点>最小右端点的值…

【C++ Primer Plus习题】7.7

问题: 解答: #include <iostream> using namespace std;#define SIZE 10double* fill_array(double* begin, double* end) {for (begin; begin < end; begin){cout << "请输入值:";cin >> *begin;if (cin.fail()){cout << "非法数字…

PCIE-校验和纠错

各种编码&#xff1a; &#xff08;1&#xff09;ECRC/LCRC (为什么需要ECRC?) &#xff08;3&#xff09;PCRC&#xff08;Plaintext CRC&#xff0c;纯文本 CRC&#xff09;&#xff1a;是 IDE TLP 中的概念&#xff0c;在大多数方面&#xff0c;PCRC的计算方法与ECRC相…

【论文阅读】为大规模航空图像应用神经辐射场

【论文阅读】为大规模航空图像应用神经辐射场 ABSTRACTI. INTRODUCTIONV. EXPERIMENTSA. Evaluations on the entire datasetsA.1. State-of-the-Art comparisonA.2. Cloud-to-Cloud comparisonA.3. Accuracy and completeness B. Evaluations on the selected regionsB.1. Fi…