亚马逊云科技基础设施为大型模型推理提供技术保障

news2024/12/23 0:29:30

在2019年的亚马逊云科技re:Invent上,亚马逊云科技发布了新的基础设施Inferentia芯片和Inf1实例。Inferentia是一种高性能机器学习推理芯片,由亚马逊云科技定制设计,其目的是提供具有成本效益的大规模低延迟预测。时隔四年,2023年4月亚马逊云科技发布了Inferentia2芯片和Inf2实例,旨在为大型模型推理提供技术保障。

Inf2实例提供高达2.3 petaflops的DL性能和高达384 GB的总加速器内存以及9.8 TB/s的带宽。亚马逊云科技Neuron SDK与PyTorch和TensorFlow等流行的机器学习框架原生集成。因此,用户可以继续使用现有框架和应用程序代码在Inf2上进行部署。开发人员可以在AWS Deep Learning AMI、AWS Deep Learning容器或Amazon ECS、Amazon EKS和Amazon SageMaker等托管服务中使用Inf2实例。

39c7820f37464a50923ab85bdec819b6.png

 

Amazon EC2 Inf2实例的核心是亚马逊云科技Inferentia2设备,每个设备包含两个NeuronCores-v2。每个NeuronCore-v2都是一个独立的异构计算单元,具有四个主要引擎:张量(Tensor)、向量(Vector)、标量(Scalar)和GPSIMD引擎。张量引擎针对矩阵运算进行了优化。标量引擎针对ReLU(整流线性单元)函数等元素运算进行了优化。向量引擎针对非元素向量操作进行了优化,包括批量归一化或池化。

亚马逊云科技Inferentia2支持多种数据类型,包括FP32、TF32、BF16、FP16和UINT8,因此用户可以根据工作负载选择最合适的数据类型。它还支持新的可配置FP8(cFP8)数据类型,这与大型模型特别相关,因为它减少了模型的内存占用和I/O要求。

亚马逊云科技Inferentia2嵌入了支持动态执行的通用数字信号处理器(DSP),因此无需在主机上展开或执行控制流运算符。亚马逊云科技Inferentia2还支持动态输入形状,这对于输入张量大小未知的模型(例如处理文本的模型)来说非常关键。

亚马逊云科技Inferentia2支持用C++编写的自定义运算符。Neuron Custom C++Operators使用户能够编写在NeuronCores上本机运行的C++自定义运算符。使用标准PyTorch自定义运算符编程接口将CPU自定义运算符迁移到Neuron并实现新的实验运算符,所有这些都不需要对NeuronCore硬件有深入了解。

Inf2实例是Amazon EC2上的第一个推理优化实例,可通过芯片之间的直接超高速连接(NeuronLink v2)支持分布式推理。NeuronLink v2使用集体通信(Collective Communications)运算符(例如all-reduce)在所有芯片上运行高性能推理管道。

 

Neuron SDK

亚马逊云科技Neuron是一种SDK,可优化在亚马逊云科技Inferentia和Trainium上执行的复杂神经网络模型的性能。亚马逊云科技Neuron包括深度学习编译器、运行时和工具,这些工具与TensorFlow和PyTorch等流行框架原生集成,它预装在亚马逊云科技Deep Learning AMI和Deep Learning Containers中,供客户快速开始运行高性能且经济高效的推理。

Neuron编译器接受多种格式(TensorFlow、PyTorch、XLA HLO)的机器学习模型,并优化它们以在Neuron设备上的运行。Neuron编译器在机器学习框架内调用,其中模型由Neuron Framework插件发送到编译器。生成的编译器工件称为NEFF文件(Neuron可执行文件格式),该文件又由Neuron运行时加载到Neuron设备。

Neuron运行时由内核驱动程序和C/C++库组成,后者提供API来访问Inferentia和Trainium Neuron设备。TensorFlow和PyTorch的Neuron ML框架插件使用Neuron运行时在NeuronCores上加载和运行模型。Neuron运行时将编译的深度学习模型(也称为Neuron 可执行文件格式(NEFF))加载到Neuron设备,并针对高吞吐量和低延迟进行了优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/535662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用particles动态粒子效果,优化登录页

前言 书接上回,咱不是做了落日余晖登录页,说白了就是一个背景图,感觉需要进一步优化一下,做一个高大上的效果。所图所示,我想要背后的动态粒子效果,这就开搞,基于老的代码:vue2和el…

10种最常用的3D 分析工具【GIS】

3D 分析一直是 GIS 中的一个增长趋势,因为它可以更好地表示现实世界。 这不仅仅是为了一张漂亮的图片。 对于某些类型的问题,3D 分析有时是你解决问题的唯一方法。 推动这一需求的 3D 数据类型也呈爆炸式增长。 例如,激光雷达、BIM、无人机…

S7-200SMART 实现MODBUS TCP通信的具体方法示例(客户端读写+服务器响应)

S7-200SMART 实现MODBUS TCP通信的具体方法示例(客户端读写+服务器响应) 前面和大家介绍了MODBUS TCP的基本使用方法,具体可参考以下链接中的内容: S7-200SMART实现MODBUS TCP通信(客户端+服务器)的具体方法和步骤示例 本次继续和大家分享S7-200SMART 中实现MODBUS TCP通…

界面控件DevExtreme使用指南 - 如何为雷达图添加注释?

在之前的版本中,官方技术团队为DevExtreme图表引入了注释支持。在v20.1版本中,继续扩展了对Polar Chart(雷达图)注释的支持,现在可以根据需要应用文本、图像或自定义注释。创建注释后,可以将其附加到Polar …

【Git基础】Gitlab的使用

文章目录 1. 搭建Gitlab1.1 Gitlab介绍1.2 搭建Gitlab 2. Gitlab的权限管理2.1 用户注册2.2 创建用户组2.3 为用户组添加用户2.4 为工程添加访问权限 3. Gitlab的code review4. 团队知识管理4.1 是什么4.2 为什么4.3 怎么做 1. 搭建Gitlab 1.1 Gitlab介绍 GitLab是一个基于Ru…

Kylin-Server-10-SP2-x86_64安装HDP2.7.5.0、Ambari【已解决】

Kylin-Server-10-SP2-x86_64安装HDPAmbari【已解决】 报错赏析解决方案os_check.py主要是三个修改点 参考: 报错赏析 ERROR: Unexpected error Ambari repo file path not set for current OS. ERROR: Exiting with exit code 1. REASON: Failed to create user. E…

anji-plus / AJ-Captcha行为验证码前后端实现

一,简介及源码、文档地址 AJ-Captcha行为验证码,包含滑动拼图、文字点选两种方式,UI支持弹出和嵌入两种方式。后端提供Java实现,前端提供了php、angular、html、vue、uni-app、flutter、android、ios等代码示例。 行为验证码采用嵌…

【软考数据库】第十三章 云计算与大数据处理

目录 13.1 云计算 13.1.1 云计算的关键特征 13.1.2 云计算分类 13.1.3 云关键技术 13.1.4 云计算的安全 13.1.5 云安全实施的步骤 13.2 大数据 前言: 笔记来自《文老师软考数据库》教材精讲,精讲视频在b站,某宝都可以找到&#xff0c…

天线学习笔记——波导中微波模式的理解(TE/TM/TEM)

三种模式的解释 TE/TM/TEM中的“T”是指Transverse的缩写,本意是“横向”,在微波模式中指的是“与传输方向相垂直的方向”,比如说:在三维笛卡尔直角坐标系中波导中的电磁波传输方向是沿着z轴,则把x方向和y方向称为横向…

【8086汇编】用DS和[address]实现字的传送

CPU从内存中读取一个数据单元的数据(1个字节8位),或者读取一个字的数据(2个字节16位) DOSBox实操代码验证

低代码应用开发:告别繁琐,实现高效创新

随着企业数字化转型的不断推进,对于软件开发速度、效率和成本的要求也在不断提高。与此同时,随着技术发展,低代码技术逐渐成为了企业快速实现数字化转型的利器。如今,低代码已经广泛应用于各行各业,帮助企业提高应用开…

Splashtop Business Access - 个人和团队可以简单快速、安全高效地访问远程计算机。

Splashtop Business Access,从智能手机,平板电脑或另一台计算机远程访问 Windows PC 和 Mac –就像您坐在计算机前一样。 SPLASHTOP BUSINESS ACCESS 的主要功能 高性能 Splashtop Business Access和我们屡获殊荣的为数以百万计的消费用户提供的产品一…

初识软件测试(常见软件开发模型)

文章目录 软件测试概念篇1. 软件测试常见问题1) 什么是软件测试?2) 调试和测试的区别?3) 测试人员需要具备哪些素质? 2. 软件测试常见名词解释1) 需求2) 软件错误(bug)3) 测试用例 3. 软件的生命周期4. 开发模型1) 瀑布模型2) 螺旋模型3) 增量模型和迭代模型4) 敏捷模型 软件…

【服务器】利用树莓派搭建 web 服务器

Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员,2024届电子信息研究生 目录 概述 使用 Raspberry Pi Imager 安装 Raspberry Pi OS 设置 Apache Web 服务器 测试 web 站点 安装静态样例站点 将web站点发布到公网 安装 Cpolar内网穿透 cpolar进行tok…

Spring的IOC/DI注解开发

文章目录 3.1 环境准备3.2 注解开发定义bean步骤1:删除原XML配置步骤2:Dao上添加注解步骤3:配置Spring的注解包扫描步骤4:运行程序步骤5:Service上添加注解步骤6:运行程序知识点1:Component等 3.2 纯注解开发模式3.2.1 思路分析3.2.2 实现步骤步骤1:创建配置类步骤2…

主题建模-corpora语料库-PCA进行降维

https://colab.research.google.com/drive/1F-1Ej7T2xnUKXSmDPjjOChNbBTvQlpnM?uspsharing 考试 https://colab.research.google.com/drive/1hSRxzFL9cx7PYrHYZeEnT3jRSn8LmQcx?uspsharing 第一题要求 聚类选定的新闻数据。此时,请考虑以下事项。(2分…

算法篇——贪心算法大集合(js版)

455.分发饼干 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。 对每个孩子 i,都有一个胃口值 g[i],这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j,都有…

Vue收集表单数据和过滤器

目录 收集表单数据 收集表单数据总结 过滤器 过滤器小结 收集表单数据 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><!--vue--><script src"https://cdn.sta…

【C#】GridControl日期字段显示时分秒

系列文章 【C#】单号生成器&#xff08;编号规则、固定字符、流水号、产生业务单号&#xff09; 本文链接&#xff1a;https://blog.csdn.net/youcheng_ge/article/details/129129787 【C#】日期范围生成器&#xff08;开始日期、结束日期&#xff09; 本文链接&#xff1a;h…

Vue3+elementPlus 表格提示宽度设置无效问题

网上都说这样改 但是我的改了无效&#xff01; 试了下这样就可以了 <style lang"css">.el-popper {font-size: 14px;max-width: 600px; } </style>