AMD 自适应和嵌入式产品技术日

news2024/10/5 18:29:18

概要

时间:2023年11月28日

地点:北京朝阳新云南皇冠假日酒店

主题内容:AMD自适应和嵌入式产品的更新,跨越 云、边、端的AI解决方案,赋能智能制造的机器视觉与机器人等热门话题。

注:本文重点关注FPGA,SoC相关的产品和技术,对于CPU,GPU产品和技术大多数都是直接略过哈。

会议的议程

 AMD在各行业的创新

1:新器件发布

1.1: 最大规模的逻辑器件——Versal Premium

这自然是会议的重中之重,Versal Premium VP1902 发布,逻辑容量,Serdes数目,计算能力是VU19P的2倍。5.6kk 规模,汗,国内现在还没见到500K的(正式量产的)

        Xilinx FPGA最大逻辑规模又突破了一大步!

1.2: Versal Prime 系列

         Versal Prime VM2152,第一款XPIO支持DDR5和MIPI C-PHY的Versal芯片,其中DDR5速率可达5.6Gbps,LPDDR5速率可达6.4Gbps

 

             MIPI D-PHY速率可达4.5Gbps,C-PHY速率可达10Gbps,LVDS可达1.8Gbps

1.3: 受限低价系列的产品也有推出。

         -- Artix UltraScale+ 家族最小的AU7P(80K)

         -- ZYNQ UltraScale+ ZU3TCG/EG,150KLUT规模,带8个Serdes,与ZU3CG比,加入了8对Serdes和14M的Uram,DSP的数量也多了1.6倍;

         -- 明年会发布16 nm的低成本,低功耗的SPARTAN UltraScale+ 系列,Serdes IO最高可支持25Gbps

1.4: Kria K24 SOM 开发模块(System-on-Module)

        主要用于电机控制和数字信号处理; 

1.5: Versal系列的芯片跨越了云,通讯(RF),边缘,端

Versal 系列的芯片,全部是SoC的,没有纯FPGA的芯片。

理解一下HBM,Prime,Preminu的区别:

        Prime是最广泛,最通用的场景使用。

        Preminum是高级的片子,逻辑单元多,适合于处理更复杂的运算。

        HBM 因为是对内存的访问量大,快速。应该是适用于内存要求高,带宽要求高的场景。

 1.6: 芯片在车硅行业的布局:

2:无处不在的AI

2.1: 丰富的产品组合,满足不同的AI需求。

2.2: GPU的解决方案(CNDA & RDNA)

        GPU的解决方案,可以转换到NV的方案。

2.3: CPU的解决方案(RDNA)

必须要强调一下新款的Ryzen CPU for PC,可以使用 AMD Rezen AI ,AIE集成到CPU的应用

支持开源大模型

以Ryzen AI 7840HS系列的芯片为例,凡是搭载了这款芯片的笔记本电脑,都具备了AI功能,可以快速在笔记本上部署开源的大模型应用,完成大模型的推理部分的应用(训练当然是不可能的,推理也有限制,现场演示的是 chatglm2-6b 的模型),而且,这款芯片也集成了Radeom显卡,可以处理一些图像,多媒体。

2.4: SoC的AI 边缘计算解决方案(XDNA)

包括AIE,ARM,FPGA 的Soc产品,在边缘计算中。

      

看一下AI 边缘计算用到的芯片,逻辑单元的数量实际上是很小的。主要的能力是在AIE和DSP的能力。针对性非常的强。

2.5: 生态,软件模型层,AMD计算平台

3:行业应用

3.1: 针对8K视频处理

        实际上就是必须使用更高速的接口,如上。

3.2: 机器视觉与机器人

现场有展示工业相机,就是机器视觉的一个案例,涉及到智能制造和机器视觉的应用很多,从上面可以看到,这里就不一一介绍了,后续有机会,逐个分析一下相应的应用点。

3.3: 沉浸式座舱解决方案

3.4: 汽车智能传感器——自动驾驶

首先是传感器

同时,也可以通过3D视觉的方式,通过检测来感知。当然,对于时延要求会很高。

还有雷达算法非常复杂,需要有大量的处理,3D FFT

3.5: 医疗影像中的应用

手术机器人、内窥镜、超声,AMD都是NO1,CT/MRI/PET 与东软、联影都有合作;3D牙科成像、监护增长也比较快。

工业相机、监控的厂家也会进入来做内窥镜

图像处理、分割、目标选择、器官分类;超声图像呈现,提升CT 3D图片的质量

AI去雾算法,,超分处理(提升分辨率),识别与分类

3.6: 其它

在现场,其实还看到一些其它展品,具体原理不说了,这里只是列出来,后面再分析

4:设计与开发

4.1: Versal Soc架构的先进性

PMC —— 生命周期管理,这个相应的功能有增强吗?不清楚

添加双arm核,主频应该有所增强。

逻辑容量的提升,主要原因是制程是7nm,

AIE 和 DSP 的增强

AIE 的运算能力,吞吐最有增强,并对 ML 有优化。

DSP Engine的运算力有增强

针对AIE的编程——C++ 编码,也可以基于已有模型直接转换。

使用Noc来进行通讯——带宽最大,布局/布线更简单。

可使用的内存更加丰富——

以太网络的速度更高——600G

两种PCIe可选

高速的Transceivers

I/O 可骗程度更高

PDM——电源管理

更好的支持 硬件/软件/数据 开发人员

4.2:Versal Soc 硬件设计

硬件设计,主要是使用Vitis,对各种硬核 IP进行配置。

创建工程:

Noc的配置

Memory Controller的配置

CPM的设计

网络的设计

DSP的设计

clock的设计

内存设计

Select IO的设计

Transceiver的设计

4.3: Versal Soc 软件设计

软件开发包括:SoC的开发配置,加速应用处理,AI模型开发

如何搭建平台:

对于软件开发这一节,我觉得没有讲什么真正的软件开发,还是在介绍架构和原理居多。

4.4: Vitis 新版

Vitis 新版,实际上就是做了一些架构和打包上的改造,好象并没有什么功能上的大的突破性的变化。

原有安装包做了瘦身。

之前是三个IDE。

嵌入式软件开发包

前端:eclectron 这是一个流程的开源框架,可以通过html+JS 来构建桌面应用,内核基于chrome。最新桌面应用很多都是使用eclectron,因为开发周期短,技术栈通用。

框架:Eclipse Theia 基于Web的IDE,高度模块化,兼容VS Code插件,完全开源。编码:TypeScript,Node.js 和 React。IDE定制。

项目元数据:JSON 流程的web数据交换的格式定义,与web对象兼容。

硬件元数据:System Device Tree 描述设备和设备间关系。硬件信息,如:CPU,内存,外设接口,I/O设备,中断和地址映射等……

版本管理:Git 代码仓和版本管理

命令接口:Python 最通用的脚本/解释型语言

  • 后端的变化

System Deive Tree: 使用SDT传递数据到VITIS

Lopper Framework: 解析,提取,修改,可脚本化和自动化,支持SDT。

Base Address : 基于地址来访问硬件设备,简化和提效。更直接的硬件访问。

YAML:软件配置,硬件描述。更易读,简洁,更容易编辑。(通用于容器化技术中docker,k8s,CI/CD)

CMake: 驱动,库,应用程序模板使用cmake来构建,标准的软件工程实践,提供更好的跨平台的支持,更灵活的项目配置维护/管理,提升开发效率和项目管理的灵活度。

由上可见,Vitis unified 版本的变化:

  • 更小的可配置开发包,更灵活(之前的太臃肿)

  • 前端IDE到语言更多使用开源方案,扩大生态,提供开发生态的接入

  • 底层格式采纳更通用的标准格式,更灵活,扩展性更好

  • 构建系统和项目管理方式借鉴软件行业的规范,提升效率。

4.5: vivado 新功能

        这块儿的内容,实际上我没有听,因为时间原因,当天要从北京离开,需要去赶高铁。

PS:对于行业专场,我是从同事那里获得的信息,因为下午和技术开发场冲突。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1317507.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10-流媒体-RTMP编译

将h264推流给服务器,就完成了采集端的推流工作。一般在嵌入式系统常用的rtmp推流方案是rtmpdump。使用rtmp库涉及到一些编译过程,下面我们一点点描述。 关于rtmp的使用涉及到3个开源库的编译(openssl, zlib, rtmpdump)&#xff0c…

ACL和NAT

目录 一.ACL 1.概念 2.原理 3.应用 4.种类 5.通配符 1.命令 2.区别 3.例题 4.应用原则 6.实验 1.实验目的 2.实验拓扑 3.实验步骤 7.实验拓展 1.实验目的 2.实验步骤 3.测试 二.NAT 1.基本理论 2.作用 3.分类 静态nat 动态nat NATPT NAT Sever Easy-IP…

【FPGA/verilog -入门学习11】verilogTestbench中的文本文件写入,读出,打印等操作

本文参考:Verilog中的系统任务(显示/打印类)--$display, $write,$strobe,$monitor-CSDN博客 Verilog:parameter、localparam的区别和用法-CSDN博客 Verilog的系统任务----$fopen、$fclose和$fd…

SQL Server 远程连接服务器数据库

本文解决sql server的远程连接问题。需要开启防火墙,开启端口,并处理权限不足的报错: 【use 某数据库】The server principal "[server]" is not able to access the database "[database]" under the current security context. 【…

SCI一区级 | Matlab实现GWO-CNN-GRU-selfAttention多变量多步时间序列预测

SCI一区级 | Matlab实现GWO-CNN-GRU-selfAttention多变量多步时间序列预测 目录 SCI一区级 | Matlab实现GWO-CNN-GRU-selfAttention多变量多步时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现GWO-CNN-GRU-selfAttention灰狼算法优化卷积门控循环…

【接口技术】课堂word补充习题和讲解(乱序)

DAC & ADC 1:B 梯形电阻网络中的电阻是R和2R,只用了2种阻值 2:B LSBFSR/(2^n)5V / 2^10 5V / 1024 0.0048828125V 4.883mV 3:输入寄存器、DAC寄存器、D/A转换器 如下图所示 中断向量表,CSIP 多个元件互连的例题…

2023年12月5日,北京elastic Meetup 腾讯分享的搜索优化经验

1、减少长文本模糊匹配,降低 CPU 大量分词上的开销 长文本全文查询由于在查询时需要进行分词处理,因此在查询并发较大的情况下, cpu会先于IO被打满,从而出现大量的查询拒绝。 2、设置多副本提高并发和均衡单节点压力 Search查询请…

Linux访问MySQL数据库(包含实验案例)

1、访问MySQL数据库。 1.1、登录到MySQL服务器 经过安装后的初始化过程,MySQL数据库的默认管理员用户名为"root",密码为空。 [rootyang ~]# mysql -u root //"-u"选项用于指定认证用户有密码的情况下,使用"-p&qu…

【OpenCV】 OpenCV 源码编译并实现 CUDA 加速 (Windows)

OpenCV 源码编译并实现 CUDA 加速 Windows 1. 环境准备1.1 软件环境1. 2 源码下载 2. CMake编译项目2.1 创建cmake项目2.2 设置编译配置2.3 解决异常2.3.1 文件下载异常2.3.2 解决CUDA版本异常 2.4 编译项目 3. Visual Studio 编译项目4. 项目测试5. 总结 OpenCV是一个基于Apac…

鸿蒙南向开发环境的搭建

在嵌入式开发中,很多开发者习惯于使用Windows进行代码的编辑,比如使用Windows的Visual StudioCode进行OpenHarmony代码的开发。但当前阶段,大部分的开发板源码还不支持在Windows环境下进行编译,如Hi3861、Hi3516系列开发板。因此&…

Hudi cleaning

核心概念 hudi提供了很多项数据服务来管理表中的数据,其中有一项服务称之为Cleaner(数据清理服务)。随着用户向表中写入的数据越多,对于每一次的更新,hudi都会产生一个版本的数据文件保存更新后的记录(COP…

Javascript 嵌套函数 - 递归函数 - 内置函数详解

Javascript 嵌套函数 - 递归函数 - 内置函数详解 目录 Javascript 嵌套函数 - 递归函数 - 内置函数详解 一、嵌套函数 二、递归函数 三、内置函数 在了解了函数的定义和函数调用外,下面我们来介绍一下JavaScript中几种特殊的函数。 JavaScript特殊函数有3种&a…

工艺雕塑品牌网站搭建效果如何

工艺雕刻品往往受到不少人喜欢与较高的市场需求度,比如室内雕塑摆件、室外标志性雕刻品等,而对相关企业来说,品牌经营过程中也面临着一些难题: ① 品牌传播难 工艺雕刻品因为只有小部分人才会需要或采购,可能大部分民…

JAVA序列化(创建可复用的 Java 对象)

JAVA 序列化(创建可复用的 Java 对象) 保存(持久化)对象及其状态到内存或者磁盘 Java 平台允许我们在内存中创建可复用的 Java 对象,但一般情况下,只有当 JVM 处于运行时,这些对象才可能存在,即,这些对象的生命周期不…

暂退法(丢弃法)

在深度学习中,丢弃法(Dropout)是一种常用的正则化技术,旨在减少模型的过拟合现象,可能会比之前的权重衰减(Weight Decay)效果更好。通过在训练过程中随机丢弃一部分神经元,可以有效地减少神经网络中的参数依…

普冉(PUYA)单片机开发笔记(11): I2C通信-配置主从收发

概述 在上一篇《普冉(PUYA)单片机开发笔记(10): I2C通信-配置从机-CSDN博客》配置了 PY32F003 的 I2C 从机一侧,今天配置主机,并实现主-从机之间的报文收发。 为了完成这个实验,需要两块 PY32F003F18P 的开发板&…

001 Windows虚拟机

一、虚拟机安装Windows10 选自定义安装 升级是针对你电脑上有系统的情况下,你要升级;没有系统就选择自定义。 硬盘60G 直接单击下一步就是一个盘 如果你想对磁盘进行分区 分第一个区的时候它会去创建系统的保留分区和系统分区,然后还剩20…

Linux下C++程序瘦身

目录 一.前言二.如何瘦身三.如何读取调试信息文件四.其他 一.前言 我们知道,C程序如果带着调试信息的话会比较大,所以一般发布版本都会去掉调试信息,但是我们又希望如果程序崩溃了可以使用core转储文件进行调试,如果不带调试信息…

数据结构之----贪心算法

数据结构之----贪心算法 什么是贪心算法? 贪心算法是一种常见的解决优化问题的算法,其基本思想是在问题的每个决策阶段,都选择当前看起来最优的选择,即贪心地做出局部最优的决策,以期望获得全局最优解。 贪心算法简…

SpringBoot配置文件加载的优先级及自定义配置

Spring Boot使用一个非常特殊的PropertySource顺序,旨在允许合理的值重写,越靠前优先级越高。属性按以下顺序考虑: 开发者工具Devtools全局配置参数 在IDEA或Eclipse中,安装并启用Spring Boot Devtools插件。打开项目的Settings…