神经网络硬件加速器-DPU分析

news2025/1/12 8:43:07

一 DPU概述

       DPU是专为卷积神经网络优化的可编程引擎,其使用专用指令集,支持诸多卷积神经网络的有效实现。

 1、关键模块

  • 卷积引擎:常规CONV等
  • ALU:DepthwiseConv
  • Scheduler:指令调度分发
  • Buffer Group:片上数据缓存
  • Data Mover:高速数据通道

 2、特性

 3、工作流程

  • 阶段一:上电后,DPU将指令从外部DRAM加载到片上,译码并分发至各个模块;并根据指令通过DMA将相应权重和输入特征图加载至片上缓存
  • 阶段二:计算引擎根据调度算法将所需数据加载至计算阵列中,通过并行计算引擎完成计算任务
  • 阶段三:       一旦完成当。前层计算任务,则需要将输出特征图通过DMA写回片外DRAM,然后开启下一层计算任务。进而实现整个网络的逐层加速计算

二 设计分析

       DPU通过组合多种并行度来搭配多种卷积架构,DPU卷积架构包括三个维度的并行度:像素并行度/输入通道并行度/输出通道并行度(通常输入通道并行度=输出通道并行度)。

 1、并行度

  • 像素并行度:PP

  • 输入通道并行度:ICP

  • 输出通道并行度:OCP

 2、计算模式

数据排布格式猜测大致为:NHWC

计算模式:

 3、架构设计

DPU计算架构设计如下图红色方框部分

 CONV计算阵列:计算阵列包括P个PE,每个PE用于完成P个像素并行度计算;每个PE包含OCP个计算阵列,每个计算阵列包含ICP个MACs,分别完成输出通道并行/输出通道并行的卷积计算。

单个计算阵列中包含多个乘法器单元,加法树,非线性计算采用流水线方式设计,通过复制OCP个并行流水线,完成OCP并行度的输出通道卷积运算。也包含任意尺寸的池化、逐元素、尺寸变换、全连接等

 Memory POOL:缓存池根据相关专利,为统一缓存池,与传统的输入缓冲区-计算核阵列-输出缓存区结构不同,其采用统一的缓存池,多通道数据读写调度单元设计。DPU根据不同网络不同层的特点,动态申请、分配来使用相应的缓存空间,最大化利用片上缓存资源。

卷积计算单元和ALU可以脱离顺序执行的流水线限制而彼此独立,同时可以保证各计算单元的数据吞吐率,有效提升计算模块的灵活性和并行度。

 4、指令集

DPU采用多指令多数据流架构,包含指令类型如下:

  • LOAD:数据加载
  • SAVE:数据缓存
  • CONV:卷积计算,包括常规卷积/转置卷积等
  • MISC:逐通道卷积等

具有以下特点:

  • 不同类别指令并行执行
  • 相同类别指令串行执行
  • 不同类别指令间存在相互依赖
  • 依赖关系不应存在死锁

指令优化:

  • 将访存和计算并行,提高计算单元利用率
  • 通过调整tile策略和大小,优化系统访存

指令字段包括:操作码(区分不同指令类型)、依赖码(不同类型指令集安存在并行可能性)、指令参数(具体指令功能描述)

待补充。。。

三 参考文献

[1] 深鉴相关专利

[2] 清华大学NICS-EFC组相关paper

[3]XILINX DPU相关datasheet

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1108944.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

利用爬虫采集音频信息完整代码示例

以下是一个使用WWW::RobotRules和duoip.cn/get_proxy的Perl下载器程序: #!/usr/bin/perluse strict; use warnings; use WWW::RobotRules; use LWP::UserAgent; use HTTP::Request; use HTTP::Response;# 创建一个UserAgent对象 my $ua LWP::UserAgent->new();#…

鸿蒙状态栏设置

鸿蒙状态栏设置 基于鸿蒙 ArkTS API9,设置状态栏颜色,隐藏显示状态栏。 API参考文档 参考文档 新建项目打开之后发现状态栏是黑色的,页面颜色设置完了也不能影响状态栏颜色,如果是浅色背景,上边有个黑色的头&#…

C# LINQ常用操作方法——提升你的编程效率

导语:C# LINQ(Language Integrated Query)是一种强大且灵活的查询语言,可以将数据查询、过滤、排序和转换等操作无缝集成到C#代码中。本文将介绍一些常用的LINQ操作方法,帮助熟练掌握LINQ的使用,并进一步提…

【玩转 EdgeOne】边缘安全加速平台EO给自己的技术博客插上“翅膀”

目录 一、边缘安全加速平台 EO简介 二、产品功能 三、应用场景 四、网站加速体验 五、总结 作为一个技术博客爱好者,不知不觉已经在程序员行业将近十年了,写技术博客也有将近七年的时间,其中我也搭建了一个自己的技术博客,因…

iPhone 12电池寿命结果:四款机型都进行了比较

如果你想决定买哪款iPhone 12,电池寿命应该在你的清单上名列前茅。我们已经通过电池测试运行了所有新款iPhone 12,结果喜忧参半。 iPhone 12 mini是其中最小的一款,有一块小电池可供匹配,在5G上运行时间最短。iPhone 12和iPhone …

探索Java NIO:究竟在哪些领域能大显身手?揭秘原理、应用场景与官方示例代码

一、NIO简介 Java NIO(New IO)是Java SE 1.4引入的一个新的IO API,它提供了比传统IO更高效、更灵活的IO操作。与传统IO相比,Java NIO的优势在于它支持非阻塞IO和选择器(Selector)等特性,能够更…

基于下垂控制的孤岛双机并联逆变器环流抑制模型(Simulink仿真实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

分享一个Redis自带的压测工具:redis-benchmark

前言 今天给xdm分享一个Redis自带的压测工具:redis-benchmark。 介绍 redis-benchmark 是一个用于测试 Redis性能的基准测试工具,可以帮助开发人员评估和比较 Redis 在不同配置或负载情况下的吞吐量和延迟。 使用 redis-benchmark 可以执行多种类型的…

如何将几个模型合并成一个

1、什么时候需要合并模型? 组装和装配:当你需要将多个零件或组件组装成一个整体时,可以合并它们成为一个模型。例如,在制造业中,当需要设计和展示一个完整的机械装置或产品时,可以将各个零部件合并成一个模…

从黑客帝国到元宇宙,“数字身份”之船终将驶向何方?

1999年第一部《黑客帝国》在北美上映,当时正值千禧年初,在这个互联网并未全民普及的年代,《黑客帝国》超前地抛出在蓝、红药丸(即虚幻与真实)之间作选择的经典问题,表达人类与互联网之间的虚实关系&#xf…

c 语言基础:L1-044 稳赢

大家应该都会玩“锤子剪刀布”的游戏:两人同时给出手势,胜负规则如图所示: 现要求你编写一个稳赢不输的程序,根据对方的出招,给出对应的赢招。但是!为了不让对方输得太惨,你需要每隔K次就让一个…

对传感器采样数据的低通滤波

低通滤波(Low-pass filter) 是一种过滤方式,规则为低频信号能正常通过,而超过设定临界值的高频信号则被阻隔、减弱。 一阶低通数字滤波器 滤波系数a越小,滤波结果越平稳,但是灵敏度低;滤波系数a越大,滤波结…

LeetCode算法刷题(python) Day43|09动态规划|343. 整数拆分、96.不同的二叉搜索树

目录 LeetCode 343. 整数拆分LeetCode 96.不同的二叉搜索树 LeetCode 343. 整数拆分 力扣题目链接 正整数n,先拆成两个数i, n-i,拆成多个数可以对n-i进行拆分,然后对这些求最大值。 确定dp数组以及下标的含义:对i进行拆分的最大…

ch552g下载时遇到的可能问题

第一次出现的问题 首先确定,vcc和v33,示例芯片中的是15和16引脚都并联了去耦电容。 烧录一般使用上面的两个软件。第一次出现的问题,当没有打开这两个烧录软件时,连接usb数据线后电脑循环出现识别和断开的情况。当打开软件后就能…

通讯网关软件028——利用CommGate X2Modbus实现Modbus RTU访问PI服务器

本文介绍利用CommGate X2Modbus实现Modbus RTU访问PI数据库。CommGate X2MODBUS是宁波科安网信开发的网关软件,软件可以登录到网信智汇(http://wangxinzhihui.com)下载。 【案例】如下图所示,实现上位机通过Modbus RTU来获取PI数据库的数据。 【解决方案…

计算机算法分析与设计(12)---贪心算法(最优装载问题和哈夫曼编码问题)

文章目录 一、最优装载问题1.1 问题表述1.2 代码编写 二、哈夫曼编码2.1 哈夫曼编码概述2.2 前缀码2.3 问题描述2.4 代码思路2.5 代码编写 一、最优装载问题 1.1 问题表述 1. 有一批集装箱要装上一艘载重量为 c c c 的轮船,已知集装箱 i ( 1 ≤ i ≤ n ) i(1≤i≤…

神经网络中的反向传播:综合指南

塔曼纳 一、说明 反向传播是人工神经网络 (ANN) 中用于训练深度学习模型的流行算法。它是一种监督学习技术,用于调整网络中神经元的权重,以最小化预测输出和实际输出之间的误差。 在神经网络中,反向传播是计算损失函数…

纳米软件科普|半导体常见的测试种类详解

纳米软件科普下半导体几种常见的测试方法种类的详细介绍,有你不了解的吗? 外观检测:这一步骤主要是对半导体外观质量的评估。它包括检查芯片的平整度、颜色、镜面度等,以确保半导体表面无明显缺陷或不规则形状。 电性能测试&…

Kafka 使用java实现,快速入门

一、kafka的生产者和消费者 1. 生产者发送消息的流程 2. 消费者接收消息的流程 二、 java 代码实现 1. 添加依赖&#xff1a; <dependency><groupId>org.apache.kafka</groupId><artifactId>kafka_2.12</artifactId></dependency>2. 实现…

vue3+koa+axios实现前后端通信

vue3koaaxios实现前后端通信 写了一个小demo来实现前后端通信,涉及跨域问题&#xff0c;非常简单可以给大家平时开发的时候参考 服务端&#xff1a; 目录结构如下&#xff1a; router index.js // router的入口文件 // 引入路由 const Router require("koa-router&quo…