FPGA学习笔记#7 Vitis HLS 数组优化和函数优化

news2024/11/22 14:09:43

本笔记使用的Vitis HLS版本为2022.2,在windows11下运行,仿真part为xcku15p_CIV-ffva1156-2LV-e,主要根据教程:跟Xilinx SAE 学HLS系列视频讲座-高亚军进行学习


学习笔记:《FPGA学习笔记》索引
FPGA学习笔记#1 HLS简介及相关概念
FPGA学习笔记#2 基本组件——CLB、SLICE、LUT、MUX、进位链、DRAM、存储单元、BRAM
FPGA学习笔记#3 Vitis HLS编程规范、数据类型、基本运算
FPGA学习笔记#4 Vitis HLS 入门的第一个工程
FPGA学习笔记#5 Vitis HLS For循环的优化(1)
FPGA学习笔记#6 Vitis HLS For循环的优化(2)
FPGA学习笔记#7 Vitis HLS 数组优化和函数优化
FPGA学习笔记#8 Vitis HLS优化总结和案例程序的优化


目录

  • 1.数组优化
  •     1.1.双端口内存
  •     1.2.数组分割
  •         1.2.1.一维数组分割
  •         1.2.2.多维数组分割
  •     1.3.数组合并
  •         1.3.1.横向合并
  •         1.3.2.纵向合并
  •         1.3.3.数组分割和数组合并的结合使用
  •     1.4.数组转换(reshape)
  •     1.5.数组分割、合并和转换的对比
  •     1.6.其他数组优化
  •         1.6.1.定义ROM
  •         1.6.2.数组初始化
  •         1.6.3.FPGA的复位(一定要知道!)
  • 2.函数优化
  •     2.1.数据类型优化
  •     2.2.inline
  •     2.3.Allocation
  •     2.4.DATAFLOW

1.数组优化

数组的优化对程序性能的提升是非常重要的,一个合理的内存结构可以提高程序的并行度,我们要找到资源和性能的权衡点,最大化FPGA使用率。

如果数组为top函数传入的参数,会表现为外部memory;如果设计在内部,则会用内部RAM、LUTRAM、UltraRAM、寄存器等形式表示。

1.1.双端口内存

考虑如下图所示的例程,top函数接收一个输入数组mem[N](N=4),将每三个连续数据求和,输出到sum[N-2]数组中,共2轮循环。

很明显,在每一次循环中需要读取mem数组三次,写入sum数组一次,可以看到右侧的时序图,完成一次写操作需要3个时钟周期。

对于这样输出只用一次、输入使用多次,我们可以使用RESOURCE directive配置为双端口内存,提高对内存的读取效率:

#pragma HLS RESOURCE variable=mem core=RAM_2P_BRAM

并同时对loop进行UNROOL:

对应的资源消耗和时序如下,现在一个时钟周期可以读取2个数据,UNROLL出的2组电路在4个时钟周期便完成计算。


1.2.数组分割

1.2.1.一维数组分割

如下图是对于一个6长度数组的不同memory分配,这三种方式分别对应了一个数组对连续块进行处理(常见的可以考虑前一半和后一半分别有不同的处理,block/factor=2)、一个数组对间隔数据进行处理(常见的可以考虑奇偶数据,cyclic/factor=2)、最高效率并发处理。

Block/Factor=3方式分割:数组等分成三份,相邻2数据为1#pragma HLS ARRAY_PARTITION variable=mem block factor=3 dim=1
Cyclic/Factor=3方式分割:数组等分为三份,03一组14一组25一组
#pragma HLS ARRAY_PARTITION variable=mem cyclic factor=3 dim=1
Register方式分割:数组等分为6份,一个数据一组(占一个寄存器)
#pragma HLS ARRAY_PARTITION variable=mem complete dim=1

不同分割方法的时序如下:

对于上面例程中的1输出-3输入运算关系,使用Block/Factor=2,分为2个数组,再使用双端口RAM,一次最多可以读取4数据,完全够用,无需开到Factor=3。


1.2.2.多维数组分割

以多维数组My_array[10][6][4]为例,10是一维,6是二维,4是三维,使用的约束和一维数组的一样,只需要改变dim的值:

#pragma HLS ARRAY_PARTITION variable=mem block factor=3 dim=?
#pragma HLS ARRAY_PARTITION variable=mem cyclic factor=3 dim=?
#pragma HLS ARRAY_PARTITION variable=mem complete dim=?

对于指定不同dim,HLS会对不同的数组进行整体分割,如图为dim=3和dim=1所针对的数据,如果对dim3使用block/factor=2,则My_array_0和1一组,2和3一组进行分配。

我们以矩阵加法为例,如图有两个4*5矩阵mat_a和mat_b,其相加后结果存储在sum矩阵中:

我们可以三个数组采用单端口BRAM存储,均对第一维使用Block/Factor=4的分割,即每个矩阵分割为4个长度为5的一维数组,并对循环添加PIPELINE、UNROLL约束来进行优化:

我们看一下Factor=4和2的情况,当Factor<该维数据个数时,会将对应数据依次拼接,总之一定会将一个N维数组变为一个N-1维数组。

不同factor的时序图如下,可以通过地址线确定其在内存中也是顺序排列:


1.3.数组合并

将多个小数组合并为一个大数组不仅可以减少资源用量,在合理使用下也能提高性能。

数组合并使用的约束是ARRAY_MAP,其分为横向和纵向。

1.3.1.横向合并

横向/水平方向合并(Horizontal mapping)使用的约束语句如下,其扩展数组长度,而不扩展数组位宽。

#pragma ARRAY_MAP variable=A instance=ab_array horizontal
#pragma ARRAY_MAP variable=B instance=ab_array horizontal

如下图,有数组A[N]和B[M],使用该约束后会合并为AB[N+M],低地址为0 ~ N-1,高地址为N ~ N+M-1。

这一操作会扩展B(数据位宽较小者)的位宽,拼接后的数组以所有数组中最大位宽为准,长度为各个数组相加。

可以看出,这一操作所针对的场景和数组分割中的Block相似。

得到的数组的内存分配如下:


1.3.2.纵向合并

纵向/垂直方向合并(Vertical mapping)的依赖语句如下:

#pragma ARRAY_MAP variable=A instance=ab_array vertical
#pragma ARRAY_MAP variable=B instance=ab_array vertical

如下图中,N>M,则扩展A数组的位宽为sizeof(A[0])+sizeof(B[0]),将B数组的对应数据和A数组对应数据拼接,A数组的长度不变。

这一操作针对的场景和数组分割中的cyclic相似。

数组合并后的内存分配如下:


1.3.3.数组分割和数组合并的结合使用

ARRAY_PARTITION和ARRAY_MAP是可以结合使用的,考虑如下例子:

对于2个数组m_accum和v_accum,我们在一个循环中分别使用其奇数下标的数据,在另一个循环中分别使用其偶数下标的数据。

这是我们从单个数组角度上,我们需要使用cyclic进行数据分割;从2个循环的角度上,我们需要将奇数据和奇数据水平拼接,偶数据和偶数据水平拼接,我们就可以使用如下的约束语句:

#pragma HLS ARRAY_PARTITION variable=m_accum cyclic factor=2 dim=1
#pragma HLS ARRAY_PARTITION variable=v_accum cyclic factor=2 dim=1
#pragma HLS ARRAY_MAP variable=m_accum[0] instance=mv_accum horizontal
#pragma HLS ARRAY_MAP variable=v_accum[0] instance=mv_accum horizontal
#pragma HLS ARRAY_MAP variable=m_accum[1] instance=mv_accum_1 horizontal
#pragma HLS ARRAY_MAP variable=v_accum[1] instance=mv_accum_1 horizontal

1.4.数组转换(reshape)

对于单个数组,如果我们想让其从数据上仍为一个数组,但从结构上改变其数据排布,那么可以使用ARRAY_RESHAPE约束进行数组的reshape。

以一维数组为例,如下是3种reshape方法:

Block/Factor=2:将数组一分为二,然后进行拼接,长度减半,数据位宽翻倍
#pragma HLS ARRAY_RESHAPE dim=1 factor=2 type=block variable=arr
Cyclic/Factor=2:将数据奇偶分组(对2取模为组号)进行拼接,长度减半,位宽翻倍
#pragma HLS ARRAY_RESHAPE dim=1 factor=2 type=cyclicvariable=arr
Complete:将所有数据拼到一个数据中,长度最短,位宽最长
#pragma HLS ARRAY_RESHAPE dim=1 type=complete variable=arr

其内存中的数据分配如下图:


1.5.数组分割、合并和转换的对比

有例程如下图,数组A[N] B[M],第一个循环分别处理A数组的奇偶数据,第二个循环分别处理B数组的前半、后半数据,第三、四个循环分别依次读取A、B,并写入到pa、pb

可以发现,第一个循环更适合对A启用cyclic/factor=2,第二个循环更适合对B启用block/factor=2。
我们对A和B尝试以下这几种约束,分别将A和B横向ARRAY_MAP拼接、将A和B纵向ARRAY_MAP拼接、对A启用ARRAY_RESHAPE cyclic/factor=2并对B启用ARRAY_RESHAPE block/factor=2。

因此,我们分别指定如下约束,其中最右侧为我们刚才分析的约束:

最终得到结果如下,可以看到,使用RESHAPE的性能最高,但资源消耗也远超其他约束。


1.6.其他数组优化

1.6.1.定义ROM

方法1:使用const + 初始化值

缺点:初始值较多时较繁琐,代码管理不便

方法2:使用头文件,将初始值放在文件中,代码/工程管理较方便

该头文件内结构应如下所示:

1,
2,
3,
4,
5

需要注意的是使用下面的方式是不行的,因为这种方法是使用了#include展开文件到声明位置的原理,#include "xxx.h"必须是所在行唯一的语句。

方法3:如果一个数据的value是通过数学计算得到的,并且在程序中不被更新,Vitis HLS会自动将其定义为ROM,如下图的sin_table:

默认情况下ROM的输出latency是2,我们可以在RESOURCE directive中将其配置为自定义值。


1.6.2.数组初始化

如果想要将数组映射为RTL的memory,那么需要加static进行修饰,这样既可以保证数组映射为memory,而且还能节省初始化的时间。

如果想要将数组映射为ROM,就需要用到上面的三种定义ROM的方式。


1.6.3.FPGA的复位(一定要知道!)

这一点在第一篇笔记中提到过,这里讲到了静态变量,所以再说一遍。

在 HLS 中,所有静态和全局变量都会被初始化为零(如果给定了初始化值,则初始化为其他值)。这包括 RAM,其中每个元素都被清除为零。

然而,这种初始化只发生在 FPGA 首次编程时。任何后续处理器复位都不会触发初始化过程

如果需要清除设备的内部状态,那么应该包含某种复位协议(根据复位状态处理所需要的程序)。


2.函数优化

2.1.数据类型优化

对于参数等数据使用的数据类型,如果可以提前确认某一个值的上限,使用ap_int<>等类型可以有效减少资源的使用量,如下图:


2.2.inline

HLS中有INLINE约束,给函数添加INLINE约束后,在编译时会自动将inline修饰的函数展开到调用位置(硬件层面上),可以减少调用函数带来的开销。

#pragma HLS INLINE

如下图,启用INLINE后最终只产生了一个模块:

同时,可以在directive中关闭inline:

#pragma INLINE off

2.3.Allocation

在上篇笔记中有过介绍,使用ALLOCATION约束将Accumulator函数实例化2次

#pragma ALLOCATION instances=Accumulator limit=2 function

对默认、limit=1、limit=2的情形进行了测试,可以看到limit=2带来了更高的性能,但会消耗更多资源:


2.4.DATAFLOW

应用于函数的DATAFLOW,可以将多个调用间的依赖关系形成流水线并行执行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2238542.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

熊猫追剧 1.0.2 | 免费影视播放,独家蓝光线路

熊猫追剧是一款免费的视频播放软件&#xff0c;集合了网络上的电影、电视剧、综艺、动漫以及短剧等多种类型的视频资源。经过测试&#xff0c;该软件内没有广告干扰&#xff0c;采用独家蓝光线路&#xff0c;提供高清流畅的观影体验。用户还可以享受视频投屏、下载和倍速播放等…

[CKS] K8S AppArmor Set Up

最近准备花一周的时间准备CKS考试&#xff0c;在准备考试中发现有一个题目关于AppArmor Pod操作权限的问题。 ​ 专栏其他文章: [CKS] Create/Read/Mount a Secret in K8S-CSDN博客[CKS] Audit Log Policy-CSDN博客 -[CKS] 利用falco进行容器日志捕捉和安全监控-CSDN博客[CKS] …

Tomcat漏洞利用工具-TomcatScanPro(二)

项目地址 https://github.com/lizhianyuguangming/TomcatScanPro 简介 本项目是一个针对 Tomcat 服务的弱口令检测、漏洞检测以及本地文件包含&#xff08;LFI&#xff09;攻击工具。除了支持 CVE-2017-12615 漏洞的多种利用方式外&#xff0c;新版本还集成了 CNVD-2020-104…

【XML协议】轻松掌握使用C++ XML解析库——pugixml

文章介绍了xml协议的组成以及C xml解析库pugixml的常用操作。源于开发中每次遇到xml操作时&#xff0c;都要回过头查看pugixml库常用操作时什么样的&#xff0c;能不能有个更深刻和清晰的认识呢&#xff1f;其实搞清楚xml结构和pugixml组织结构的对照关系&#xff0c;以及pugix…

《无线重构世界》射频模组演进

射频前端四大金刚 射频前端由PA、LNA、滤波器、开关“四大金刚” 不同的模块有自己的工艺和性能特点 分层设计 射频前端虽然只由PA、LNA、开关、混频器4个模块构成&#xff0c;但不同模块之间相互连接且相互影响。如果将射频系统当成一个整体来理解&#xff0c;其中的细节和…

《Python编程实训快速上手》第五天--模式匹配与正则表达式

一、不用正则表达式查找文本模式 文本模式是一种人为规定的结构&#xff0c;现在有一个模式&#xff1a;3个数字-3个数字-4个数字 使用isPhoneNumber()函数来判断字符串是否匹配该模式 def isPhoneNumber(number):if len(number) ! 12:return Falsefor i in range(0,3):if n…

文件读写函数(1)

大家好&#xff0c;今天我们来介绍一下文件读写函数&#xff0c;昨天我们已经简单提及了一下文件的概念&#xff0c;那么我们今天就不多说&#xff0c;下面我们来看函数。 1.fopen函数 这个函数是用来打开文件的&#xff0c;它的两个参数分别是文件名和文件的打开模式&#x…

华为数通HCIA系列第5次考试-【2024-46周-周一】

文章目录 1、子网掩码有什么作用&#xff0c;和IP地址是什么关系&#xff0c;利用子网掩码可以获取哪些信息&#xff1f;2、已知一个IP地址是192.168.1.1&#xff0c;子网掩码是255.255.255.0&#xff0c;求其网络地址3、已知某主机的IP地址是192.168.100.200&#xff0c;子网掩…

Linux(CentOS)运行 jar 包

1、在本地终端运行&#xff0c;关闭终端&#xff0c;程序就会终止 java -jar tlias-0.0.1-SNAPSHOT.jar 发送请求&#xff0c;成功 关闭终端&#xff08;程序也会终止&#xff09; 发送请求&#xff0c;失败 2、在远程终端运行&#xff0c;关闭终端&#xff0c;程序就会终止 …

GIT:如何查找已删除的文件的历史记录

首先你得知道文件的名称和路径 然后打开 gitlab&#xff0c;到项目中&#xff0c;仓库-> 文件 查找文件 复制文件名到可能存在过这个文件的分支当中&#xff0c;就能看到了

C++builder中的人工智能(21):Barabási–Albert model(BA)模型

在此之前&#xff0c;大多数网络被想当然的认为是随机的&#xff0c;因此连接度分布可以近似用泊松分布来表示&#xff0c;而巴拉巴西与其学生阿尔伯特、郑浩雄通过对万维网度分布测量的结果却显示万维网度分布服从幂律分布&#xff0c;存在枢纽节点&#xff08;拥有大量链接的…

新手 Vue 项目运行

前言&#xff1a;前面讲了我们已经将spingboot项目运行起来了&#xff0c;现在我们只需将后台管理的Vue项目运行起来即可完成整个项目。 在运行vue项目之前&#xff0c;请先运行springboot项目&#xff0c;运行步骤请看&#xff1a;运行Springboot Vue 项目_springbootvue项目…

AUTOSAR_EXP_ARAComAPI的7章笔记(2)

☞返回总目录 相关总结&#xff1a;服务发现实现策略总结 7.2 服务发现的实现策略 如前面章节所述&#xff0c;ara::com 期望产品供应商实现服务发现的功能。服务发现功能基本上是在 API 级别通过 FindService、OfferService 和 StopOfferService 方法定义的&#xff0c;协议…

计算机网络分析题

网络的布置 根据具体需求布置网络 第二小题、网络的划分 根据路由表作出路由器拓扑图 ARP跨网络寻址 TCP报文段格式概念 网桥的转发表与动作 网络嗅探报文 十六进制化作十进制 嗅探以太网帧首部 除MAC帧以外&#xff0c;其他各层协议数据单元都是源地址在前&#xff0c;目…

【初阶数据结构与算法】线性表之链表的分类以及双链表的定义与实现

文章目录 一、链表的分类二、双链表的实现1.双链表结构的定义2.双链表的初始化和销毁初始化函数1初始化函数2销毁函数 3.双链表的打印以及节点的申请打印函数节点的申请 4.双链表的头插和尾插头插函数尾插函数 5.双链表的查找和判空查找函数判空函数 6.双链表的头删和尾删头删函…

【AI写作宝-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 1. 暴力破解密码&#xff0c;造成用户信息泄露 2. 短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉 3. 带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造…

【HarmonyNext】显示提示文字的方法

【HarmonyNext】显示提示文字的方法 本文介绍在 HarmonyNext 中显示提示文字的两种常见方法&#xff1a;使用自定义弹窗 CustomDialog 和使用 promptAction 的 showToast 方法。 一、使用自定义弹窗 CustomDialog 在 HarmonyNext 中&#xff0c;自定义弹窗是实现复杂提示信…

【3D Slicer】的小白入门使用指南

一、3D Slicer认识 3D Slicer是一个开源医学影像分析和可视化平台(本质是TotalSegmentator的软件版)。(补充:TotalSegmentator 是一个用于医学图像分割的开源工具,能够对104种解剖结构进行精确分割。该项目基于深度学习技术,支持CT和MR图像的处理。TotalSegmentator 提供…

ts定义接口返回写法

接口&#xff08;未进行ts定义&#xff09; export async function UserList(params: {// keyword?: string;current?: number;pageSize?: number;},// options?: { [key: string]: any }, ) {return request<API1.UserList>(http://geek.itheima.net/v1_0/mp/artic…

.NET Core 应用程序如何在 Linux 中创建 Systemd 服务 ?

.NET Core 和 Linux 已经成为一个强大的组合&#xff0c;为开发人员提供了一个灵活、高性能的平台来构建和运行应用程序。在 Linux 上部署 .NET Core 应用程序的一个关键方面是利用 systemd 服务来确保应用程序顺利运行&#xff0c;在开机时自动启动&#xff0c;并在失败后重新…