从FPGA说起的深度学习(九)- 优化最终章

news2024/9/26 1:22:13

这是新的系列教程,在本教程中,我们将介绍使用 FPGA 实现深度学习的技术,深度学习是近年来人工智能领域的热门话题。

在本教程中,旨在加深对深度学习和 FPGA 的理解。

  • 用 C/C++ 编写深度学习推理代码

  • 高级综合 (HLS) 将 C/C++ 代码转换为硬件描述语言

  • FPGA 运行验证

2dc76afdbf7ed3a1be9376f4d6165234.png

在之前的文章中,我们已经依次抽取了推理核的任务并行度和循环并行度和数据并行性。在本文中,我们将继续优化。

最终版本包括全连接层的循环数据并行化

在上篇文章中《从FPGA说起的深度学习(八)-数据并行性》,全连接层是一个瓶颈,所以我们实现了一个优化了全连接层的版本。我不会在此处粘贴代码,因此请查看代码存储库中的linear.h (文末)。全连接层是向量和矩阵的乘积,因此与卷积层不同,它不能在两个通道上并行化,但基本上可以使用与卷积层相同的过程进行优化。

如第 6 篇文章所示,当任务之间的处理时间一致时,任务并行性最有效。下表显示了最终版本的并行化程度和执行周期数,它是根据这个目标进行参数调整的conv1, conv2, fc1, fc2。本来,处理fc2一直很低,但现在其他内核基本平衡了。

并行度(输出通道)平行度(x方向)执行周期数执行时间(us)
conv1441274142.466
conv2481293743.119
fc141272143.399
fc213831.277
各层的并行度和处理性能

整体加速结果

从第8篇到第3篇,我们将任务并行化、循环并行化、数据并行化应用于推理内核。下表总结了这些方法的优化结果。

名称执行时间(毫秒/图像)比以前的实施提速相对于基线的改进百分比
基线20.811.001.00
任务并行化12.651.651.65
通过本地缓冲区减少外部存储器访问1.617.8612.93
循环并行化(仅限卷积层)0.612.6434.11
数据并行化 4×4(仅卷积层)0.3361.8161.93
最终版本0.04986.75417.87

另外,虽然在之前的文章中没有涉及到,但每个优化结果的资源使用情况如下:

名称BRAM_18KDSP48EFFLUT
基线49201359215600
任务并行化61201378515955
通过本地缓冲区减少外部存储器访问84211380016967
循环并行化(仅限卷积层)84211536318653
数据并行化 4×4(仅卷积层)86432233527020
最终版本90+633276433674

首先,看执行性能,这些调优最终使其比基线快 417.87 倍。两个特别有效的是使用本地缓冲区减少外部内存访问和最终版本(加速完全连接的层+层之间的平衡)。这两者中,前者需要大量增加RAM资源,后者需要增加运算单元资源(DSP、LUT)。

另外,虽然我们已经实现了400多倍的性能提升,但即使是资源增量方面增速最高的DSP,也只是63 / 20 = 3.15翻了一番。特别是任务并行化和循环并行化是非常有利的结果,因为几乎不增加资源就可以提高性能。

即使使用当前内核,FPGA 内部仍有大量资源,因此可以应用进一步的优化。可以像这次一样进一步提取内核内部的数据并行性,也可以复制内核本身,取帧间的并行性。特别是,如果只使用前者,在综合时很难满足时序限制,所以我认为有时不得不采用后者的方法。

总结

本次针对的 MNIST 数据集是一个非常小的数据集,图像大小为 28×28。此外,该模型是一个非常轻量级的网络模型。如果将这些做成更真实的数据模型,计算规模会发生如下变化。

  • 分辨率:28×28 -> 几百到几千的宽高

  • 网络规模:2层(卷积层转换)->几十到几百

粗略计算一个真实模型所需的计算量,大约是本次创建的网络模型量的1000到100万倍。如果这个是1000倍左右的话,即使以现在配置的运算单元数也能处理几十毫秒的量级,但如果再增加的话,60fps这样的实时图像处理就会变得困难。为此,实际上使用量化和修建等技术来降低计算成本。我们将在下一篇也是最后一篇文章中介绍这些内容。

代码链接

https://github.com/suisuisi/FPGAandCNN/tree/main/DnnKernelHLS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/497778.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【在线OJ项目】核心技术之用户提交代码的编译运行

目录 一、认识Java进程编程 二、在线OJ核心思路 三、封装进程的执行 四、封装文件读写 五、封装用户提交代码的编译运行 一、认识Java进程编程 在之前的文章里提到了Java进程编程的相关API【JavaEE】Java中进程编程_1373i的博客-CSDN博客https://blog.csdn.net/qq_6190341…

【代码随想录】刷题Day17

1.AVLTree判断 110. 平衡二叉树 后序遍历的强化理解: 所谓后续遍历,不仅仅是一种遍历,其实它是完成了所有左右子树的递归。后续遍历能将自己所求的值返回给上层节点。这在比较中很关键,举个例子,我们能得到下边节点返…

Makefile教程(Makefile的结构)

文章目录 前言一、Makefile的结构二、深入案例三、Makefile中的一些技巧总结 前言 一、Makefile的结构 Makefile 通常由一系列规则组成,每条规则定义了如何从源文件生成目标文件。每个规则又由目标、依赖和命令三部分组成。 下面是 Makefile 规则的基本结构&…

Matlab官方的两个配色colormap补充包

目录 一、othercolor 1、使用方法 2、图示 二、slanCM 1、使用方法 2、图示 三、从matlab上下的函数如何使用 一、othercolor 下载地址:matlab_othercolor.zip 1、使用方法 不指定获取颜色个数会默认256色,举例获取[163]号彩虹色(rainbow)&…

Java阶段二Day15

Java阶段二Day15 文章目录 Java阶段二Day15复习前日知识点对象数据类型注入数组类型注入集合类型的注入p命名空间引入外部属性文件 基于XML管理beanbean的作用域bean的生命周期代码演示生命周期后置处理器处理展示基于XML的自动装配 基于注解管理bean开启组件扫描使用注解定义B…

【A200】 TX1核心 JetPack4.6.2版本如何修改DTB文件测试全部SPI

大家好,我是虎哥,很长时间没有发布新内容,主要是这段时间集中精力,研究DTB设备树的修改,以适配不同载板,同时也是专门做了一个TX1&TX2核心,双网口,可以使用SPI 扩展CAN接口的载板…

java获取resources路径的方法

我们在写程序的时候,有时候会发现代码不能正常运行,出现提示异常的问题,这就说明我们的代码没有执行完,也就是没有 resource,其实遇到这种情况,我们只需要把代码重新执行一遍即可。 在 java中是可以实现 re…

【计算机组成原理笔记】计算机的基本组成

计算机的基本组成 文章目录 计算机的基本组成冯诺伊曼计算机的特点硬件框图以运算器为核心的计算机现代计算机系统复杂性管理的方法 计算机的工作步骤存储器运算器控制器I/0 脚注 冯诺伊曼计算机的特点 五大部件组成 运算器存储器控制器输入设备输出设备 指令和地址以同等地位…

基于CUDA的GPU计算PI值

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 基于CUDA的GPU计算PI值。本项目使用CUDA编程模型并行计算PI值,研究GPU与CPU效率的比较,分析不同GPU线程分块对性能的影响。 异构计算试验报告 —实验1:基于CUDA的GPU计算PI值 第一部分&…

原型模式--深拷贝和浅拷贝

定义 Specify the kind of objects to create using a prototypical instance, and create new objects by copying this prototype. (使用原型实例指定将要创建的对象类型,通过复制这个实例创建新的对象。) 从定义中我们我们可以发现&#x…

2023年4月Web3行业月度发展报告区块链篇 | 陀螺科技会员专享

4月,以太坊上海升级与香港Web3动向成最大热点,上海升级的完成是转POS的重要里程碑,从市场而言,由于升级解锁质押ETH是否引发抛压备受关注,仅以交易表现来看,并未出现大范围的抛压与离场。另一方面&#xff…

算力提升+AIGC,是驱动元宇宙发展的核心引擎|数据猿直播干货分享

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 “元宇宙”是美国科幻小说家尼奥斯蒂文森1992年在《雪崩》中提出的概念,书中设定现实世界中的人在网络世界中都有一个分身,这个由分身组成的世界就是“元宇宙”。如今,随着虚拟现实技术的…

60+开箱即用的工具函数库xijs更新指南(v1.2.5)

xijs 是一款开箱即用的 js 业务工具库, 聚集于解决业务中遇到的常用函数逻辑问题, 帮助开发者更高效的开展业务开发. 接下来就和大家一起分享一下v1.2.5 版本的更新内容以及后续的更新方向. 贡献者列表: 1. 数据深拷贝cloneDeep 该模块主要由 20savage 贡献, 支持 symbol, map,…

BM58-字符串的排列

题目 输入一个长度为 n 字符串&#xff0c;打印出该字符串中字符的所有排列&#xff0c;你可以以任意顺序返回这个字符串数组。 例如输入字符串ABC,则输出由字符A,B,C所能排列出来的所有字符串ABC,ACB,BAC,BCA,CBA和CAB。 数据范围&#xff1a;n < 10。 要求&#xff1a;空…

[架构之路-191]-《软考-系统分析师》-8-软件工程 - 解答什么是面向功能的结构化程序设计:算法+数据结构 = 程序

目录 1. 什么是结构化程序设计 2. 结构化程序设计的局限性 3.程序设计的三种基本结构 (1) 顺序结构 (2) 选择结构 (3) 循环结构 1. 什么是结构化程序设计 功能 》 Function 》 函数 》 算法 数据流Data Flow 》 数据结构Data Strucuture 程序 算法 数据结构 》 数…

36. Kubernetes 网络原理——CNI 网络插件

本章讲解知识点 Flannel 原理概述直接路由的原理和部署示例Calico 插件原理概述1. Flannel 原理概述 Flannel 是一个用于容器网络的开源解决方案,它使用了虚拟网络接口技术(如 VXLAN)和 etcd 存储来提供网络服务。它的原理概述如下: Flannel 协助 Kubernetes,给每一个 No…

界面交互篇:答题页的答题逻辑交互开发

微信小程序云开发实战-答题积分赛小程序 界面交互篇:答题页的答题逻辑交互开发 前面的那一篇文章,我们已经完成了使用云开发的聚合能力实现从题库中随机抽取题目功能。 在页面加载时,实现从题库中随机抽取题目功能。那么,拿到数据后要干什么?如何做? 动态数据绑定 实…

c++练习题

1、默认参数练习 创建默认参数函数 void stars(int cols ,int rows ) 该函数默认缺省值cols是10 rows是1。该函数完成功能是根据行和列数显示一个由星号组成的矩形。在main函数仲按照默认值调用该函数。按照cols是5调用该函数。按照列数和行数是7&#xff0c;3 调用该函数 #…

【MMdetection训练及使用脚本系列】MMdetection训练1——如何保存最优的checkpoint文件

MMdetection如何保存最优的checkpoint文件 以目标检测为例&#xff0c;进入到 configs/_base_/datasets/coco_detection.py将evaluation dict(interval1, metricbbox)改为evaluation dict(interval1, metricbbox, save_bestauto)即可。 但是不建议这样做&#xff0c;防止以…

软件设计师笔记--数据结构

文章目录 前言学习资料数据结构大 O 表示法时间复杂度线性结构和线性表线性表的顺序存储线性表的链式存储栈的顺序存储栈的链式存储队列的顺序存储与循环队列 串KMP 数组矩阵树二叉树二叉树的顺序存储结构二叉树的链式存储结构二叉树的遍历平衡二叉树二叉排序树最优二叉树(哈夫…