pytorch深度学习实战lesson30

news2025/1/30 16:40:07

第三十课 更多的芯片

        虽然 GPU 现在是目前模型训练的主流芯片然后大家很多时候在做预测的时候也在 C PU 上做预测,但实际上来说这个在慢慢的发生改变。今天看一下目前的一些这样子的芯片。

        上图是个手机芯片,可以看到有很多计算单元,比如CPU、DSP等等。

     首先讲一下 DSP,DSP 叫做 digital signal processing 就叫数字信号处理芯片,最早就是说给数字信号处理作用的,它主要是给点积、卷积、快速傅里叶变化设计的。它的一个特点是说它功耗非常低,它的性能也挺高的。大家用 DSP 用的不是那么多,是因为首先它的编程和调试非常困难。

       FPGA叫做可编程阵列,它是一块硬件,但是它里面有大量的可以用来编程的逻辑单元。但是 FPGA的逻辑单元是可以编程的。而且里面那些连接是可以改变的。一般来说它的编程语言是Verilog用的多, vhdl用的比较多。

       缺点是工具链不是很行;FPGA编译是看板子有多大,太大的话编译很痛苦。

            它是一个特定芯片,就是我就针对于某一个应用做的特定的芯片。性能不错,还很便宜。它的核心是下图的东西。

       systolic array有一堆 process element 的阵列,叫 PE 阵列,可以认为每一个 PE 里面可以做一个矩阵乘法、加法这样的简单运算,而且它设计成了一个2d的形状,所以它就是用来设计用来做矩阵乘法的。

下面演示一下做矩阵乘法的过程:

       假设要做一个 Y 等于 W 乘以 X W 是一个3乘3的矩阵,那 X 是一个3乘2。那么结果就是一个三乘二对吧?之所以放个3乘3是因为因为systolic array是个3乘3的,所以W 最好是跟array 的形状是一样。

       输入有三个通道,这个地方每次以每个通道能进一个,一次进一个元素,

       再往右移一列。然后上一个时间的结果往下移一列。下面时间以此类推。

注意结果的表示。

       基本上可以看到是说GPU当CPU当然是灵活信用性最好了。所有东西基本上你所有的代码都在CPU能跑,但它性能其实计算性能是最差的。GPU它的灵活性还不错,就说你用 CUDA, 用 opencl都还不错 ,在同样的价位的情况下DSP的性能可能更好一点。然后FPGA和ASC性能功耗都可以,就是不灵活。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/39871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数字信号去噪】粒子滤波器与FBS、MAP平滑方法数字信号去噪【含Matlab源码 2179期】

⛄一、平滑分解简介 根据奈奎斯特定理,采样频率必须大于等于有用信号最高频率的2倍。假设对心电信号的采样满足奈奎斯特采样定理,则实测信号采样频率的1/2为有用心电信号的最高频率。通过三点平滑滤波,可以将频率大于1/2采样频率的信号滤除,将滤除的信号定义为第1阶平滑分解分…

使用 IDEA 的 Dedis 插件连接 Redis 服务器

IDEA 中的 Redis 插件作为 Redis 的可视化工具,可以通过此插件连接 Redis 服务器,并且进行增删改查操作 【一】 IDEA 安装 Redis 插件 1. 点击 File >> Setting 2. 点击 Plugings 3. 点击 Marketplace 一栏的搜索框中输入 redis 4. 点击第一个 R…

yocto machine class解析-st-partitions-image

yocto machine class解析 stm32mp157 yocto的meta-st-stm32mp layer中提供了几个class,后续几篇文章重点分析这些class文件: 第一篇就从st-partitions-image.bbclass 开始,st所有创建image的bb文件都会引用st-partitions-image,包括bootfs u…

审计日志功能实现优化及测试记录(参照若依系统,以dolphinscheduler 2.0.5 为例,实现相关功能)

目录🐬使用🐠若依-操作日志🐠引入海豚调度🐟引入审计日志包,增加LogAnnotation注解🐬问题记录及优化🐠service方法注解时而生效,时而不生效🐟不生效原因🐟修改…

基于springboot+mybatis+sqlserver+jsp运行会报名管理系统

基于springbootmybatissqlserverjsp运行会报名管理系统一、系统介绍二、功能展示1.用户登陆2.用户注册3.项目列表(运行员)4.报名列表(运动员)5.运动员项目列表(管理员)6.添加项目四、获取源码一、系统介绍 系统主要功能&#xff…

【计算机组成原理Note】2.4.2 加法器

文章目录加法器1. 一位全加器2. 串行加法器3. 串行进位加法器加法器4. 先行进位加法器加法器 1. 一位全加器 一位全加器,当前位输出:SiAi⨁Bi⨁Ci也就是输入中有奇数个1时输出为1(异或)向高位的进位:CiAiBi(Ai⨁Bi)Ci…

【目标检测】LLA: Loss-aware label assignment for dense pedestrian detection【标签分配】

总结 本文提出了一种用于行人目标检测的标签分配策略,具体来说,主要有以下几步流程。 构建代价矩阵。通过网络的前向传播得到网络的输出,CclsC^{cls}Ccls, CregC^{reg}Creg,构建代价矩阵CCclsλ∗CregCC^{cls}\lambda*C^{reg}CC…

小程序环境切换自定义组件

背景: 最近一直有参与小程序的项目,发现切换环境时经常要上传然后再设置为体验版,比较麻烦,所以尝试做了个切换环境的组件,分享给大家,希望大家能用得上,提点建议 组件长这个样子 展开后 功能&a…

JVM的垃圾回收机制(GC)

系列文章目录 JVM的内存区域划分_crazy_xieyi的博客-CSDN博客 JVM类加载(类加载过程、双亲委派模型)_crazy_xieyi的博客-CSDN博客 文章目录 一、什么是垃圾回收?二、java的垃圾回收,要回收的内存是哪些?三、回收堆上…

FPGA Base Xilinx跨时钟域宏XPM_CDC

FPGA Base Xilinx跨时钟域宏XPM_CDC最近看手底下的小伙子们写代码,对于跨时钟域的处理极度的不规范,还是放下这句话基础不牢,地动山摇 其实Xilinx公司已经为用户提供了宏定义,实现跨时钟域处理,见截图 XPM_CDC在命名上…

关于旅游景点主题的HTML网页设计——青岛民俗 7页 带登录注册

⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材,DIVCSS 布局制作,HTMLCSS网页设计期末课程大作业 | 游景点介绍 | 旅游风景区 | 家乡介绍 | 等网站的设计与制作| HTML期末大学生网页设计作业 HTML:结构 CSS:样式 在操作方面上运…

【C++】简化源码——vector的模拟实现

文章目录一、前言二、无参构造&析构三、基础接口1.empty和clear2.size和capacity3.[]和iterator四、resize和reserve五、尾插尾删六、其他构造七、迭代器失效1.insert2.erase八、memcpy问题九、vector.h一、前言 本篇的目的很简单,只有一个:模拟实现…

C语言刷题(一)

🐒博客名:平凡的小苏 📚学习格言:别人可以拷贝我的模式,但不能拷贝我不断往前的激情 目录 用递归法求一个整数一维数组a的最大元素 猴子吃桃问题 奇偶数换位问题 水仙花数(0-100000) 换啤酒…

web前端电影项目作业源码 大学生影视主题网页制作电影网页设计模板 学生静态网页作业成品 dreamweaver电影HTML网站制作

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 文章目录一、网页介绍一…

redis命令行操作库、键、和五大数据类型详解

一、数据库操作命令 redis默认有16个数据库,类似数组下标从0开始,初始默认使用0号库。 1.1 测试是否连通 ping测试服务器是否连通 返回pone就是连通了 1.2 切换数据库 select index1.3 数据移动 move key db1.4 显示数据总量 dbsize1.5 数据清除 …

Maven 跳过测试的几种方式

在 Maven 对项目进行编译的时候,我们通常可能会希望跳过复杂的测试。 尤其是在开始项目还不是非常稳定的阶段。 命令行中使用 -Dmaven.test.skiptrue 在命令行,只要简单的给任何目标添加 maven.test.skip 属性就能跳过测试: mvn install …

leetcode:6251. 统计回文子序列数目【dp + 统计xy子序列出现的个数】

目录题目截图题目分析ac code总结题目截图 题目分析 固定了中间的数i后从两边选xy 和 yx对于x y的情况,比较简单预处理每个数字出现的index为ids然后看看两边x各自的个数n1 n2n1和n2必须大于等于2左边可以选n1 * (n1 - 1) // 2右边可以选n2 * (n2 - 1) // 2两边乘…

【C++】通过哈希表实现map和set

前言 在前面,我们通过红黑树这一底层结构实现了map和set。它们是关联式容器。而现在,我们将通过哈希表这一数据结构重新实现map和set,即unordered系列的关联式容器。因为它们的遍历是无序的,和平衡二叉树不同,不能做到…

APOLLO UDACITY自动驾驶课程笔记——规划、控制

1、路径规划使用三个输入,第一个输入为地图,Apollo提供的地图数据包括公路网和实时交通信息。第二个输入为我们当前在地图上的位置。第三个输入为我们的目的地,目的地取决于车辆中的乘客。 2、将地图转为图形 该图形由“节点”(node)和“边缘…

直流潮流计算matlab程序

一、直流潮流计算原理 直流潮流发的特点是用电力系统的交流潮流(有功功率和无功功率)等值的直流电流来代替。甚至只用直流电路的解析法来分析电力系统的有功潮流,而不考虑无功分布对有功的影响。这样一来计算速度加快,但计算的准确…