cast提前！最简单有效的神经网络优化方法，没有之一！

news2025/7/4 9:41:13

做优化有时候真的很头疼，绞尽脑汁的想怎么做算法等价，怎么把神经网络各层指令流水起来，在确保整网精度的同时，又有高性能。

但有时做了半天，却发现流水根本就流不起来，总是莫名其妙地被卡住。

真的是一顿操作猛如虎，回头一看原地杵。

今天介绍一种神经网络的性能优化方法。它不需要懂特深奥的算法知识，就能做到整个优化系统，大到网络，小到算子的性能的成倍提升。

而且绝对是成倍的性能提升，并且显而易见的算法等价。

怎么做呢？很简单，只需要改一下算子的先后调用顺序就行。

先说下背景。

在做AI推理或者训练时，大部分情况下一个神经网络中的所有层（Layer）的计算数据类型是相同的。

比如为了网络有更好的识别精度，神经网络中的运算可以使用高精度的浮点数，如 float32，简称 FP32。

但有时为了性能，稍微损失一点识别精度也能接受，此时可能会使用 float16，简称FP16, 也就是半精度数据类型来做运算。

FP32 和 FP16 的区别在于，前者数据位宽是后者的两倍，因此表示相同的数据的时候，前者的精度更高，但内存占用也更大。

比如同时存储一张图片，如果使用 FP32的话，可能会占用1MB的内存，但如果使用FP16来存储，只占0.5MB的内存。

我们可能听说过混合精度推理、混合精度训练。这里说的混合，指的就是精度混合。比如一个神经网络中存在多种数据类型。

为什么可以做混合精度的推理或训练呢？

一个神经网络就像是一个大厦，由一层一层的算法搭建而成，每一层的算法可能不同。不同的算法对数据精度的敏感程度不同。

有很多算法对数据精度不敏感，比如 transpose, gather, scatter等，这类算法都是数据搬运操作，也就是纯IO操作。他们不需要进行数据计算，无需考虑数据在做加法时候的溢出处理等情况。

而有些算法对数据精度很敏感，典型的比如conv2d算法，它需要做大量的乘累加操作，数据的累加很容易出现溢出，此时需要用更高位宽的数据来接收累加结果。

如果把操作 FP32 比作需要搬运32块砖的话，那么 FP16 就是只需要搬运 16块砖。很明显，搬运16块砖比搬运32块砖，在其他条件不变的情况下，要省时省力。

因此，在神经网络尤其是混合训练或推理的网络中，如果遇到了一些数据搬运算法搬运的是 FP32，那么是很有机会只让他搬16块砖(FP16)的。

那么具体怎么做呢?

首先简化一个神经网络，假设一个神经网络有如下结构:

在这个假想的网络中，卷积层（conv2d）计算的输出是 FP32，然后送给transpose 层进行数据搬运，transpose由于是纯IO算法，因此它的输出也是FP32。

transpose的输出送给下一层cast，cast负责将FP32的数据转换为FP16, 因此cast 的输出是FP16。然后FP16的数据送给接下来的层进行运算。

不知有没有发现，在这个网络中，transpose 算法先搬运了FP32的数据，然后交给了 cast 进行数据类型转换，转换成了更低位宽的 FP16。

但是由于 transpose 是纯IO运算，对数据类型不敏感，因此，我们完全可以将cast算子提前到 transpose 之前，如此的话，transpose 只需要做 FP16 的数据搬运。

转换之后的网络如下：

这样做的结果就是：整个网络的计算是等价的，但是 transpose 算子却由原来进行 FP32 的数据搬运，变成了 FP16 的数据搬运。对 transpose而言，其IO性能表现是成倍的提升。

这只是举一个很简单的例子。

而实际上，在真实的网络中，使用此方法可以优化成功的算法有时不仅仅是一个简单的 transpose，而是一个很大的网络片段。

由此可见，仅仅将 cast 提前这一个简单的操作，就能使整网的性能提升一倍。

这个方法很简单，很有效，也很容易实施。但是在实际进行网络优化的时候，有时却会被忽略。

能够使用这一优化的网络必须满足以下两个条件：

必须是混合精度的网络
由高位宽转低位宽的cast 算子前存在 IO 型算子

在我们绞尽脑汁使用一些高级的技巧，如模型并行、层层流水来做网络优化的同时，不妨放大视角，着眼全图，看看整网是否满足上面的条件，没准只一眼，就能发现这一最简单有效的优化点，从此百分比的提升网络性能，不是梦！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/378444.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

[Java多线程 1] 多线程基础

[Java多线程 1] 多线程基础

在Java 技术中，多线程依旧是一个离不开的话题，掌握多线程才能对一些高并发技术理解透彻。同时多线程也需要有一定的操作系统基础，在其理论上进行学习，会对调度情况、线程情况有更多的了解。当然这一块也常常作为Java面试的重点&am…

阅读更多...

HNU工训中心：元器件及测量基础实验报告

HNU工训中心：元器件及测量基础实验报告

工训中心的牛马实验 1.实验目的 1.熟悉测量验证常用元器件参数、并采用替代法(测量回路电流)测量其伏安特性的方法。 2.熟悉测量误差及减小测量误差注意事项 2.实验仪器和器材 1.实验仪器. 直流稳压电源型号:IT6302 台式多用表型号:UT805A 2.实验( 箱)器材电路实验箱…

阅读更多...

针对序列级和词元级应用微调BERT（需修改）

针对序列级和词元级应用微调BERT（需修改）

对于序列级和词元级自然语言处理应用，BERT只需要最小的架构改变（额外的全连接层），如单个文本分类（例如，情感分析和测试语言可接受性）、文本对分类或回归（例如，自然语言推…

阅读更多...

sdut pta查找表

sdut pta查找表

7-1 电话聊天狂人给定大量手机用户通话记录，找出其中通话次数最多的聊天狂人。输入格式: 输入首先给出正整数N（≤105），为通话记录条数。随后N行，每行给出一条通话记录。简单起见，这里只列出拨出方和接…

阅读更多...

SpringBoot：SpringBoot整合Junit 和 MyBatis（3）

SpringBoot：SpringBoot整合Junit 和 MyBatis（3）

SpringBoot整合Junit 和 MyBatis1. SpringBoot整合Junit2. SpringBoot整合MyBatis2.1 定义SpringBoot项目2.2 定义dao接口2.3 定义service层2.4 定义controller层2.5 配置yml/yaml文件2.6 postman测试1. SpringBoot整合Junit 在com.example.service下创建BookService接口 publ…

阅读更多...

华为OD机试题，用 Java 解【两数之和绝对值最小】问题

华为OD机试题，用 Java 解【两数之和绝对值最小】问题

最近更新的博客华为OD机试题，用 Java 解【停车场车辆统计】问题华为OD机试题，用 Java 解【字符串变换最小字符串】问题华为OD机试题，用 Java 解【计算最大乘积】问题华为OD机试题，用 Java 解【DNA 序列】问题华为OD机试 - 组成最大数（Java） | 机试题算法思路【2023】使…

阅读更多...

面向对象拓展贴

面向对象拓展贴

1. 类和对象的内存分配机制 1.1 分配机制  Java 内存的结构分析栈： 一般存放基本数据类型(局部变量)堆： 存放对象(Cat cat , 数组等)方法区：常量池(常量，比如字符串)， 类加载信息示意图 [Cat (name, age, price)]…

阅读更多...

安全狗出席2023中国网络和数据安全产业高峰论坛

安全狗出席2023中国网络和数据安全产业高峰论坛

2月23日，由工业和信息化部、四川省人民政府主办的“2023中国网络和数据安全产业高峰论坛”在成都顺利开幕。作为国内云原生安全领导厂商，安全狗也出席了此次活动。在此次活动中，“2022年网络安全技术应用试点示范项目授牌仪式”环节引起业…

阅读更多...

TwinCAT3第三方伺服电机——汇川SV660N使用

TwinCAT3第三方伺服电机——汇川SV660N使用

目录一、第三方伺服在TC3中配置和使用二、xml文件拷贝编辑三、IO中扫描伺服四、工程测试五、汇川伺服参数设置说明一、第三方伺服在TC3中配置和使用在倍福控制系统中使用第三方伺服可以参见本人另一篇博客，有详细教程说明。本文仅仅对SV660N伺服设置…

阅读更多...

表格形式的Sarsa与Q_learning算法

表格形式的Sarsa与Q_learning算法

环境如下： 这是一个简单的环境，绿色方块代表终点，白色方块代表可行点，灰色方块代表陷阱用Sarsa算法和Q_learning算法训练得到value表格代码如下： (jupyter notebook上的代码，所以顺序看起来有点儿奇怪) …

阅读更多...

【博学谷学习记录】超强总结，用心分享丨人工智能 Linux常用软件安装 CenOS 7 arm 安装 MySQL8

【博学谷学习记录】超强总结，用心分享丨人工智能 Linux常用软件安装 CenOS 7 arm 安装 MySQL8

目录环境说明虚拟机安装MySQL下载步骤1.卸载系统自带的mariadb-lib2.上传安装包并解压3.按顺序安装4.初始化数据库5.目录授权，否则启动失败6.启动msyql服务7.查看msyql服务的状态8.在/var/log/mysqld.log下查看临时密码9.用临时密码登录到数据库10.执行下列mysql命令…

阅读更多...

给打算转行IC的同学几点建议，来听听工程师怎么说？

给打算转行IC的同学几点建议，来听听工程师怎么说？

“我不是相关专业的，也没什么IC设计的基础，能转IC设计岗吗？” “感觉自己学比较乱，不知道到底怎么学？没有项目经验怎么办？” 每一个想转IC设计岗位的同学都或多或少地遇到过这样的问题，有着找…

阅读更多...

使用 Postman 实现 API 自动化测试

使用 Postman 实现 API 自动化测试

目录：导读背景介绍名词解析使用说明执行 API 测试集成 CI 实现 API 自动化测试写在最后背景介绍相信大部分开发人员和测试人员对 postman 都十分熟悉，对于开发人员和测试人员而言，使用 postman 来编写和保存测试用例会是一种比…

阅读更多...

Vuex 状态管理器(vuex安装与配置、state、mutations、actions、getters、module)全解

Vuex 状态管理器(vuex安装与配置、state、mutations、actions、getters、module)全解

文章目录知识点Vuex 的简介Vuex 的安装与配置Vuex 的核心概念核心概念之：State核心概念之：Mutations核心概念之：Actions核心概念之：GettersVuex 规则核心概念之：Module实验总结知识点 Vuex 的简介Vuex 的安装与配置Vu…

阅读更多...

UE实现相机飞行效果CesiumForUnreal之DynamicPawn飞行原理浅析

UE实现相机飞行效果CesiumForUnreal之DynamicPawn飞行原理浅析

文章目录 1.实现目标2.实现过程2.1 FlyTo实现原理与代码2.2 DynamicPawn飞行原理3.参考资料1.实现目标基于CesiumForUnreal的Dynamic Pawn实现飞行效果GIF动图： 2.实现过程实现原理较为简单，基于CesiumForUnreal插件中DynamicPawn中的Camera实现相关功能。其中FlyTo直接通…

阅读更多...

人工智能的几个研究方向

人工智能的几个研究方向

人工智能主要研究内容是：分布式人工智能与多智能主体系统、人工思维模型、知识系统、知识发现与数据挖掘、遗传与演化计算、人工生命、人工智能应用等等。其中热门研究有以下几种。一、计算机视觉就包括图像识别，视频识别，具体应用有人…

阅读更多...

接口自动化测试用例详解

接口自动化测试用例详解

phpunit 接口自动化测试系列 Post接口自动化测试用例 Post方式的接口是上传接口，需要对接口头部进行封装，所以没有办法在浏览器下直接调用，但是可以用Curl命令的-d参数传递接口需要的参数。当然我们还以众筹网的登录接口为例，讲…

阅读更多...

Qt 事件机制

Qt 事件机制

【1】事件事件是可以被控件识别的操作。如按下确定按钮、选择某个单选按钮或复选框。每种控件有自己可识别的事件，如窗体的加载、单击、双击等事件，编辑框（文本框）的文本改变事件等等。事件就是用户对窗口上各种组件的操作。…

阅读更多...

速锐得适配北汽EX系列电动汽车CAN总线应用于公务分时租赁

速锐得适配北汽EX系列电动汽车CAN总线应用于公务分时租赁

过去的几年，我们看到整个分时租赁业务出现断崖式下跌，这是我们看到这种市场情况，是必然，也是出乎意料。原本很多融资后的出行公司、大牌的出行服务商的分时租赁业务，受各种影响不得不转型成其他出行服务。例如&#xf…

阅读更多...

图像处理实战--Opencv实现人像迁移

图像处理实战--Opencv实现人像迁移

前言： Hello大家好，我是Dream。今天来学习一下如何使用Opencv实现人像迁移，欢迎大家一起参与探讨交流~ 本文目录：一、实验要求二、实验环境三、实验原理及操作1.照片准备2.图像增强3.实现美颜功能4.背景虚化5.图像二值化处理6.人…

阅读更多...

推荐文章

最新文章