【寒武纪(6)】MLU推理加速引擎MagicMind,最佳实践(二)混合精度

news2024/11/26 15:32:35

混合精度在精度损失范围内实现数倍的性能提升。

支持的量化特性

构建混合精度的流程

构建混合精度的流程如下,支持浮点或半精度编程,以及量化精度编程两种方式。

  • 浮点或半精度 无需提供tensor分布
  • 量化编程需要设置tensor分布。

在这里插入图片描述

网络粒度和算子粒度的设置输入精度和输出数据类型

网络中算子的输入精度和输出数据类型在不做修改时维持原始精度。如果需要修改输入精度和输出的类型,有两种方式:
1、按照网络粒度设置。推荐方法,整个网络所有的算子所使用的输入精度和输出数据类型都设置了。
2、按照算子粒度设置。精细化设置每一个算子使用的输入精度和输出类型。比较灵活但是比较复杂。算子粒度比网络粒度的优先级高,同时设置时,会使用算子粒度。
在这里插入图片描述

网络设置的配置示例:
在这里插入图片描述

算子颗粒度设置示例:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2混合精度编程

基本概念:

  • 整网输入
  • 整网输出
  • 中间层输入
  • 中间层输出
  • const tensor输出

默认情况下

整网输入、整网输出、const tensor 在网络创建时直接指定或者后续更改。
网络中间层输入类型由上一层算子连接关系自动推导,中间层输出类型(除ICastNode可以指定目标类型外)默认为float 32

设置类型

使用INodeSetxxx 后,即使不同的网络层的类型不匹配,MagicMind 会自动完成必要的数据转换。

在这里插入图片描述

一种途径:创建float32 的网络,然后设置INodeSetxxxx偏好。

在这里插入图片描述

第二种途径:改变整网的输入类型,const tensor类型、整网输出类型,结合偏好输入和输出类型,构建全float16网络,减少MagicMind的自动插入数据类型转换Node。在这里插入图片描述

3 量化数据类型

onnx框架量化参数和寒武纪量化参数,以及数值范围Range

在这里插入图片描述

手动设置量化参数

如果用户知道数据的分布范围,可以调用接口,将数据范围手动设置到Range类。

使用校准器获得并设置数据的分布范围

基于浮点模型和样本数据—>计算并设置数据分布范围,并根据滤波器的数据分布特点选择不同的量化粒度。

要求:

  • 提供浮点网络
  • 样本数据

快速生成量化模型并完成部署。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

远端校准

校准器一般运行在本地MLU,(也就是校准需要运行MLU?),可以远程调用MLU。
在这里插入图片描述

校准器会按照给定的设置进行数据动态范围的调整和设置。

量化统计方法

两种方法:线性统计和最小二乘统计(最小二乘仅支持int8)。

量化粒度设置

两种量化设置 per_tensor :按照张量量化,per_axis:按照通道量化。

配置选项:weight_quant_granularity 和 custom_nodes

1weight_quant_granularity 配置除DepthWise卷积外的全局量化粒度

在这里插入图片描述

2custom_nodes 配置DepthWise卷积量化粒度

3custom_nodes 支持“按照节点类型”配置某些类的粒度

4ITensor::SetDynamicRange ITensor::SetDynamicRangPerAxis 配置某算子是否分通道

量化对称性

从量化统计到量化参数计算,支持对称量化和非对称量化。
在这里插入图片描述

舍入模式

在这里插入图片描述

在这里插入图片描述

(正文完)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1267362.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【智能算法】季节优化算法Seasons optimization algorithm【2023最新智能优化算法合集】

本文介绍了一种基于成吉思汗鲨鱼(Genghis Khan shark,GKS)行为的自然启发的元启发式算法(MA),称为成吉思汗鲨鱼优化器(Genghis Khan shark optimizer,GKSO),用于数值优化和工程设计。GKSO的灵感来自于GKS的捕食和生存行为。该成果…

【分布式系统学习】CAP原理详解

CAP原理详解 前言CAP一张图 一、概念1.1 关键词解读1.2 关于CAP(拆分解读)1.3 CAP原理精髓 二、CAP模拟场景举例理解三、CAP原理证明为什么不能同时满足(下面举例说明)3.1 必须满足分区容错性P下的处理方式3.2 不是必须满足分区容…

自定义Windows服务启动失败

文章目录 自定义Windows服务启动失败报错内容解决方案管理员身份运行cmd进入到InstallUtil.exe的路径,使用cd命令。使用InstallUtil.exe工具安装服务。 自定义Windows服务启动失败 报错内容 “无法从命令行或调试器启动服务,必须首先安装Windows服务(使…

《opencv实用探索·四》Mat图像数据类型转换和归一化显示

一种数据类型转为另一种数据类型,不改变图像大小,但每个像素值可能会变 src.convertTo(dst, type, scale, shift);Scale和shitf默认为0(这两个参数也相当于对比度和亮度) 现在有个8位图像,把8位转成32位 可以看到像素…

【EI稳定检索】第三届绿色能源与电力系统国际学术会议(ICGEPS 2024)

第三届绿色能源与电力系统国际学术会议(ICGEPS 2024) 2024 3rd International Conference on Green Energy and Power Systems 绿色能源是指可以直接用于生产和生活的能源。它包括核能和“可再生能源”。随着世界各国能源需求的不断增长和环境保护意识…

人工智能 -- 技术概览

1、我们身处人工智能的时代 人们从早期做web开发,到移动端的开发;之后随着数据量的增大,人们开始研究高并发的问题;当数据量不断的增大,而人们希望数据不被浪费时,产生了大数据的技术,包括&…

国标GB28181协议/RTSP视频监控汇聚平台EasyCVR(V.3.4)页面UI大更新

为提高用户体验,增强平台功能,旭帆科技的Easy系列平台也在不断优化更新中。在最新的EasyCVR(V.3.4)中,其最显著的区别即为首页UI的调整。 其亮点是在【配置中心】-【基础配置】-【展示信息】中,首页UI可分…

Spark经典案例分享

Spark经典案例 链接操作案例二次排序案例 链接操作案例 案例需求 数据介绍 代码如下: package base.charpter7import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.spark.SparkContext import org.a…

品牌全渠道营销系统如何与不同经销商ERP打通

品牌商在与各经销商ERP系统打通方面面临的挑战。传统的ERP系统往往使得数据收集和合作变得繁琐且低效,导致市场响应迟缓,影响整体的供应链管理和市场决策。我们的解决方案旨在破解这一难题,提供一个全渠道营销系统,它能自动与各类…

啊哒-MISC-bugku-解题步骤

——CTF解题专栏—— 题目信息: 题目:啊哒 作者:第七届山东省大学生网络安全技能大赛 提示:无 解题附件: 解题思路: 图片的话还是老三样斧winwalk、010Editor、Stegsolve。ok直接开搞! 解题…

Typora .MD笔记中本地图片批量上传到csdn (.PNG格式)(无需其他任何图床软件)

Typora .MD笔记中本地图片批量上传到csdn (.PNG格式)(无需其他任何图床软件) 截图软件推荐 qq 截图 快捷键 ctrlshiftA. 步骤一 设置Typora 的图片 点击文件. 点击偏好设置 ->图像 我们可以选择将图片复制到我们的文件夹中。 建议刚写好文件标题就…

element ui 表格合计项合并

如图所示&#xff1a; 代码&#xff1a; <el-table height"400px" :data"tableData " borderstyle"width: 100%"stripe show-summaryref"table"id"table"> </el-table>监听表格 watch: { //监听table这个对象…

OBC、DCDC自动化测试解决方案!

OBC(车载充电机&#xff09;和DCDC&#xff08;直流-直流变换器&#xff09;是电动汽车的核心部件&#xff0c;DCDC和OBC的功能质量对于整车的性能和安全性至关重要。在OBC和DCDC&#xff0c;以及整车开发测试过程中&#xff0c;需要对OBC和DCDC进行功能和性能方面进行全面的测…

银河麒麟高级服务器操作系统V10安装达梦数据库管理系统DM8——单实例

一、介绍 之前介绍过供个人学习在VMware虚拟机上安装银河麒麟高级服务器操作系统V10&#xff0c;有兴趣的可以去看看&#xff08;银河麒麟V10安装&#xff09;&#xff0c;本次主要学习在银河麒麟V10上安装达梦数据库-DM8。DM8是达梦公司在总结DM系列产品研发与应用经验的基础…

明天就删,限时领取。zui全拼多多直播问题答疑文档合集。

直播流程是什么&#xff1f;什么时间要做什么事&#xff1f;直播带货播出什么数据才算好?怎么提高直播间流量指标&#xff1f;付费起号还是自然起号好&#xff1f;大小循环话术和场控话术怎么说?今天为大家分享一份“zui全直播500问”&#xff1a; 以上内容为“zui全直播500问…

消息队列进阶-3.消息队列常见问题解决方案

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是爱吃芝士的土豆倪&#xff0c;24届校招生Java选手&#xff0c;很高兴认识大家&#x1f4d5;系列专栏&#xff1a;Spring源码、JUC源码、Kafka原理&#x1f525;如果感觉博主的文章还不错的话&#xff0c;请&#x1f44…

产品软文撰写思路,媒介盒子分享

产品软文的目的是为了将产品卖出去&#xff0c;然而想把产品卖出去&#xff0c;不是靠几句话就能实现的&#xff0c;还需要进行多方面分析&#xff0c;今天媒介盒子就来和大家分享&#xff1a;产品软文撰写思路。 一、 产品体验分享 自己要成为自己产品的深度用户并不是一句空…

洗牙器亚马逊UL1431测试报告检测标准

洗牙器是一种电动口腔清洁工具&#xff0c;用于移除食物残渣和牙菌斑&#xff0c;提高口腔卫生水平。 亚马逊要求商家上架的产品检测报告必须是ISO17025/ILAC ISO 17025标准认可的实验室出具的合格报告。 UL测试报告是根据产品选用相应的UL标准进行测试合格后&#xff0c;出具…

【MySQL源码】使用CLion 远程调试MySQL源码

目录 0 准备工作 1 IDE 2 下载MySQL源码 ​编辑 一 配置CLion 1 添加远程服务器 2 配置远程服务器环境 3 升级gdb版本 4 升级CMake版本 5 修改远程服务器文件上传的目录的对应关系 5 配置cmake 7 初始化MySQL 8 启动MySQL 作为DBA工作多年&#xff0c;如果还是停…

InnoDB存储引擎中的锁

文章目录 概要一、需要解决的问题二、共享锁和独占锁1.1 锁定读1.2 表级别的共享锁、独占锁 三、行锁3.1 数据准备3.2 几种常见的行级锁3.3 行锁升级为表锁 概要 关于MySQL涉及到的锁&#xff0c;大致可以总结如下&#xff1a; MyISAM存储引擎在开发过程中几乎很少使用了&…