深度学习中的数据类型介绍:FP32, FP16, TF32, BF16, Int16, Int8 ...

news2024/11/26 1:54:45

文章目录

    • 0. 前言
    • 1. 数据的存储方式
    • 2. 不同数据类型介绍
      • 2.1 深度学习中常用的数据类型
      • 2.2 BF16 类型的优势
      • 2.3 不同数据类型的使用场景

0. 前言

相比于 CPU,GPU 在架构设计时将更多的晶体管用于数据处理,而不是数据缓存和流量控制,因此可以高度实现并行计算。具体可以参考 GPU 并行计算入门

由于深度学习是基于大量矩阵运算实现的,因此我们往往使用 GPU 训练深度学习网络。GPU 的计算能力和显存大小决定了计算速度和可运行的网络的大小,但除了 GPU 本身的性能外,网络训练/推理的性能还与我们使用的数据类型有关。在大模型时代,低精度和混合精度的使用非常常见。

1. 数据的存储方式

float 和 double 类型的数据在内存中以二进制方式存储,由三部分组成:

  • 符号位 S(Sign): 0 代表正数,1 代表负数
  • 指数位 E(Exponent): 用于存储科学计数法中的指数部分,决定了数据的范围
  • 尾数位 M(Mantissa): 用于存储尾数(小数)部分,决定了数据的精度

int 类型只包括符号位和指数位,没有尾数位。

如 float 9.125 在计算机中分别按照整数和尾数的二进制进行存储,9 的二进制为 1001,0.125 的二进制为 0.001;所以 9.125 表示为 1001.001,其二进制的科学计数法表示为 1.001001 × 2 3 1.001001 \times 2^3 1.001001×23

在计算机中,任何一个数都可以表示为 1. x x x × 2 n 1.xxx \times 2^n 1.xxx×2n 的形式,其中 n n n 是指数位, x x x xxx xxx 是尾数位。

指数位决定了该数据类型的数值动态范围:指数位越多,可表示的数值范围越大。
尾数位决定了该数据类型的数值精度:尾数位越多,可表示的数值精度越高。

下面是 FP16 和 FP32 (float) 的存储示例图:
        

        

以 FP16为例,其指数位 E 为 5 bits,由于 00000 和 11111 是特殊数据,所以 E 的范围为 00001~11110,即 1~30;尾数位 M 为 10 bits,范围为 0~1023

(1)计算 FP16 可以表示的数据范围

FP16 可以表示的数据大小为: ( − 1 ) S ∗ 2 E − 15 ∗ ( 1 + M 2 1024 ) (-1)^S*2^{E-15}*(1+\frac{M}{2^{1024}}) (1)S2E15(1+21024M)

因此 FP16 可以表示的最大的正数为: 0   11110   1111111111 = ( − 1 ) 0 ∗ 2 30 − 15 ∗ ( 1 + 1023 1024 ) = 65504 0 \ 11110 \ 1111111111=(-1)^0*2^{30-15}*(1+\frac{1023}{1024})=65504 0 11110 1111111111=(1)023015(1+10241023)=65504

可以表示的最小的负数为: 1   11110   1111111111 = ( − 1 ) 1 ∗ 2 30 − 15 ∗ ( 1 + 1023 1024 ) = − 65504 1 \ 11110 \ 1111111111=(-1)^1*2^{30-15}*(1+\frac{1023}{1024})=-65504 1 11110 1111111111=(1)123015(1+10241023)=65504

所以 FP16 可以表示的数据范围为 [ − 65504 , 65504 ] [-65504,65504] [65504,65504]

与 FP16 相比,FP16 可以表示的数据范围为 [ − 3.4 × 1 0 38 , 3.4 × 1 0 38 ] [-3.4\times10^{38},3.4\times10^{38}] [3.4×1038,3.4×1038]

(2)特殊情况分析

在指数位 E 为 00000 或 11111 时:

  • E = 00000 E=00000 E=00000时,FP16 可以表示的数据大小为: ( − 1 ) S ∗ 2 1 − 15 ∗ ( 0 + M 2 1024 ) (-1)^S*2^{1-15}*(0+\frac{M}{2^{1024}}) (1)S2115(0+21024M)
  • E = 11111 E=11111 E=11111时,若 M 全为 0,表示 ± inf;若 M 不全为 0,表示 NAN

(3)分析 FP16 的数值精度

由于尾数位的限制,任何数据类型表示的数都是有精度的,即 FP16 并不是可以表示 [ − 65504 , 65504 ] [-65504,65504] [65504,65504] 内的任意数字。

FP16 可以表示的最小的正数为: 0   00001   0000000000 = ( − 1 ) 0 ∗ 2 1 − 15 ∗ ( 1 + 0 1024 ) = 6.10 × 1 0 − 5 0 \ 00001 \ 0000000000 =(-1)^0*2^{1-15}*(1+\frac{0}{1024})=6.10\times10^{-5} 0 00001 0000000000=(1)02115(1+10240)=6.10×105

FP16 的数值精度为 0.001,即两个不同 FP16 数值的最小间隔为 0.001,这是由于十进制和二进制之间的数值转换决定的,具体分析可见 LLM大模型之精度问题(FP16,FP32,BF16)详解与实践

用 PyTorch 验证一下:

import torch
print(torch.finfo(torch.float16))
# finfo(resolution=0.001, min=-65504, max=65504, eps=0.000976562, smallest_normal=6.10352e-05, tiny=6.10352e-05, dtype=float16)

本节参考:

float在内存中的存储

LLM大模型之精度问题(FP16,FP32,BF16)详解与实践

彻底搞懂float16与float32的计算方式

2. 不同数据类型介绍

最早的 GPU 默认使用 FP32 类型进行运算,但随着模型越来越大,FP32 类型占内存/显存资源大且运算速度慢的问题逐渐暴露了出来。为了降低模型的大小使得在固定显存的 GPU 上可以运行更大(参数量更多)的模型,且提升模型的训练和推理速度,各种低精度的数据类型被提出。

2.1 深度学习中常用的数据类型

深度学习中常用的数据类型如下:

数据类型bits符号位 S指数位 E尾数位 M数值范围数值精度设计原理说明
FP32321823 − 3.4 × 1 0 38 -3.4\times10^{38} 3.4×1038 ~ 3.4 × 1 0 38 3.4\times10^{38} 3.4×1038 1 0 − 6 10^{-6} 106大部分CPU/GPU/深度学习框架中默认使用FP32,FP32可以作为精度 baseline
FP16161510 − 65504 -65504 65504 ~ 65504 65504 65504 1 0 − 3 10^{-3} 103
TF32191810 − 3.4 × 1 0 38 -3.4\times10^{38} 3.4×1038 ~ 3.4 × 1 0 38 3.4\times10^{38} 3.4×1038 1 0 − 3 10^{-3} 103TF32 的 E 与 FP32 相同,具有与 FP32 相同的数值范围;M 与 FP16 相同,具有与 FP16 相同的数值精度。TF32 (TensorFloat) 是 Nvidia 在 Ampere 架构的 GPU 上推出的用于 TensorCore 的数据格式,在 A100 上使用 TF32 的运算速度是在 V100 上使用 FP32 CUDA Core 运算速度的 8 倍。
BF1616187 − 3.39 × 1 0 38 -3.39\times10^{38} 3.39×1038 ~ 3.39 × 1 0 38 3.39\times10^{38} 3.39×1038 1 0 − 2 10^{-2} 102BF16 以 16bits 存储,但其 E 与 FP32 一致,因此其数值范围与 FP32 一致;即其数值范围大于 FP32,但精度低于 FP16BF16 (bfloat16, brain floating point 16)是由Google Brain开发的,是一种最适合大模型训练的数据类型,但目前只适配于 Ampere 架构的 GPU(如A100)。
Int3232131 − 2.15 × 1 0 9 -2.15\times10^{9} 2.15×109 ~ 2.15 × 1 0 9 2.15\times10^{9} 2.15×109 1 1 1
Int1616115 − 32768 -32768 32768 ~ 32767 32767 32767 1 1 1
Int8817 − 128 -128 128 ~ 127 127 127 1 1 1

PyTorch验证:

import torch
print(torch.finfo(torch.float32))
# finfo(resolution=1e-06, min=-3.40282e+38, max=3.40282e+38, eps=1.19209e-07, smallest_normal=1.17549e-38, tiny=1.17549e-38, dtype=float32)
print(torch.finfo(torch.float16))
# finfo(resolution=0.001, min=-65504, max=65504, eps=0.000976562, smallest_normal=6.10352e-05, tiny=6.10352e-05, dtype=float16)
print(torch.finfo(torch.bfloat16))
# finfo(resolution=0.001, min=-65504, max=65504, eps=0.000976562, smallest_normal=6.10352e-05, tiny=6.10352e-05, dtype=float16)
print(torch.iinfo(torch.int32))
# iinfo(min=-2.14748e+09, max=2.14748e+09, dtype=int32)
print(torch.iinfo(torch.int16))
# iinfo(min=-32768, max=32767, dtype=int16)
print(torch.iinfo(torch.int8))
# iinfo(min=-128, max=127, dtype=int8)

2.2 BF16 类型的优势

BF16 类型的优势:

  • BF16 只有 2bytes 的内存,但其数值范围与 4bytes 的 FP32 相同。
    在深度学习领域,数值范围的作用远高于数值精度;即数据类型的指数位的作用大于尾数位的作用。采用梯度下降法的网络权重的更新方式为: w n e w = w o l d − l r ⋅ g r a d w_{new}=w_{old}-lr \cdot grad wnew=woldlrgrad 由于梯度 g r a d grad grad 和学习率 l r lr lr 通常较小,往往会出现很小的数值,因此必须使用能够表达较大范围的数据类型。使用 FP16时往往会出现 underflow(下溢)的情况,即小于 − 6.55 × 1 0 4 -6.55\times10^{4} 6.55×104 的数值被截断为 0 ,导致梯度无法更新。所以 BF16 具有比 FP16 更优异的性能。
  • BF16 与 FP32 的转换很容易。
    使用混合精度计算时,需要频繁得对 BF16/FP32 和 FP32 进行转换。BF16 基本上可以看作成一个“截断”版的 FP32, 两者之间的转换是非常直接,其实现电路也会非常简单。相比于 FP16,BF16的使用能有效的降低电路的面积。

2.3 不同数据类型的使用场景

对于不同的任务和使用场景,最适用的数据类型也是不同的。

(1)不用任务使用不同的数据类型

  • 例1:相比于目标检测,分类任务对于数据类型就没有那么敏感了,可能使用 FP16 和 Int8 获得的精度并没有差多少,但使用 Int8 能够显著提升训练和推理性能。
  • 例2:由于图像往往是 Int8 格式,因此在 CV 的推理任务中以 Int8 为主;但在 NLP任务中应以 FP16 为主。

(2)训练和推理的不同

  • FP32 往往只是作为精度基线 (baseline),比如要求使用 FP16 获得的精度达到 FP32 baseline 的 99% 以上。但通常不会使用 FP32 进行训练,尤其对于大模型来说。
  • 训练往往使用 FP16, BF16 和 TF32,以降低内存占用,缩写训练时间,降低训练资源(较少耗电)。
  • 推理 CV 任务以 Int8 为主,NLP任务以 FP16 为主,大模型可以使用 Int8/FP16 混合推理。

本节参考:int8/fp16/bf16/tf32在AI芯片中什么作用?【AI芯片】AI计算体系06

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1176004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python基础】Python函数介绍(超全面、缺省参数、多值传参、可变参数等)

函数进阶 1.01. 函数参数和返回值的作用1.1无参数,无返回值1.2 无参数,有返回值1.3 有参数,无返回值1.4 有参数,有返回值 2.不可变和可变的参数3.多值参数 1.01. 函数参数和返回值的作用 函数根据 有没有参数 以及 有没有返回值&…

Maven3.9.1安装及环境变量配置

一、Maven的下载与安装 maven各版本下载地址 打开链接后自行选择对应版本 下载完成后解压安装,最好别选择c盘,安装目录路径等使用英文,避免产生其他问题 我这里选择的是D盘 二、Maven的环境变量配置 2.1、右键点击此电脑选择属性,点击高级系统设置,点…

Coremail与国家信息安全漏洞库(CNNVD)达成深度合作!

漏洞信息共享合作单位证书 近日,Coremail获得由国家信息安全漏洞库(CNNVD)颁发的“CNNVD漏洞信息共享合作单位”证书。 此证书是国家权威机构对Coremail安全研究技术和漏洞挖掘技术实力的充分肯定,也是双方合作的里程碑。 国家信…

Redis之Java操作连接操作Redis

前言 Java是一种强大的编程语言,而Redis是一个快速且具有高可扩展性的开源键值数据存储系统。使用Java操作Redis可以提高效率和性能,并且能够满足大规模数据存储和处理的需求。在本篇文章中,我们将介绍如何使用Java连接Redis,以及…

企业文件夹同步,怎样让数据管理更高效?

随着企业数据量的不断增加,如何高效地进行文件夹同步已成为企业提升工作效率、确保数据安全的重要一环。飞驰云联的同步软件作为一款专门针对企业级用户的数据同步解决方案,在实践中表现出色,值得信赖。 飞驰云联的同步软件是一款高效、稳定、…

axios下载csv文件下载-功能实现

须将axios 配置中的responseType设置为arraybuffer text/comma-separated-values, text/csv, application/csv, application/excel, application/vnd.ms-excel, application/vnd.msexcel // 下载文件 async exportConsumeList() {try {let res await exportConsumeList…

ASO优化之为应用创建屏幕截图的技巧(上)

屏幕截图是应用商店中最大的视觉元素之一。它们吸引用户的注意力,让他们对应用程序的外观有一个印象。我们需要改善并优化屏幕截图,来提高应用的转化率。 1、将用户的注意力吸引到正确位置。 显示部分屏幕截图而不是完整的设备。通过将原始资源减半&…

SS928 开发记录一 烧写

1.下载ToolPlatform 1.1设置芯片型号 1.2IP系统会自动根据主机设置 1.3选择烧写方式以及 eMMC分区表 1.4选择烧写文件 .bin、 kernel 、rootfs 2.烧录后通过串口连接 3.连接后写入环境变量 4.reset

『亚马逊云科技产品测评』活动征文|游戏出海云服务器选择

授权声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 Developer Centre, 知乎,自媒体平台,第三方开发者媒体等亚马逊云科技官方渠道 缘由 在国内流量红利见顶、版号暂停发放后,海外已经成为国内…

风险管理 相关的(ITTO)输入、工具与技术

信息系统项目管理 之「风险管理」相关的(ITTO)输入、工具与技术、输出 风险管理是项目管理的十大知识领域之一,包括如下7个过程。 1、规划风险管理 定义 规划风险管理是定义如何实施项目风险管理活动的过。 作用 确保风险管理的水平、…

01-详解静态代理,动态代理(JDK动态代理原理和CGLIB动态代理原理)

GoF之代理模式 概述 代理模式是GoF23种设计模式之一,属于结构型设计模式,本质就是通过引入代理对象间接实现对真实对象的操作 业务场景: 系统中有A、B、C三个模块,使用这些模块的前提是需要用户登录 此时就可以为A、B、C三个模块提供一个代理,代理的逻辑请求来了之后先判断…

vue + axios + mock

参考来源:Vue mock.js模拟数据实现首页导航与左侧菜单功能_vue.js_AB教程网 记录步骤:在参考资料来源添加axios步骤 1、安装mock依赖 npm install mock -D //只在开发环境使用 下载完成后,项目文件package.json中的devDependencies就会加…

【已解决】linux下轻松解决大多数软件依赖问题

【已解决】linux下轻松解决大多数软件依赖问题 通过aptitute安装 sudo apt install aptitudesudo aptitude install 软件包的名字以安装opencv过程中sudo apt-get install libgtk2.0-dev失败为例 先装aptitute sudo apt install aptitude再装libgtk2.0-dev sudo aptitude …

HR如何应用人才测评系统来开展招聘?

企业招聘:名额少,应聘者多,这是必然现象!如果提高招聘效率,成为企业最为关心的问题。 问题可能有 1、简历多筛选难 每次收到一堆的简历,如何从中筛选出有效的人才,是一件头疼的事&#xff0c…

【文末送书】Python界面开发与PyQt

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关…

【微服务】一体化智慧工地管理平台源码

智慧工地系统是一种利用人工智能和物联网技术来监测和管理建筑工地的系统。它可以通过感知设备、数据处理和分析、智能控制等技术手段,实现对工地施工、设备状态、人员安全等方面的实时监控和管理。 一、智慧工地让工程施工智能化 1、内容全面,多维度数…

[开源]免费开源MES系统/可视化数字大屏/自动排班系统

开源系统概述: 万界星空科技免费MES、开源MES、商业开源MES、市面上最好的开源MES、MES源代码、免费MES、免费智能制造系统、免费排产系统、免费排班系统、免费质检系统、免费生产计划系统。 万界星空开源MES制造执行系统的Java开源版本。开源mes系统包括系统管理…

回馈电子负载的特点

随着科技的不断发展,制造工厂正逐渐采用先进的设备和技术来提高生产效率。回馈电子负载作为一种新型的电力设备,其独特的特点为制造工厂带来了诸多优势。回馈电子负载是一种能够将多余的电能回馈到电网的电力设备,广泛应用于制造工厂、数据中…

Android 接入ttf字体文件

一、业务实现 一些炫酷的App总会加一些App自己的字体。这时候需要找UI提供ttf字体文件。 然后实现 TTF(TrueType Font)字体文件并将其应用到 TextView。 二、大致流程 将 TTF 字体文件添加到你的 Android 项目中: 将 TTF 文件复制到 res/f…

【Pytorch】计算机视觉项目——卷积神经网络CNN模型识别图像分类

目录 一、前言二、CNN可视化解释器1. 卷积层工作原理 三、详细步骤说明1. 数据集准备2.DataLoader3. 搭建模型CNN3.1 设置设备3.2 搭建CNN模型3.3 设置loss 和 optimizer3.4 训练和测试循环 4. 模型评估和结果输出 一、前言 在上一篇笔记《【Pytorch】整体工作流程代码详解&am…