深度学习中使用的16位浮点数格式

news2025/7/12 12:07:23

深度学习中使用的16位浮点数格式

flyfish

文章目录

深度学习中使用的16位浮点数格式
- 浮点数是一个近似值
- 浮点数的表示
- float单精度类型和 double双精度类型的比较
- 查看所占的字节数
- 大小端的比较
- 计算方法
- 16位 float 半精度格式
- bflat16格式
- bflat16格式与 float32单精度格式比较

浮点数是一个近似值

浮点类型使用 IEEE-754 表示形式在各种数量级上提供小数值的近似值
浮点数是近似值不是精确值
例如

#include<stdio.h>

int  main() 
{
    float a = 1234.5 ;
    float b = 1234.5678 ;
    printf("%f \n",a);
    printf("%f \n",b);
    return 0;
}

1234.500000 
1234.567749

浮点数的表示

以32位 float单精度类型为例
在这里插入图片描述

符号位 sign: 占 1 bit，
指数 exponent: 占 8 bit
尾数 mantissa 或者叫fraction， 占 23 bit

float单精度类型和 double双精度类型的比较

在这里插入图片描述

查看所占的字节数

#include <iostream>

using namespace std;

int main()
{
    int a, b, c, d, e, f;
    a = sizeof(char);
    b = sizeof(short);
    c = sizeof(int);
    d = sizeof(float);
    e = sizeof(double);
    f = sizeof(long double);
    
    cout << "char：" << a << endl;
    cout << "short：" << b << endl;
    cout << "int：" << c << endl;
    cout << "float：" << d << endl;
    cout << "double：" << e << endl;
    cout << "long double：" << f << endl;

    return 0;
}

char：1
short：2
int：4
float：4
double：8 
long double：16

大小端的比较

在这里插入图片描述

计算方法

在这里插入图片描述

16位 float 半精度格式

在这里插入图片描述

bflat16格式

bflat16 是Brain Floating Point
在这里插入图片描述

bflat16格式与 float32单精度格式比较

在这里插入图片描述
经过两者比较，bflat16格式可以看做float32 单精度格式截掉了低16位的结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/687244.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

深度学习中使用的16位浮点数格式

深度学习中使用的16位浮点数格式

文章目录

浮点数是一个近似值

浮点数的表示

float单精度类型和 double双精度类型的比较

查看所占的字节数

大小端的比较

计算方法

16位 float 半精度格式

bflat16格式

bflat16格式与 float32单精度格式比较

相关文章

手敲MyBatis(十二章)-ResultMap解析映射使用

发送图文并茂的html格式的邮件

Sui Builder House京都站倒计时！

NetSuite OAuth1.0中InvalidSignature问题

【云原生丶Docker】虚拟化技术简介

clip-interrogator本地部署

d3dcompiler_47.dll缺失怎么办？d3dcompiler_47.dll缺失修复方法（详解）

Docker卷与持久化数据

网络维护岗位个人求职简历

day14_面向对象的三大特征之一（继承）

【Java-SpringBoot+Vue+MySql】项目开发杂记

LLM - Hugging Face 工程 BERT base model (uncased) 配置

RabbitMQ实现延迟消息，RabbitMQ使用死信队列实现延迟消息，RabbitMQ延时队列插件

5分钟自建可视化平台，在线拖拽组件也太方便了！

如何提升企业采购绩效？提高采购绩效的方法

【032】C++高级开发之多态技术详解（虚函数最全讲解）

mvnd 安装和 idea配置mvnd

基于Java医院医患管理系统设计实现(源码+lw+部署文档+讲解等)

如何测试webservice接口

【复习《剑指Offer》6-12题】【每天40分钟，我们一起用50天刷完 (剑指Offer)】第七天 7/50

深度学习中使用的16位浮点数格式

深度学习中使用的16位浮点数格式

文章目录

浮点数是一个近似值

浮点数的表示

float单精度类型 和 double双精度类型 的比较

查看所占的字节数

大小端的比较

计算方法

16位 float 半精度格式

bflat16格式

bflat16格式 与 float32单精度格式 比较

相关文章

float单精度类型和 double双精度类型的比较

bflat16格式与 float32单精度格式比较