1. 引言
我们知道,整数在计算机中是以二进制补码的形式存储的,那么浮点数呢?
考虑到这个问题,你会感到十分苦恼,因为你并不知道要如何将一个浮点数转化成一段二进制序列。
那我们不妨先来验证一下,整数与浮点数的存储规则是否一致。
#include <stdio.h>
int main()
{
int n = 9;
float *pFloat = (float *)&n;
printf("n的值为:%d\n",n);
printf("*pFloat的值为:%f\n",*pFloat);
*pFloat = 9.0;
printf("num的值为:%d\n",n);
printf("*pFloat的值为:%f\n",*pFloat);
return 0;
}
如果整数与浮点数的存储规则一致的话,这段代码的结果就该是:
n的值为:9
*pFloat的值为:9.000000
num的值为:9
*pFloat的值为:9.000000
然而,结果却是:
也就是说,浮点数的存储与整数的存储一定不同。
那么,浮点数到底是如何存储在计算机中的呢?
2. 浮点数的存储方式
2.1 标准规定
根据国际标准IEEE(电气和电子工程协会) 754,任意⼀个⼆进制浮点数V可以表示成下面的形式:
• 表示符号位,当S=0时,V为正数;当S=1时,V为负数。
• M表示有效数字,M是大于等于1,小于2的。
• 表示指数位
这其实相当于是规定了二进制下的科学计数法。
举例来说:
十进制的5.0,写成二进制是 101.0 ,相当于 1.01×2^2 。
那么,按照上⾯V的格式,可以得出S=0,M=1.01,E=2。
十进制的-5.0,写成二进制是 -101.0 ,相当于 -1.01×2^2 。
那么,S=1,M=1.01,E=2。
同时IEEE 754规定:
1. 对于32位的浮点数,最⾼的1位存储符号位S,接着的8位存储指数E,剩下的23位存储有效数字M。
2. 对于64位的浮点数,最⾼的1位存储符号位S,接着的11位存储指数E,剩下的52位存储有效数字M。
图片来源于比特科技。
2.2 有效数字E
即使有了上面的规定,我们的问题依然没有得到解决,因为有效数字E依然是一个浮点数。
前面说过, 1≤M<2 ,也就是说,M可以写成 1.xxxxxx 的形式,其中 xxxxxx 表示小数部分。 IEEE 754 规定,在计算机内部保存M时,默认这个数的第⼀位总是1,因此可以被舍去,只保存后⾯的 xxxxxx部分。比如保存1.01的时候,只保存01,等到读取的时候,再把第⼀位的1加上去。
这样一来,S,M,E都是以整数的形式存在了,我们就可以很好地将其存到计算机中。
这样做还有一个好处,那就是节省1位有效数字。以32位浮点数为例,留给M只有23位,将第⼀位的1舍去以后,等于可以保 存24位有效数字。
2.3 指数E
2.3.1 存入E
首先,指数E的类型为无符号整形(unsigned int),这意味着,如果E为8位,它的取值范围为0~255;如果E为11位,它的取值范围为0~2047。但是,我们知道,科学计数法中的E是可以出现负数的,所以IEEE 754规定,存入内存时E的真实值必须再加上 ⼀个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023。比如,2^10的E是 10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。
这样做,其实就像是将坐标原点搬到了中间数的位置,小于中间数的就表示负数,大于中间数的就表示正数。
2.3.2 取出E
从内存中取出E还可以分为三种情况:
1. E不全为0或不全为1
这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第⼀位的1。 比如:0.5 的⼆进制形式为0.1,由于规定正数部分必须为1,即将小数点右移1位,则为1.0*2^(-1),其 阶码为-1+127(中间值)=126,表示为01111110,而尾数1.0去掉整数部分为0,补齐0到23位 00000000000000000000000,则其⼆进制表示形式为:
0 01111110 00000000000000000000000
2. E全为0
这时,浮点数的指数E等于1-127(或者1-1023)即为真实值,有效数字M不再加上第⼀位的1,而是还原为0.xxxxxx的小数。因为无论什么数,乘上都会变成小到忽略不计的数,这样做是为了表示±0,以及接近于0的很小的数字。
例如:
0 00000000 00100000000000000000000
E全为1
这时,如果有效数字M全为0,表示±穷大(正负取决于符号位s)
例如:
0 11111111 00010000000000000000000
3. 对开头的代码进行解析
既然我们已经知道了浮点数在内存中的存储规则,那我们要如何解释开头那段代码的结果呢?
#include <stdio.h>
int main()
{
//第一部分
int n = 9;
float *pFloat = (float *)&n;
printf("n的值为:%d\n",n);
printf("*pFloat的值为:%f\n",*pFloat);
//第二部分
*pFloat = 9.0;
printf("num的值为:%d\n",n);
printf("*pFloat的值为:%f\n",*pFloat);
return 0;
}
3.1 第一部分
第一步将整数9存储到int类型的n当中,那么n存储在内存中的二进制补码就是:
00000000000000000000000000001001
将n的地址强转为float*之后赋值给pFloat,而对于pFloat,它对存储到n中的数据是这样来理解的:
0 00000000 00000000000000000001001
即S=0,E=-127, M=0.00000000000000000001001
也就是我们刚才谈到的E为全零的情况。所以,此时对于pfloat来说,n中存的是零。
3.2 第二部分
第一步将浮点数9.0存到*pFloat指向空间(n)中,按照浮点数存储的规则,我们先将9.0改写为,对应的二进制序列就是:
0 10000010 00100000000000000000000
而n本身会将这段二进制序列当作是整数
01000001000100000000000000000000
解析出来的数据就是1091567616。
4. 总结
浮点数的存储与整数的存储规则不同,其遵循IEEE 754的规定来存储。
值得注意的是,由于M(有效数字)的位数是有限的,所以并不是所有浮点数都能精确存储在float类型的数据之中。