18 数据在内存中的存储

一、整数在内存中的存储

二、大小端字节序和字节序判断

（一）什么是大小端

（二）为什么会有大小端

（三）练习

1、设计一个小程序来判断当前机器的字节序

2、练习二

3、练习三

4、练习四

5、练习五

6、练习六

三、浮点数在内存中的存储

（一）浮点数的存储

（二）存储过程

1、有效数字M

2、指数E

（三）取值过程

1、E不全为0或不全为1（正常情况）

2、E全为0

3、E全为1

4、总结

一、整数在内存中的存储

整数的二进制表示方法有三种，即原码、反码、补码；

而每种表示方法又分为两种形式：

① 有符号整数，三种表示方法均有符号位和数值位两部分，符号位都是用 0 表示 “正”，用 1 表示 “负”，最高位的一位是被当做符号位，剩余的都是数值位；

② 无符号整数，三种表示方法都只有数值位。

三种表示方法中：正整数的原、反、补码都相同；负整数的三种表示方法各不相同。

原码：直接将数值按照正负数的形式翻译成二进制得到的就是原码。

反码：将原码的符号位不变，其他位依次按位取反就可以得到反码。

补码：反码+1就得到补码。

对于整形来说：数据存放内存中其实存放的是补码

因为：

使用补码，可以将符号位和数值位统⼀处理；

同时，加法和减法也可以统⼀处理（CPU只有加法器）此外，补码与原码相互转换，其运算过程是相同的（取反，加一），不需要额外的硬件电路

二、大小端字节序和字节序判断

在进行整数存储的时候，会发现数字是倒着存放的，如下代码演示：

#include <stdio.h>

int main()
{
	int a = 0x11223344;
	return 0;
}

在调试的内存窗口中可以看到：

（一）什么是大小端

超过一个字节的数据在内存中存储的时候，就有存储顺序的问题，按照不同的存储顺序，分为大端字节序存储和小端字节序存储，下面是具体的概念：

大端（存储）模式：

是指数据的低位字节内容保存在内存的高地址处，而数据的高位字节内容，保存在内存的低地址处。

小端（存储）模式：

是指数据的低位字节内容保存在内存的低地址处，而数据的高位字节内容，保存在内存的高地址处。

（二）为什么会有大小端

这是因为在计算机系统中，我们是以字节为单位的，每个地址单元都对应着一个字节，一个字节为 8bit 位，但是在C语言中除了 8bit 的 char 之外，还有 16bit 的 short 型，32bit 的 long 型（要看具体的编译器），另外，对于位数大于8位的处理器，例如16位或者32位的处理器，由于寄存器宽度大于⼀个字节，那么必然存在着如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。

例如：一个 16bit 的 short 型 x ，在内存中的地址为 0x0010，x的值位0x1122，那么0x11为高字节，0x22 为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x0010 中， 0x22 放在高地址中，即 0x0011中。小端模式，刚好相反。我们常用的X86 结构是小端模式，而 KEIL C51 则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

（三）练习

1、设计一个小程序来判断当前机器的字节序

#include <stdio.h>

int main()
{
	int a = 1;
	char* p = (char*) & a;
	if (*p == 1)
		printf("小端存储\n");
	else
		printf("大端存储\n");

	return 0;
}

解析：

取出a的地址后强制转化成char类型指针，这样指针解引用后的权限只有一个字节，取出第一个字节就可以判断是大端存储还是小端存储

2、练习二

#include <stdio.h>
int main()
{
	char a = -1;
	signed char b = -1;
	unsigned char c = -1;
	printf("a=%d,b=%d,c=%d\n", a, b, c);
	return 0;
}

运行结果如下：

解析：

在vs中，char == signed char，他们的取值范围是 -128 ~ 127，这是因为char类型只有 8 个 bit 位，每一个比特位表示一位二进制位，所以范围表示从8位全0到8位全一，具体数值是：00000000（表示0），到01111111（表示127），在正数的最大值+1后，是10000000，这种符号位加后面全零的情况，当作是负数的最小值，是 -128，随后+1不断向11111111（表示 -1）靠近

而unsigned则8位 bit 位全是数值位，具体数值是：00000000（表示0），一直递增到11111111（表示255），可以把这些表示数值看作是一个循环：

所以unsigned char 中的 -1 就相当于255

3、练习三

代码一：
#include <stdio.h>

int main()
{
	char a = -128;
	printf("%u\n", a);
	return 0;
}
输出结果为：

解析：

-128转为二进制：

        原码是 10000000 00000000 00000001 00000000

反码是 11111111 11111111 11111111 01111111

        补码是 11111111 11111111 11111111 10000000

因为char类型只有8个bit位，所以截取后面8位，为10000000，

在进行打印时，打印的是 unsigned int 类型，需要进行整型提升，看第一位来补齐前面缺失的24位：

        11111111 11111111 11111111 10000000

按照整型无符号位打印，第一位看作是数值位，打印出来是非常大的数

代码二：
int main()
{
	char a = 128;
	printf("%u\n", a);
	return 0;
}
输出结果为：

解析：

        128转为二进制：

        原码是 00000000 00000000 00000001 00000000

反码是 11111111 11111111 11111111 01111111

        补码是 11111111 11111111 11111111 10000000

因为char类型只有8个bit位，所以截取后面8位，为10000000，

在进行打印时，打印的是 unsigned int 类型，需要进行整型提升，看第一位来补齐前面缺失的24位：

        11111111 11111111 11111111 10000000

按照整型无符号位打印，第一位看作是数值位，打印出来和代码一结果相同

总结：

        整型赋值给字符型要截断，取低位的8个bit位，
        按照变量类型，发生整型提升：
                如果是【有符号类型】按照【符号位】补全32个bit位；
                若是【无符号类型】，补0补到32个bit位

4、练习四

#include <stdio.h>

int main()
{
	char a[1000];
	for (int i = 0; i < 1000; i++)
	{
		a[i] = -1 - i;
	}
	printf("%d\n", strlen(a));
	return 0;
}

运行结果为：

解析：

数组a中存储的值是由 -1 不断减一的值，而char类型的值如下图所示：

从 -1 开始逐步减一，值会从 -1 变成 -128，然后 127 到 0，而字符终止字符 '\0' 的ASCII码也是0，所以统计0之前的字符个数，一共是255个

5、练习五

代码一：
#include <stdio.h>

unsigned char i = 0;
int main()
{
	for (i = 0; i <= 255; i++)
	{
		printf("hello world\n");
	}
	return 0;
}
输出结果为：无限循环输出"hello world"

解析：

char类型0~255会循环，练习二图解

代码二：
#include <stdio.h>

int main()
{
	unsigned int i;
	for (i = 9; i >= 0; i--)
	{
		printf("%u\n", i);
	}
	return 0;
}
输出结果为：无限打印

解析：

因为是无符号的整型，所以 0 减一后会得到无符号整型的最大数，然后如此循环

6、练习六

#include <stdio.h>

//X86,环境小端字节序

int main()
{
	int a[4] = { 1, 2, 3, 4 };
	int* ptr1 = (int*)(&a + 1);
	int* ptr2 = (int*)((int)a + 1);
	printf("%x,%x", ptr1[-1], *ptr2);
	return 0;
}

输出结果为：

解析：

把数组的内存表示转化成16进制模式（4个bit 换 1个16进制位），且为小端存储（低位靠前，倒着放），图示为：

&a表示整个数组的地址，+ 1 指针运算后表示跳过整个数组的长度，然后强制转化为int*类型的指针，表示解引用之后的权限为4个字节，此时指针指向数组的最后；如下图所示：

（int）a 表示把数组名即首元素地址转化为整型，（int）a + 1就是整型加1，表示地址向后移动了一个地址单元（跳过了一个字节），然后强制转化为int*类型的指针，表示解引用之后的权限为4个字节，此时指针指向01的后面；如下图所示：

此时 ptr [ -1 ]，表示 *（ptr - 1），即向前移动四个字节后解引用，内容为 04 00 00 00，又因为是小端存储，低位在前，所以打印出是 4；

而 *ptr2 解引用的权限是访问 4 个字节，内容为 00 00 00 02，又因为是小端存储，高位在后，所以打印的是 2000000。

7、总结

① signed 与 unsigned只是起到一个提示作用，提示最高位是否为符号位；

② 打印正整数直接打印补码，而打印负数要转化成原码；

③ 指针类型的作用是决定了解引用的权限与指针运算时的步长

④ 每4个bit位，可以写成一个16进制位

三、浮点数在内存中的存储

常见的浮点数：3.14159、1E10（科学计数法）等，浮点数家族包括：float、double、 long double 类型，浮点数表示的范围： float.h 中定义。

小练习：

#include <stdio.h>

int main()
{
	int n = 9;
	float* pFloat = (float*)&n;
	printf("n的值为：%d\n",n);
	printf("*pFloat的值为：%f\n",*pFloat);
	
	* pFloat = 9.0;
	printf("num的值为：%d\n",n);
	printf("*pFloat的值为：%f\n",*pFloat);

	return 0;
}

运行结果为：

想要弄明白为什么，就要了解浮点数在内存中的存储。

（一）浮点数的存储

根据国际标准IEEE（电气和电子工程协会）754，任意一个二进制浮点数 V 可以表示成下面的形式：

例如：

十进制的 5.0，在二进制中就是 101.0，相当于 1.01 × 2^2，

此时 S = 0， M = 1.01， E = 2。

若是 -5.0，在二进制中就是 -101.0，相当于 -1.01 × 2^2，

此时 S = 1， M = 1.01， E = 2。

IEEE 754规定：

对于32位的浮点数（float），最高的1位存储符号位S，接着的8位存储指数E，剩下的23位存储有效数字M。

对于64位的浮点数（double），最高的1位存储符号位S，接着的11位存储指数E，剩下的52位存储有效数字M

（二）存储过程

IEEE 754对有效数字M和指数E，还有一些特别规定。

1、有效数字M

前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中 xxxxxx 表示小数部分。 IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的 xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第一位的1舍去后，等于可以保存24位有效数字。

2、指数E

首先，E为一个无符号整数（unsigned int）

这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，科学计数法中的E是可以出现负数的，所以IEEE754规定，存入内存时，E 的真实值必须再加上一个中间数，再转化成二进制，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

（三）取值过程

指数E从内存中取出还可以再分成三种情况：

1、E不全为0或不全为1（正常情况）

这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第⼀位的1。

比如：0.5的二进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1)，其阶码为-1+127(中间值)=126，表示为01111110，而尾数1.0去掉整数部分为0，补齐0到23位 00000000000000000000000，则其⼆进制表示形式为：

 0 01111110 00000000000000000000000

2、E全为0

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第⼀位的1，而是还原为0.xxxxxx的小数。这样做是为了表示 ±0，以及接近于0的很小的数字。

3、E全为1

这时，如果有效数字M全为0，表示 ± 无穷大（正负取决于符号位s）；

4、总结

回到一开始的练习，

① 整数 9 按照浮点数打印就成了0.000000？

9以整型的形式存储在内存中，得到如下⼆进制序列：

0000 0000 0000 0000 0000 0000 0000 1001

首先，将 9 的⼆进制序列按照浮点数的形式拆分，得到第一位符号位s=0，后面8位的指数 E = 00000000，最后23位的有效数字M=00000000000000000001001。

此时由于指数E全为0，所以符合E为全0的情况，是⼀个很小的接近于0的正数，所以用十进制小数表示就是0.000000。

② 浮点数 9.0 按整数打印就是1091567616？

首先，浮点数 9.0 等于⼆进制的1001.0，即换算成科学计数法是：1.001×2^3，所以S = 0，E = 3，M = 1.001，存进内存中，就是：S = 0，有效数字M = 001后面加20个0，凑满23位，指数需要加中间数后变成二进制，即 3 + 127 = 130，二进制中为：10000010，所以是：