目录
一、学习目标
二、组合数据类型-结构体
结构体基本概念
结构体的声明:
小怪实战
结构体初始化
指定成员初始化的好处:
结构体成员引用
结构体指针与数组
关卡BOOS
三、结构体的尺寸
CPU字长
地址对齐
结构体的M值
可移植性
四、联合体-枚举
联合体基本概念
联合体的定义:
联合体的使用
枚举
总结
一、学习目标
- 掌握结构体的含义和用法
- 理解结构体尺寸和可移植用法
- 清楚枚举的概念和用法
二、组合数据类型-结构体
结构体基本概念
C语言提供了众多的基础类型,但现实生活中的对象一般都不是单纯的整型、浮点型或字符串,而是这些基础类型的综合体。比如一个学生,典型地应该拥有学号(整型)、姓名(字符串)、分数(浮点型)、性别(枚举)等不同侧面的属性,这些所有的属性都不应该被拆分开来,而是应该组成一个整体,代表一个完整的学生。
在C语言中,可以使用结构体来将多种不同的数据类型组装起来,形成某种现实意义的自定义的变量类型。结构体本质上是一种自定义类型。
结构体的声明:
struct 结构体标签
{
成员1;
成员2;
.....
}; // 结尾处必须有分号作为结束 ;
- 语法:
- 结构体标签,用来区分各个不同的结构体,标签可以省略,如果省略的话就无法直接定义该结构体类型的变量。
- 成员,是包含在结构体内部的数据,可以是任意的数据类型(除了函数)。
-
小怪实战
- 尝试使用结构体的知识设计一个用于描述猫或其他东西的各项属性,比如包含:颜色、重量、价值等
- 定义一个自己设计的结构体类型变量
- 从键盘中获取对应的属性并存入结构体中
- 遍历输出机构体中的数据
- 【拓展】尝试使用结构体数组来存储多个相同的事物
- 尝试使用结构体的知识设计一个用于描述猫或其他东西的各项属性,比如包含:颜色、重量、价值等
结构体初始化
结构体跟普通变量一样,涉及定义、初始化、赋值、取址、传值等等操作,这些操作绝大部分都跟普通变量别无二致,只有少数操作有些特殊性。这其实也是结构体这种组合类型的设计初衷,就是让开发者用起来比较顺手,不跟普通变量产生太多差异。
- 结构体的定义和初始化。
- 由于结构体内部拥有多个不同类型的成员,因此初始化采用与数组类似的列表方式。
- 结构体的初始化有两种方式:
-
- ①普通初始化(顺序初始化) -- 写起来方便简洁一点
- ②指定成员初始化 -- 对于后期的更新迭代具有较好的稳定性
-
- 为了能适应结构体类型的升级迭代,一般建议采用指定成员初始化。
- 示例:
// 1,普通初始化 struct node n = {100, 'x', 3.14};
// 2,指定成员初始化 struct node n = { .a = 100,
// 此处,小圆点.被称为成员引用符 .b = 'x', .c = 3.14 }
-
指定成员初始化的好处:
- 成员初始化的次序可以改变。
- 可以初始化一部分成员。
- 结构体新增了成员之后初始化语句仍然可用。
结构体成员引用
结构体成员引用符有两个:
. : 对普通的结构体变量的引用
-> : 对于结构体指针变量的引用
结构体相当于一个集合,内部包含了众多成员,每个成员实际上都是独立的变量,都可以被独立地引用。引用结构体成员非常简单,只需要使用一个成员引用符即可:
结构体变量.成员名
示例:
n.a = 200;
n.b = 'y';
n.c = 2.22;
printf("%d, %c, %lf\n", n.a, n.b, b.c);
结构体指针与数组
跟普通变量别无二致,可以定义指向结构体的指针,也可以定义结构体数组。
- 结构体指针:
struct node n = {100, 'x', 3.14};
struct node *p = &n;
// 以下语句都是等价的 printf("%d\n", n.a);
printf("%d\n", (*p).a); printf("%d\n", p->a);
// 箭头 -> 是结构体指针的成员引用符
- 结构体数组:
struct node s[5];
s[0].a = 300; s[0].b = 'z';
s[0].c = 3.45;
结构体声明语句的变形:
变形一:
在声明结构体类型时,同时定义变量,可以定义普通变量也可以是指针变量,可以一次性定义多个或一个。
// 声明结构体
struct node
{
int Num ;
char Name[32];
char Type ;
} Even, *Ptr ;
// 在声明结构体类型的同时,定义了两个变量,一个是结构体类型的变量 以及一个指针 (他们都属于全局变量)
变形二:
声明语句中省略了标签,因此无法在程序中定义出来任何的关于这个类型的变量以及指针,只能通过声明语句顺便定义的变量或指针进行访问
// 声明结构体
struct
{
int Num ;
char Name[32];
char Type ;
} Even , * Ptr ;
// 以上结构体的声明语句中省略了标签,因此无法在程序中定义出来任何的关于这个类型的变量以及指针
// 只能通过声明语句顺便定义的变量或指针进行访问
一般情况下不会轻易省略标签,而是在结构体嵌套的情况下会进行省略。
// 实际例子 (一般不会单独出现在这样子的结构体,而是会在结构体内部嵌套的小结构体中出现)
struct Stud
{
int Num ;
char Name [32];
char Type ;
struct {
float Mathematics;
float C;
float Java ;
}Achievement;
};
变形三:
在声明语句中使用typedef 给结构体取别名,使得后面在使用结构体类型的时候不需要写上struce Node 来定义变量而是可以直接使用别名来定义。
// 给 Int 取了一个别名 Even
typedef int Even;
typedef int * P_int ;
typedef struct node
{
int Num ;
char Name[32];
char Type ;
} Node, *P_Node ;
// 以后的代码中如果想要定义变量就有两个方法:
// 1. struct node a ;
// 2. Node a ;
// 以后代码中想要定义结构体类型的指针可以:
// 1. struct node * p ;
// 2. P_Node p ;
// 注意细节:
// P_Node * p ; // 当前p 为二级指针
int main(int argc, char const *argv[])
{
int Num ; // 使用 int 定义一个变量
Even Num1 ; // 使用 别名 Even 来定义一个变量
struct node a ; // 使用 struct node 定义一个变量 a
Node a1 ; // 使用 别名 Node 来定义一个变量 a1
// 一级指针
struct node * ptr ;
Node * ptr1 ;
P_Node ptr2 ;
// 二级指针如何定义
P_Node * ptr3 ;
Node ** ptr4 ;
struct node ** ptr5 ;
P_int ppp ;
printf("ppp:%ld\n" , sizeof(ppp));
return 0;
}
关卡BOOS
-
- 尝试自行编写结构体数组、结构体指针、结构体指针数组的代码实现:
- 声明
- 定义,初始化
- 访问等操作
- 编写一个怪兽管理系统实现以下功能:
- 定义一个有20个元素的结构体数组,从代码中初始化一部分
- 从键盘中获取至少两个怪兽的信息
- 怪兽的信息有:名字 、 身高 、 辐射值 、 破坏力 、 防御值 等....
- 把所有的怪兽信息进行输出
- 【拓展】根据指定属性查找怪兽
- 【拓展】修改指定怪兽的属性信息
- 【拓展】 删除指定怪兽
- 【拓展】 随机收取一名幸运怪兽
- 【拓展】 排序
- 尝试自行编写结构体数组、结构体指针、结构体指针数组的代码实现:
三、结构体的尺寸
CPU字长
字长的概念指的是处理器在一条指令中的数据处理能力,当然这个能力还需要搭配操作系统的设定,比如常见的32位系统、64位系统,指的是在此系统环境下,处理器一次存储处理的数据可以达32位或64位。
地址对齐
CPU字长确定之后,相当于明确了系统每次存取内存数据时的边界,以32位系统为例,32位意味着CPU每次存取都以4字节为边界,因此每4字节可以认为是CPU存取内存数据的一个单元。
如果存取的数据刚好落在所需单元数之内,那么我们就说这个数据的地址是对齐的,如果存取的数据跨越了边界,使用了超过所需单元的字节,那么我们就说这个数据的地址是未对齐的。
从图中可以明显看出,数据本身占据了8个字节,在地址未对齐的情况下,CPU需要分3次才能完整地存取完这个数据,但是在地址对齐的情况下,CPU可以分2次就能完整地存取这个数据。
总结:
如果一个数据满足以最小单元数存放在内存中,则称它地址是对齐的,否则是未对齐的。
地址对齐的含义用大白话说就是1个单元能塞得下的就不用2个;
2个单元能塞得下的就不用3个。
如果发生数据地址未对齐的情况,有些系统会直接罢工,有些系统则降低性能。
普通变量的m值
以32位系统为例,由于CPU存取数据总是以4字节为单元,因此对于一个尺寸固定的数据而言,当它的地址满足某个数的整数倍时,就可以保证地址对齐。这个数就被称为变量的m值。
根据具体系统的字长,和数据本身的尺寸,m值是可以很简单计算出来的。
- 举例:
char c; // 由于c占1个字节,因此c不管放哪里地址都是对齐的,因此m=1
short s; // 由于s占2个字节,因此s地址只要是偶数就是对齐的,因此m=2
int i; // 由于i占4个字节,因此只要i地址满足4的倍数就是对齐的,因此m=4
double f; // 由于f占8个字节,因此只要f地址满足4的倍数就是对齐的,因此m=4 如果是64为系统则m = 8
printf("%p\n", &c); // &c = 1*N,即:c的地址一定满足1的整数倍
printf("%p\n", &s); // &s = 2*N,即:s的地址一定满足2的整数倍
printf("%p\n", &i); // &i = 4*N,即:i的地址一定满足4的整数倍
printf("%p\n", &f); // &f = 4*N,即:f的地址一定满足4的整数倍
- 注意,变量的m值跟变量本身的尺寸有关,但它们是两个不同的概念。
- 手工干预变量的m值:
char c __attribute__((aligned(32))); // 将变量 c 的m值设置为32
- 语法:
- attribute 机制是GNU特定语法,属于C语言标准语法的扩展。
- attribute 前后都是双下划线,aligned两边是双圆括号。
- attribute 语句,出现在变量定义语句中的分号前面,变量标识符后面。
- attribute 机制支持多种属性设置,其中 aligned 用来设置变量的 m 值属性。
- 一个变量的 m 值只能提升,不能降低,且只能为正的2的n次幂。
结构体的M值
- 概念:
- 结构体的M值,取决于其成员的m值的最大值。即:M = max{m1, m2, m3, …};
- 结构体的和地址和尺寸,都必须等于M值的整数倍。
- 示例:
struct node
{
short a; // 尺寸=2,m值=2
double b; // 尺寸=8,m值=4(32) m=8(64)
char c; // 尺寸=1,m值=1
};
struct node n; // M值 = max{2, 4, 1} = 4;
- 以上结构体成员存储分析:
- 结构体的M值等于4,这意味着结构体的地址、尺寸都必须满足4的倍数。
- 成员a的m值等于2,但a作为结构体的首元素,必须满足M值约束,即a的地址必须是4的倍数
- 成员b的m值等于4 / 8 ,因此在a和b之间,需要填充 2个字节 / 6个字节 的无效数据(一般填充0)
- 成员c的m值等于1,因此c紧挨在b的后面,占一个字节即可。
- 结构体的M值为4 /8,因此成员c后面还需填充 3个 / 7个 无效数据,才能将结构体尺寸凑足 4 / 8 的倍数。
可移植性
可移植指的是相同的一段数据或者代码,在不同的平台中都可以成功运行。
- 对于数据来说,有两方面可能会导致不可移植:
- 数据尺寸发生变化 (long 类型)
- 数据相对位置发生变化 (结构体中 排列)
第一个问题,起因是基本的数据类型在不同的系统所占据的字节数不同造成的,解决办法是使用z之前通关秘籍的可移植性数据类型即可。
考虑结构体:
struct node
{
int8_t a;
int32_t b;
int64_t d; // 4 / 8
int16_t c;
};
以上结构体,在不同的的平台中,成员的尺寸是固定不变的,但由于不同平台下各个成员的m值可能会发生改变4->8,因此成员之间的相对位置可能是飘忽不定的,这对数据的可移植性提出了挑战。
解决的办法有两种:
- 第一,固定每一个成员的m值,也就是每个成员之间的塞入固定大小的填充物固定位置:
struct node
{
int8_t a __attribute__((aligned(1))); // 将 m 值固定为1
int64_t b __attribute__((aligned(8))); // 将 m 值固定为8
int16_t c __attribute__((aligned(2))); // 将 m 值固定为2
};
- 第二,将结构体压实(取消结构体内部的地址对齐),也就是每个成员之间不留任何空隙:
struct node
{
int8_t a;
int64_t b;
int16_t c;
} __attribute__((packed));
实例:
#include <stdio.h>
struct node
{
short a; // 尺寸=2,m值=2
char c; // 尺寸=1,m值=1
double b; // 尺寸=8,m值=4(32) m=8(64)
} ;
struct test // 8
{
char c1 ; // 1
int i1 ; // 4
short s1 ; // 2
double d1 ; // 8
short s2 ; //2
};
typedef struct Transplantation // 8
{
__int8_t c1 ; // 1
__int32_t i1 ; // 4
__int16_t s1 ; // 2
double d1 ; // 8
__int16_t s2 ; //2
} __attribute__((packed)) Node , *P_Node ;
int main(int argc, char const *argv[])
{
printf("%ld\n" , sizeof( struct node )); // 16
printf("%ld\n" , sizeof( struct test )); //32
printf("%ld\n" , sizeof( Node )); //17
return 0;
}
零长数组:
概念: 长度为0的数组,一般可以把数组放在结构体的最后一个成员,用于通过它来进行越界访问可能会出现在结构体后面的拓展内存空间。
实际例子:
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
typedef struct Node
{
int Num ;
char Name[32];
int Len ; // 用于描述 多申请空间的大小字节数
char Msg[0] ; // 零长数组用于访问结构体后面多申请的内存空间
} Node , * P_Node ;
int main( int argc , const char ** argv )
{
static int arr[0];
printf("%ld\n" , sizeof(arr));
printf("%p\n" , arr);
// 申请结构体的堆内存 时多申请10个字节
P_Node ptr = calloc( 1 , sizeof (Node) + 10 );
ptr->Len = 10 ; // 设置len 为10 表示 结构体 后 多申请了10 字节
ptr->Num = 34 ;
// ptr->Name = "123"
strncpy( ptr->Name , "Even" , 32 ); // 32表示最多拷贝32字节(除非遇到结束符)
// memcpy( ptr->Name , "Even" , 5 ); // 5表示必须拷贝5字节
// 通过零长数组来访问多申请的合法内存
scanf("%s" , ptr->Msg);
printf("Name:%s Num:%d msg:%s\n" ,
ptr->Name , ptr->Num , ptr->Msg);
return 0;
}
四、联合体-枚举
联合体基本概念
联合体的外在形式跟结构体非常类似,但它们有一个本质的区别:结构体中的各个成员是各自独立的,而联合体中的各个成员却共用同一块内存,因此联合体也称为共用体。
联合体各成员的堆叠效果
联合体内部成员的这种特殊的“堆叠”效果,使得联合体有如下基本特征:
- 整个联合体变量的尺寸,取决于联合体中尺寸最大的成员。
- 给联合体的某个成员赋值,会覆盖其他的成员,使它们失效。
- 联合体各成员之间形成一种“互斥”的逻辑,在某个时刻只有一个成员有效。
联合体的定义:
union 联合体标签
{
成员1;
成员2;
...
};
- 语法:
- 联合体标签,用来区分各个不同的联合体。
- 成员,是包含在联合体内部的数据,可以是任意的数据类型。
// 普通初始化:第一个成员有效(即只有100是有效的,其余成员会被覆盖)
union attr at = {100, 'k', 3.14};
// 指定成员初始化:最后一个成员有效(即只有3.14是有效的,其余成员会被覆盖)
union attr at = {
.x = 100,
.y = 'k',
.z = 3.14,
};
联合体操作
联合体的操作跟结构体形式上别无二致,但由于联合体特殊的存储特性,不管怎么初始化和赋值,最终都有且仅有一个成员是有效的。
- 初始化:
// 普通初始化:第一个成员有效(即只有100是有效的,其余成员会被覆盖)
union attr at = {100, 'k', 3.14};
// 指定成员初始化:最后一个成员有效(即只有3.14是有效的,其余成员会被覆盖)
union attr at = {
.x = 100,
.y = 'k',
.z = 3.14,
};
成员引用:
at.x = 100;
at.y = 'k';
at.z = 3.14; // 只有最后一个赋值的成员有效
printf("%d\n", at.x);
printf("%c\n", at.y);
printf("%lf\n", at.z);
指针引用:
union attr *p = &at;
p->x = 100;
p->y = 'k';
p->z = 3.14; // 只有最后一个赋值的成员有效
printf("%d\n", p->x);
printf("%c\n", p->y);
printf("%lf\n", p->z);
联合体的使用
联合体一般很少单独使用,而经常以结构体的成员形式存在,用来表达某种互斥的属性。
- 示例:
struct node
{
int a;
char b;
double c;
union attr at; // at内有三种互斥的属性,非此即彼
};
int main()
{
struct node n;
n.at.x = 100; // 使用连续的成员引用符来索引结构体中的联合体成员
}
字节序:
计算机在存储多个字节的数据时,使用什么存储策略:
-
-
- 把低有效位存储于低地址
- 把高有效位存储与低地址
-
带来的问题:
在不同字节序的计算机中传递多字节的数据可能会造成误会。
枚举
枚举类型的本质是提供一种范围受限的整型,比如用0-6表示七种颜色,用0-3表示四种状态等,但枚举在C语言中并未实现其本来应有的效果,直到C++环境下枚举才拥有原本该有的属性。
- 枚举常量列表
- enum是关键字
- spectrum是枚举常量列表标签,可以省略。省略的情况下无法定义枚举变量
enum spectrum{red, orange, yellow, green, blue, cyan, purple};
enum {reset, running, sleep, stop};
- 枚举变量
enum spectrum color = orange; // 等价于 color = 1
- 语法要点:
- 枚举常量实质上就是整型常量,首个枚举常量默认为0。
- 声明枚举常量列表时可以赋值,若不赋值,则取其前面的枚举常量的值加1。
- C语言中,枚举等价于整型,支持整型数据的一切操作。
switch(color)
{
case red:
// 处理红色...
case orange:
// 处理橙色...
case yellow:
// 处理黄色...
}
枚举数据最重要的作用,是使用有意义的单词,来替代无意义的数字,提高程序的可读性。
总结
本文细讲了打怪路上的结构体、联合体等BOSS,各位只需认真学习,即可消灭攻破它们。祝各位都可爬上C语巅峰,斩尽拦路小妖。
本文参考 粤嵌文哥 的部分课件,经过整理和修改后发布在C站。如有转载,请联系本人