目录
- 第四章:串
- 概论
- 数据结构之串:定义、实现与存储结构
- 1. 串的定义
- 2. 串的实现方式
- 2.1 顺序存储
- 2.2 链式存储
- 3. 串的基本操作
- 4. 串的应用
- 结论
- 4.1串的定义和实现
- 4.1.1串的定义
- 4.1.2串的基本操作
- 字符集编码
- 4.1.3串的存储结构
- 1. 定长顺序存储表示
- 基本操作实现(基于方案四)
- 2. 堆分配存储表示
- 3. 串的链式存储
- 结合链表思考优缺点
- 知识回顾
第四章:串
概论
数据结构之串:定义、实现与存储结构
在计算机科学中,串(String)是由零个或多个字符组成的序列,是一种常见的数据类型。串在计算机编程中广泛应用于字符串处理、文本搜索、模式匹配等领域。本文将介绍串的定义、实现方式以及常用的存储结构。
1. 串的定义
串是由字符组成的有序序列,它是一种抽象数据类型(ADT)。串可以包含任意字符,包括字母、数字、符号以及特殊字符等。串的长度是指串中字符的个数,长度为0的串称为空串。
2. 串的实现方式
在计算机中,串的实现方式可以有两种常见的方式:顺序存储和链式存储。
2.1 顺序存储
顺序存储是将串中的字符按照顺序依次存储在一段连续的存储空间中。通常使用字符数组来实现顺序存储。例如,C语言中的字符串就是使用字符数组来表示的。
#define MAX_LENGTH 100 // 定义最大串长度
typedef struct {
char data[MAX_LENGTH]; // 字符数组存储串中的字符
int length; // 串的长度
} SeqString;
顺序存储的优点是存取效率高,可以快速访问串中任意位置的字符。但是由于需要预先分配一段连续的存储空间,对于长度不确定或者频繁插入删除操作的串,可能会造成空间浪费或频繁移动数据的问题。
2.2 链式存储
链式存储是使用链表的方式来表示串,每个节点存储一个字符。每个节点还包含一个指向下一个节点的指针。链式存储不需要预先分配一段连续的存储空间,可以根据需要动态分配和释放存储空间。
typedef struct Node {
char data; // 存储字符
struct Node* next; // 指向下一个节点的指针
} CharNode;
typedef struct {
CharNode* head; // 头指针,指向链表的头节点
int length; // 串的长度
} LinkString;
链式存储的优点是节省空间,可以灵活地处理串的长度变化,但是存取效率较低,需要从头节点开始依次遍历串中的字符。
3. 串的基本操作
串作为一种抽象数据类型,通常支持一些基本的操作,例如:
- 求串的长度:获取串中字符的个数。
- 比较两个串:判断两个串是否相等或大小关系。
- 串连接:将两个串连接成一个新的串。
- 子串提取:从原串中截取一部分形成一个新的串。
- 串插入和删除:在指定位置插入字符或删除字符。
4. 串的应用
串在计算机编程中有着广泛的应用,例如:
- 文本编辑器:文本编辑器中的文本内容通常使用串来表示和处理。
- 搜索引擎:搜索引擎需要对搜索关键字和网页内容进行匹配,串的模式匹配功能可以实现这一目标。
- 数据库查询:数据库中的记录通常包含字符串类型的字段,例如姓名、地址等,串的操作可以方便地进行查询和匹配。
结论
串是一种重要的数据类型,在计算机编程中有着广泛的应用。了解串的定义、实现方式和基本操作对于进行字符串处理和文本搜索等任务非常重要。在实际应用中,需要根据具体的场景和需求选择合适的存储结构和操作方法,以达到最优的性能和效率。
4.1串的定义和实现
4.1.1串的定义
-
串: 零个或多个字符组成的有限序列,如 S = ‘iPhone 11 Pro Max?’;
-
串名:S是串名;
-
串的长度:串中字符的个数n;
-
空串:n=0时的串;
-
子串:串中任意多个连续的字符组成的子序列称为该串的子串;
-
主串:包含子串的串;
-
字符在主串中的位置:某个字符在串中的序号(从1开始);
-
子串在主串中的位置:子串的第一个字符在主串中的位置;
空串 V.S 空格串:
- M = ‘’ 是空串;
- N = ’ ’ 是空格串;
串 V.S 线性表:
- 串是特殊的线性表,数据元素之间呈线性关系(逻辑结构相似);
- 串的数据对象限定为字符集:中文字符、英文字符、数字字符、标点字符…
- 串的基本操作,如增删改除通常以子串为操作对象
4.1.2串的基本操作
StrCompare(S, T) 串的比较操作,参照英文词典排序方式;若S > T,返回值>0; S = T,返回值=0 (需要两个串完全相同) ; S < T,返回值<0;
字符集编码
4.1.3串的存储结构
1. 定长顺序存储表示
#define MAXLEN 255 //预定义最大串长为255
typedef struct{
char ch[MAXLEN]; //静态数组实现(定长顺序存储)
//每个分量存储一个字符
//每个char字符占1B
int length; //串的实际长度
}SString;
串长的两种表示法:
-
方案一:用一个额外的变量length来存放串的长度(保留ch[0]);
-
方案二:用ch[0]充当length;
优点:字符的位序和数组下标相同;
缺点: 字符串长度0-2^8-1 -
方案三:没有length变量,以字符’\0’表示结尾(对应ASCII码的0);
缺点:需要从头到尾遍历; -
方案四——最终使用方案:ch[0]废弃不用,声明int型变量length来存放串的长度(方案一与方案二的结合)
基本操作实现(基于方案四)
#define MAXLEN 255
typedef struct{
char ch[MAXLEN];
int length;
}SString;
// 1. 求子串
bool SubString(SString &Sub, SString S, int pos, int len){
//子串范围越界
if (pos+len-1 > S.length) //pos+len-1是因为这样子是最后一个元素的位置
return false; //如下边的i<pos+len,就是i最大值是pos+len-1
for (int i=pos; i<pos+len; i++)
Sub.cn[i-pos+1] = S.ch[i];
Sub.length = len;
return true;
}
// 2. 比较两个串的大小
int StrCompare(SString S, SString T){
for (int i; i<S.length && i<T.length; i++){
if(S.ch[i] != T.ch[i])
return S.ch[i] - T.ch[i];
}
//扫描过的所有字符都相同,则长度长的串更大
return S.length - T.length;
}
// 3. 定位操作
int Index(SString S, SString T){
int i=1;
n = StrLength(S);
m = StrLength(T);
SString sub; //用于暂存子串
while(i<=n-m+1){ //n-m+1是最后一个能取到长m的字串的位置,所以可以等于
SubString(Sub,S,i,m);
if(StrCompare(Sub,T)!=0)
++i;
else
return i; // 返回子串在主串中的位置
}
return 0; //S中不存在与T相等的子串
}
2. 堆分配存储表示
堆存储结构的特点:仍以一组空间足够大的、地址连续的存储单元依次存放字符序列,但它们的存储空间是在程序执行过程种动态分配的 。
通常,C语言提供的串类型就是以这种存储方式实现的。由动态分配函数malloc()分配一块实际串长所需要的存储空间(“堆”),如果分配成功,则返回此空间的起始地址,作为串的基址。由free()释放串不再需要的空间
堆存储结构的优点:堆存储结构既有顺序存储结构的特点,处理(随机取子串)方便,操作中对串长又没有任何限制,更显灵活,因此在串处理的应用程序中常被采用。
//动态数组实现
typedef struct{
char *ch; //按串长分配存储区,ch指向串的基地址
int length; //串的长度
}HString;
HString S;
S.ch = (char *) malloc(MAXLINE * sizeof(char)); //基地址指针指向连续空间的起始位置
//malloc()需要手动free()
S.length;
3. 串的链式存储
typedef struct StringNode{
char ch; //每个结点存1个字符
struct StringNode *next;
}StringNode, * String;
问题:存储密度低,每个字符1B,每个指针4B(32位的机器上);
解决方案:每一个链表的结点存储多个字符——每个结点称为块——块链结构
typedef struct StringNode{
char ch[4]; //每个结点存多个个字符
struct StringNode *next;
}StringNode, * String;
结合链表思考优缺点
- 存储分配角度:链式存储的字符串无需占用连续空间,存储空间分配更灵活;
- 操作角度:若要在字符串中插入或删除某些字符,则顺序存储方式需要移动大量字符,而链式存储不用;
- 若要按位序查找字符,则顺序存储支持随机访问,而链式存储只支持顺序访;