键树(Keyword Tree)操作(插入/删除/查询)-双链树C语言实现_20230508
- 前言
键树称为数字查找树或者搜索提示树,树的度数d≥2,树中每个结点储存的不是完整的关键字,而是只含有组成关键字的符号,常见情况为字符或数字。
双链树和Trie树是键树的两种不同的表示方法,它们有各自的特点。从其不同的储存特性来看,若键树中的结点的度较大,则采用Trie树结构较双链树更为合适,如若键树中的结点度较小,则采用双链树(Dual Linked Tree)实现则比较合理。
- 键树表示
假定需要对中文中的形式进行储存,那么键树就是其中较方便的储存形式之一。给定16个不同的姓氏,然后对此集合按照首字母、第二字母做分割,直至集合中只剩下唯一字母为止。为了方便,我们约定键树是有序树,即同一层次中兄弟结点依照所含符号自左向右有序,并约定结束符为$,它小于任何字母。
给定姓氏集合为,{CAI,CAO,LI,LAN,CHA,CHANG,WEN,CHAO,YUN,YANG,LONG,WANG,ZHAO,LIU,CHEN},通过逐个字符分割后,形成的键树。
- 双链树表示键树
以树的孩子-兄弟节点表示链树,孩子-兄弟节点表示法的好处为,它把节点关联的字符用孩子-兄弟链表串联起来,可以进行灵活搜索、删除与插入相关的操作。它的域至少包含三部分,当前的字符symbol, 如果为非叶子节点,需要定义first指针,指向根节点的第一个孩子;还需定义next指针,指向前序节点的兄弟节点,为了用单一结构体实现程序定义,在结构体中需要定义字段,标识此节点是第一个孩子还是兄弟节点,此处采用枚举数据Node Kind来实现此功能。
同时,叶子节点的infoptr指向存储该关键字的记录的指针,此时的键树称为双链树。
- 键树操作(双链树表示)
和其它的树类似,键树的常规操作分为插入操作、查找操作和删除操作,通常情况下通过插入操作可以完成整个键树的创建任务;查找操作可以通过不断搜索孩子结点,然后再兄弟链表中进行比较操作;删除操作实质上是找到一颗与其它树不相交的子树,然后删除这可子树,由于删除过程中需要考虑其它子树共享的字符,所以不能直接按照每个字符的顺序删除关键字,这样就破坏其它关键字树,使键树失去其基本结构和价值。
4.1 双链树数据表示
双链树的数据包含要插入的关键字,这里定义关键字为字符数组,同时定义其长度,然后用结构体来表达这个关键字。ch表示关键字内容,num表示数组中有效的关键字字符数量。
typedef struct KeysType
{
char ch[MAXKEYLEN];
int num;
}KeysType;
对于每个结点,要么其属于叶子结点,要么其属于分支结点;叶子结点和分支结点包含的指针类型不同,叶子结点需要最终指向关键字代表的实际记录。我们定义结点类型为枚举。
typedef enum NodeKind
{
LEAF,
BRANCH
} NodeKind;
最终我们定义双链数据的基本数据结构,在数据结构中,用共用体定义结点类型,用kind来区分结点的实际类型。
typedef struct DLTNode
{
char symbol;
NodeKind kind;
struct DLTNode *next;
union
{
Record infoptr;
struct DLTNode *first;
};
}DLTNode, *DLTree;
4.2 插入操作
在双链表中插入一个关键字,相当于在树中某个结点上插入一颗子树。具体操作需要不断对键树进行搜索,直至到某个位置,键树中无法找到合适的关键字符,则此时就代表子树插入的起点,建立子树过程中需要区分两类结点,中间结点为分支结点,最末端结点为叶子结点,需要对其infoptr指针进行赋值操作。
穿件新的结点面临两种情形,如果为头结点,那么就需要把新建立的结点插入在头结点的位置,这时候需要调用first指针;如果为非头结点,仅需要调用next指针即可。
基于上述分析,查找过程中,可以用flag对其结点类型进行标记,约定flag==0代表在孩子结点上进行插入,flag==1代表在兄弟结点之间进行相关的插入操作。
程序分为两部分,第一步为插入的位置查找以及对结点类型进行标记,第二步为实际的插入操作,通过不断建立和插入新的结点,实现关键字最终的插入操作。
在第一键树中插入关键字{CAI$ },其过程可以描述为,从根节点出发,查找’C’,由于现有键树存在’C’,继续往下查找字符‘A’,键树中字符’A’也匹配,继续往下查找,键树中不存在’I’,此时返回待待插入位置,并标记flag为0,表示插入的结点位于孩子结点(头结点)上,橙色线条表示插入需要新建立的链接之间的具体关系。
这个插入关系体现新节点和前置结点的first指针关系。
接下来我们再看一个前置结点和新节点之间为next关系的插入,在键树中插入{CHANG$ }关键字,则此条件下需要一直查找到CHA $ 的叶子结点 $ ,整个子树则需要插入在$结点之后(next关系),‘O’关键字之前,插入关键字的连接关系用橙色链条表示。
接下来我们观察其代码实现的过程,如上所述,代码实现过程分为两部分,位置查找和子树插入的过程,整体过程用flag表示待插入与前序结点为first关系还是next关系。
void dltree_insert(DLTree T, KeysType keys)
{
int flag; //flag==0, insert first; otherwise, insert next
int i;
char *str;
DLTree p;
DLTree pre_p;
DLTNode *new_node;
i=0;
flag=0;
p=T->first;
pre_p=T;
//look for the proper p and location i;
while(p && i<keys.num)
{
//插入待插入位置
while (p && keys.ch[i] > p->symbol) //默认孩子-兄弟结点为升序排列
{
flag = 1;
pre_p=p;
p = p->next;
}
//如果结点为空(兄弟结点的尾部结点)或者未查找到相关的关键字,
//循环结束,继续后续的子树插入操作
if(p==NULL || keys.ch[i] < p->symbol)
{
break;
}
else if (keys.ch[i] == p->symbol) //查找到相应关键字
{
//如果为非叶子结点,那么接下来继续通过孩子树寻找
//此时flag标记为0,
if(i<keys.num-1)
{
pre_p=p;
p=p->first;
flag=0;
}
}
i++;
}
//如果键树中不存在相同的关键字,则进行子树插入操作
//插入的循环截止条件为关键字当中的字符个数,通过字符自加,判断循环是否结束
while(i<keys.num)
{
//前面4行语句建立新节点,并且对字符赋值为keys.ch[i]
//对其next进行NULL赋值
new_node = (DLTNode *)malloc(sizeof(DLTNode));
new_node->symbol = keys.ch[i];
new_node->next=NULL;
//对孩子结点赋值新的结点,同时新节点的next链接到p指针
if (flag == 0)
{
pre_p->first = new_node;
new_node->next = p;
pre_p = new_node;
p=NULL;
}
else //对兄弟结点赋值新的结点,同时新节点的next链接到p指针
{
pre_p->next = new_node;
new_node->next = p;
pre_p = new_node;
p = NULL;
flag=0; //切换到孩子结点模式
}
if (i < keys.num - 1) //按照关键字数量分类,如果小于keys.num-1,赋值为分支结点类型
{
new_node->kind = BRANCH;
}
else //否则赋值为叶子类型
{
new_node->kind = LEAF;
str=(char *)malloc(sizeof(char)*(keys.num+1));
memset(str, 0, sizeof(char) * (keys.num + 1));
memcpy(str,keys.ch,sizeof(char)*keys.num);
new_node->infoptr=str;
}
i++;
}
}
4.3 删除操作
键树的删除操作过程也分为两步,第一步找到需要删除的位置,第二部执行相关的链接删除操作。其中难点在于找到相应的删除位置。 删除操作之前可以调用查找操作,确保待删除的关键字位于键树当中,否则如果只有部分字符相等,而且先期执行了删除操作,那么就破坏了键树的完整性。
删除操作同插入操作类似,需要记录前置关键字与待删除字符的关系,如果关系为first关系,则规定flag==0;否则为next关系,则定义flag==1。
同时我们判定某个字符是否子树删除结点的前提条件为p->first->next是否为空,如果p->first->next为空,那么就表明p所代表的字符结点为待删除关键字独享,从它开始删除子树即可完成删除操作。
假定需要删除关键字{CHANG$ },不断搜索直至关键字符’N’->first->next为NULL,这时候直接对兄弟链表进行操作,删除N结点即可,为了放置内存泄漏和野指针,如果能对N,G, $ 以及 $ 指向的记录删除操作,那么程序会更为完善。
删除操作程序
void dltree_delete(DLTree T, KeysType keys)
{
int flag; // flag==0, delete first node; otherwise, delete next node
int i;
DLTree p;
DLTree pre_p;
i=0;
flag=0;
p=T->first;
pre_p=T;
while(p && i< keys.num)
{
while(p && keys.ch[i]!= p->symbol)
{
flag=1;
pre_p = p;
p=p->next;
}
if(p && i<keys.num-1)
{
if(p->first->next==NULL)//deletion location
{
break;
}
flag = 0;
pre_p = p;
p=p->first;
}
i++;
}
if(flag==0)
{
pre_p->first=p->next;
}
else
{
pre_p->next=p->next;
}
}
4.4 查找操作
双链树的查找可如下操作,假定给定值keys.ch[0…num-1],其中keys.ch[0]值keys.ch[num-2]表示待查关键字中的num-1个字符,keys.ch[num-1]代表结束符’$'。从双链树根节点出发,顺first指针找到第一棵树的的根节点,以keys.ch[0]和此节点的symbol域进行比较,若相等,则顺first比较下一个字符,否则沿next域顺序查找。若直至空仍比较不等,则查询失败。
Record dltree_search(DLTree T, KeysType keys)
{
DLTree p;
int i;
p=T->first;
i=0;
while(p && i<keys.num)
{
while(p && keys.ch[i]!=p->symbol)
{
p=p->next;
}
if(p && i<keys.num-1)
{
p=p->first;
}
i++;
}
if(p==NULL)
{
return NULL;
}
else
{
return p->infoptr;
}
}
4.5 根节点创建函数
void dltree_root_creation(DLTree *T)
{
*T=(DLTree)malloc(sizeof(DLTNode));
(*T)->first=NULL;
(*T)->kind=BRANCH;
return;
}
- 小结
本文通过键树的介绍,并通过双链树储存结构对键树实现插入、删除和查找操作,并识别出程序的关键为查找位置以及表示first还是next为前驱,从而实现程序代码。
参考资料
- 《数据结构》严蔚敏,清华大学