【数据结构(邓俊辉)学习笔记】二叉搜索树03——平衡

news2024/11/26 4:47:42

文章目录

  • 1. 极端退化
  • 2. 平均高度
  • 3. 理想 + 适度
  • 4. 歧义 = 等价
  • 5. 等价变换

1. 极端退化

二叉搜索树为我们同时实现对数据集高效的静态操作以及动态操作打开了一扇新的大门。

正如我们所看到的,从策略上,BST可以视作是试图将此前的向量结构以及列表结构优势结合起来,然而多少令我们失望的是,我们目前所实现的BST还略微显得有些粗糙,这表现为它的时间复杂度,在最坏情况下仍未得到有效地控制。
在这里插入图片描述

在上一节我们讨论了BST各种接口算法的具体实现,概括而言,无论是静态的search操作,还是动态的insert或remove操作,在最坏情况下,它们所需要的时间都线性正比于树的高度O(h),然而对于BST的高度,我们至今为止还没有任何有效的控制方法。

比如作为一种极端情况,我们假设在一棵BST中,所有的节点度数都不超过1,也就是说,从整体拓扑结构而言,这棵树实际上已经退化成了一条单链,从逻辑结构看,已经完全退化地等效为一个列表。
在这里插入图片描述
不难看出此时整棵树的高度与整棵树中节点的个数成线性正比关系,在这种情况下,无论就平均还是最坏意义而言,静态操作以及动态操作都需要高达O(n)时间。这一结论也不足为怪,因为毕竟在此时整棵树已经退化成了一条一维列表。当然,这只是一种极端的退化情况,而若要对BST的总体性能做出一个更加客观的评价,我们或许就BST的平均性能做一个系统的分析。

2. 平均高度

以下就从两种最常见的统计口径出发,针对BST的平均高度,分别给出估算的结果,首先是所谓的随机生成统计口径。
在这里插入图片描述

也就是说对于任何一组关键码词条,我们考察它所有可能的排列,对于其中任何一个排列,都假设按照这样的排列次序,将关键码依次插入一棵初始为空的树,比如当关键码总数为3时,依次插入 1 2 3 将会得到这样一棵BST。相应地,如果插入的次序是 3 2 1那么得到的将是这样一棵树,接下来,对于其它的排列,比如说 1 3 2 将得到这样一棵BST,以及其它的排列都会各自得到一棵BST,这样一种创建BST的方式称作随机生成。

不难发现,当关键码总数为n时,可能的生成序列也就是这n个关键码的全排列,总共有n!种。那么可以证明,如此所得到的n!棵BST平均高度为logn。

考察的第二种统计口径是所谓的随机组成。
在这里插入图片描述
也就是说,将所有的n个关键码视作n个互异的积木,然后在符合BST顺序性要求的前提下,考察它们总共能够拼接出多少棵拓扑结构互异的BST。可以证明,如此所得BST的总数恰好为我们熟知的Catalan(n)数,而按照这一统计口径,所有BST的平均高度为O( n \sqrt{n} n ) 。是的,你没有听错和看错的确是 n \sqrt{n} n

你现在可能会质疑,按照我们刚才所说的随机生成统计口径,累计生成的BST应该是n的阶乘种,而且对应估算出的平均树高应该是logn。那么根据这两种口径,各自所得到的结论哪一个更为可信呢?
在这里插入图片描述
我们说后者更为可信。

其原因在于前者实际上是有所重复的,这种重复性就体现在不同的关键码序列有可能会生成同一棵BST。比如对n为3的情况而言,这样两个输入序列所生成的都是这样同一棵BST。也就是说,只要第一个插入的是居中的2,那么分列于它左右的1和3究竟是按什么次序输入是没有关系的。实际上不难理解,这个结论可以进一步推广,也就是说中位数或者接近中位数的关键码越是被更早地插入,整体而言,这棵BST的高度也相应地会更低,这就意味着在前一种统计口径中,这类高度更低的BST将会以更高的重复度参与统计以及最终的平均估算,这也是为什么按照前一统计口径所得到的估算值会相对更小。

从这一观点来看,前一统计口径可以说是过于乐观了,而后一统计口径所得到的结论将更为可信。但对于在此非常在意树高的我们来说这并不是个好消息,这意味着在天然的随机意义下,这样一个高度是不能令我们满意的。

为了进一步地降低和控制这个高度值,我们应该做点什么?而且我们很快就会看到,为此我们将不得不发现并且利用一系列的技巧。

3. 理想 + 适度

为了有效地控制树的高度,我们或许首先应该弄明白,什么样的树相对而言高度是更低的。
在这里插入图片描述
我们会发现,在节点数目相对固定时,左右兄弟子树的高度越是接近全树通常也会更加倾向于高度更低。

也就是说,全树越是接近于平衡,那么它的高度也会倾向于更低,因此我们可以通过控制全树的平衡度,以控制全树的高度。

关于树的高度,有这样一个结论:由n个节点所组成的二叉树,其高度最低不会少于| l o g 2 n log_2n log2n|。因此如果某棵树的高度能够达到这样一个理想的下限,我们也称之为理想平衡的。

那么哪些树能够达到这样的理想平衡状态呢?你应该会联想起我们此前所讲过的完全二叉树——条件过于苛刻。

是的,在这样的树中,叶节点只能出现在最底层以及次底层,当然,其中最好最好不过的自然是所谓的满二叉树。然而很遗憾,这样的树在实际应用中只能是可遇而不可求的,而且即便BST在某一个时刻能够达到这样高度紧凑的形式,在接下来的动态操作过程中,这样一种完美的形式也是难以持续的。因此,所谓的理想平衡在实际应用中是不具任何意义的,是的,理想平衡出现的可能性非常非常的低,而且为了维护这样的理想平衡,我们的计算成本也相应地会十分的高昂,相对而言,我们会得不偿失。

而真正可行的方法是,我们或许应该适度地放松平衡的标准,没错,适度的放松,你或许会联想起我们此前的渐进分析,没错,那正是我们的一个法宝。

在这里插入图片描述
实际上只要能够保证全树的高度能够从渐进的意义而言不超过|logn|,那么也就可以称之为是平衡的了,因为这种平衡并非严格意义上的理想平衡,所以我们也不妨称之为适度平衡。这样一种适当的放松,但又不失原则的方法,也就是我们所谓的退一步海阔天空。

那么相应地,能够保持适度平衡的BST,也称作平衡的二叉搜索树。

在这里插入图片描述
也就是说,如果将所有的BST视作一个全集,那么BBST只是其中的一个子集,对于目前而言其中任何一棵BBST,如果经过某次操作之后,它不再保持适度平衡,也就是说会游离到这个子集之外,果真如此,就需要有一整套方法,将这棵BST重新拉回到这个子集中,使它重新成为一棵BBST。

那么我们应该采用什么样的一些方法来做到这一点呢?或者先退一步,我们来考虑一下,我们可能采用哪些方法呢?
概括而言,所有的这些方法都必须是所谓的等价变换。

4. 歧义 = 等价

所谓BST,它的本质特征就是处处局部的顺序性,以及全局的单调性。

具体来说,只需考察,它的中序遍历序列是否是单调的,然而只需考察树的遍历算法,我们就不难发现,结构不尽相同的两棵BST,它们的中序遍历序列有可能是完全雷同的,这也就是我们所说的中序遍历序列的歧义性。

在某些场合中,比如中缀表达式的求值计算,这种中序遍历序列的歧义性非常令人生厌,因为我们不得不通过一些办法来明确地辨析不同操作符之间的优先级关系。

而针对BBST这样的一个问题,歧义性却变成了一个非常重要,同时也是不可或缺的一种性质。

以这里所给出的两棵BST为例
在这里插入图片描述
不难看出,它们都是由同一组关键码所构成的,而且它们的中序遍历序列是完全一种的。然而反过来,我们也注意到,它们的拓扑结构也不尽相同。

比如在上图局部,左侧局部子树的树根是19,而在右侧却是16,当然,还可以很容易地举出更多这样的实例。

拓扑结构不尽相同,但中序遍历序列却相同的任何一对这样的BST,也就称作相互等价的BST。

等价的BST之间,在拓扑结构上,虽然不尽相同,但也有其独特的规律,这种规律概括起来有两句话。
第一,上下可变

比如在这个例子中,19和16的祖先和后代关系就有可能在两棵树中彼此颠倒,这也可以认为等价的BST在垂直方向上有一定的自由度。

然而我们的第二条规律则是左右不能乱

这里的左右自然是指中序遍历序列,确实,相对任何一个节点,居于它右侧的节点,以及居于它左侧的节点之间不能相互混淆。

那么在这样一种上下存在一定的调整余地,但左右次序却不得颠倒的规则下,又当如何实现BST之间的等价转换呢?

5. 等价变换

实际上,任何一对等价BST之间的相互转换,都可以视作是由一系列的基本操作串接而成的,而这种基本的变换无非两类,彼此对称。其中一类如下左图

在这里插入图片描述

也就是说,如果节点V拥有一个左孩子C,分别有三棵子树,在此命名为 X Y Z的子树。我们只需将这局部的两个节点以及三棵子树重新调整为这样一种拓扑连接的形式(上左图)。那么无论是在此局部,还是在它们所属的那棵全树,顺序性和单调性将依然保持,也就是说,全树依然将是一棵BST。为了对此做验证,不妨来考察在此局部的中序遍历次序。无论是在变换之前,还是变换之后,在此局部,中序遍历序列的次序必然是X C Y V 以及最后的 Z 。

从效果来看,这样一个变换,可以大致理解为是在此局部围绕着节点V 做了一个顺时针的旋转,我们称这种变换为zig,那么这种旋转的中心 V 则是zig的参数。

右图是完全对称的另一种基本操作,因为它可以理解为是围绕着节点 V 做了一次逆时针的旋转操作,形象称作为zag。

在后续的章节中,我们将会看到,包括AVL树和红黑树在内的各种BBST都分别精心地定义了某种适度平衡的准则。
在这里插入图片描述
从而使得原本在其中的任何一棵BBST,即便在经过某次操作之后,会暂时地游离到这个边界之外,我们也总是能够通过一系列精巧地等价变换,令它重新回到这个边界以内并重新成为一棵BBST。

而在设计所有这些等价变换的组合时,我们始终不要忘了,应遵循两个重要的准则。
在这里插入图片描述

一个就是所谓的局部性,也就是说,我们执行的每一次等价变换,都应该局限在某一常数规模 O(1) 的局部。比如刚刚介绍的zig和zag操作而言,它们都局限在局部的V和C两个节点处,如此它们所牵涉到的节点总数既然是常数,这类操作所需要的计算时间也可以严格控制在常数的规模O(1)。第二个需要严格遵守的是,在我们将一棵刚刚失衡的BBST重新恢复为一棵BST的过程中,累计需要执行的这样的操作的次数不要过多,比如至多不要超过O(logn)次。这样就可以有效地控制整个操作序列的长度以及总体所需要的时间。

后面会看到,任何一种BBST都必须至少满足这样一个O(logn)的基本条件,但是在进一步要求上,它们各自又有所差异。

比如对于AVL树而言,它的删除操作只能刚刚达到这个及格线,而它的插入操作却可以优化到常数O(1)。而在后面将要介绍的红黑树,也就是 Red Black Tree,则可以进一步地将这两种操作的性能同时提升到最优的常数。

那么接下来的一节,就首先来看看AVL树是如何来达到这样的及格线。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1875442.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【EI会议】2024年机械、计算机工程与材料国际会议 (MCEM 2024)

2024年机械、计算机工程与材料国际会议 (MCEM 2024) 2024 International Conference on Mechanical, Computer Engineering and Materials 【重要信息】 大会地点:广州 官网地址:http://www.ismcem.com 投稿邮箱:ismcemsub-conf.com 【注意…

云计算【第一阶段(20)】磁盘管理与文件系统 服务器硬件及RAID配置实战(三)

一、服务器硬件详解 cpu 主板 内存 硬盘 网卡 电源 raid卡 风扇 远程管理卡 1.1、硬盘尺寸 目前生产环境中主流的两种类型硬盘 3.5寸 和2.5寸硬盘 2.5寸硬盘可以通过使用硬盘托架后适用于3.5寸硬盘的服务器 但是3.5寸没法转换成2.5寸 二、RAID阵列详解 独立硬盘冗余阵…

CSF视频文件格式转换WMV格式

如果大家看过一些高校教学讲解视频的话,很可能见过这样一个难得的格式,".csf ",非常漂亮 。 用暴风影音都可以打开观看,会自动下载解码。 但是一旦我们想要利用或者上传视频的时候就麻烦了,一般网站不认这…

计算机毕业设计Python+Spark知识图谱微博预警系统 微博推荐系统 微博可视化 微博数据分析 微博大数据 微博爬虫 微博预测系统 大数据毕业设计

课题名称 基于Bert模型对微博的言论情感分析设计与实现 课题来源 课题类型 BY 指导教师 学生姓名 专 业 计算机科学与技术 学 号 开题报告内容:(调研资料的准备,设计/论文的目的、要求、思路与预期成果;…

Matplotlib绘制并列的条形图:每个类别有多个条形并排显示

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

2-19 基于matlab的薄板弯曲的算例

基于matlab的薄板弯曲的算例,利用有限元方法编制matlab程序。对二维薄板进行单元化,输出薄板结构参数及载荷,输出弯曲情况,并可视化展示。程序已调通,可直接运行。 2-19 薄板弯曲 有限元方法 薄板结构参数 - 小红书 (x…

好用的导航网站有哪些

网址导航网站是我们日常上网的一个重要工具。它们不仅可以帮助我们快速找到所需的资源和信息,还能提高我们的工作效率。以下是小编收藏的几个好用的导航网站,涵盖了办公、学习、娱乐等多个领域,分享给大家。 1. 办公人导航 办公人导航是一个…

排序算法(1)之插入排序----直接插入排序和希尔排序

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 排序之插入排序----直接插入排序和希尔排序(1) 收录于专栏【数据结构初阶】 本专栏旨在分享学习数据结构学习的一点学习笔记,欢迎大家在评论区交流讨…

【动态规划】279.完全平方数

279. 完全平方数 难度:中等 力扣地址:https://leetcode.cn/problems/perfect-squares/ 没有刷过的小伙伴们请一定要先去刷一次,然后如果感兴趣的话再阅读以下内容,便于交流 ~ 多谢支持 ~ 问题描述 给你一个整数 n ,返…

sql server启动、连接 与 navicat连接sql server

一、sql server 启动 1.搜索cmd->以管理员身份运行 2.输入以下命令 net start mssqlserver 3.服务器启动成功 二、sql server连接 1.打开ssms,输入,连接 2.右键,属性 3.连接,勾选允许远程连接到此服务器 三、navicat连接sq…

论文浅尝 | 通过基于动态文档知识图谱增强的大语言模型故事理解

笔记整理:许方舟,天津大学硕士,研究方向为知识图谱 链接:https://ojs.aaai.org/index.php/AAAI/article/view/21286 1. 动机 基于大型 Transformer 的语言模型在需要叙事理解的各种任务上取得了令人难以置信的成功,包括…

核方法总结(三)———核主成分(kernel PCA)学习笔记

一、核主成分 1.1 和PCA的区别 PCA (主成分分析)对应一个线性高斯模型(参考书的第二章),其基本假设是数据由一个符合正态分布的隐变量通过一个线性映射得到,因此可很好描述符合高斯分布的数据。然而在很多实…

基于GWO灰狼优化的多目标优化算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1灰狼优化算法原理 4.2 多目标优化问题(MOP)的帕累托最优解 4.3 基于GWO的多目标优化算法 5.完整程序 1.程序功能描述 基于GWO灰狼优化的多目标优化算法matlab仿真,目标函数…

java基于ssm+jsp 咨询交流论坛

1 管理员登录 管理员输入个人的用户名、密码登录系统,这时候系统的数据库就会在进行查找相关的信息,如果我们输入的用户名、密码不正确,数据库就会提示出错误的信息提示,同时会提示管理员重新输入自己的用户名、密码,…

Vite: 代码分割与拆包

概述 在生产环境下,为了提高页面加载性能,构建工具一般将项目的代码打包(bundle)到一 起,这样上线之后只需要请求少量的 JS 文件,大大减少 HTTP 请求。当然,Vite 也不例 外,默认情况下 Vite 利用底层打包引…

JWT跨域认证

新建shop项目 新建bean包,再其包下新建User package com.example.shop.bean;public class User {private String username;private String password;// 可以根据需要添加其他字段,比如角色、邮箱等public String getUsername() {return username;}public…

“深入解析操作系统核心:进程管理与并发艺术“

操作系统中最核心的概念是进程:这是对正在运行程序的ー个抽象 并行 并发 “在任何多道程序设计系统中,CPU由一个进程快速切换至另ー个进程,使每个进程各运行几十或几百毫秒。严格地说,在某ー个瞬间,CPU只能运行ー个进程。但在1秒钟内,它可能运行多个进程,这样就产生并行的错觉…

【漏洞复现】电信网关配置管理系统——命令执行

声明:本文档或演示材料仅供教育和教学目的使用,任何个人或组织使用本文档中的信息进行非法活动,均与本文档的作者或发布者无关。 文章目录 漏洞描述漏洞复现测试工具 漏洞描述 电信网关配置管理系统是一个用于管理和配置电信网关设备的软件系…

【C++题解】1466. 等差数

问题:1466. 等差数 类型:简单循环 题目描述: Peter 同学刚刚在学校学习了等差数列的概念。 等差数列,指的是一组数,这些数连续 2 个数的差值是相等的,比如:123,135,852…

【AI提升】AI利器Tool Call/Function Call(二):OpenAI/qwen-agent/LangChain/Ollama

上一节快速使用了Tool Call 【AI提升】AI利器Tool Call/Function Call(一) ,使用的是LangChainOllama,这一节说说为什么使用这个组合,以及其余的使用场景。 首先大家都知道,在目前AI的世界里,各大模型都还是跟着OpenA…