目录
1, 排序的概念及引用
1.1 排序的概念
1.2 常见的排序算法
2, 常见排序算法的实现
2.1 插入排序
2.1.1基本思想:
2.1.2 直接插入排序
2.1.3 希尔排序( 缩小增量排序 )(面试很少问)
2.2 选择排序
2.2.1基本思想:
2.2.2 直接选择排序
2.2.3 堆排序
2.3 交换排序
2.3.1冒泡排序
2.3.2 快速排序
2.3.2 快速排序优化
2.3.3 快速排序非递归
2.3.4 快速排序总结
2.4 归并排序
2.4.1 基本思想
2.4.2 归并排序总结
2.4.3 并归排序的非递归
2.4.4 海量数据的排序问题
3,排序算法复杂度及稳定性分析
4,其他非基于比较排序(了解)
4.1 计数排序
4.2 基数排序
4.3 桶排序
1, 排序的概念及引用
1.1 排序的概念
排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。
稳定性:假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,则称这种排序算法是稳定的;否则称为不稳定的。
内部排序:数据元素全部放在内存中的排序。(比如电脑的运行内存为16G,就是放到这里面的)
外部排序:数据元素太多不能同时放在内存中,根据排序过程的要求不断在内外存之间移动数据的排序。(内外存所进行的数据交换)
常见的排序应用:商品价格排序,高校top排序
1.2 常见的排序算法
2, 常见排序算法的实现
2.1 插入排序
2.1.1基本思想:
直接插入排序是一种简单的插入排序法,其基本思想是:
把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中,直到所有的记录插入完为止,得到一个新的有序序列 。实际中我们玩扑克牌时,就用了插入排序的思想。
2.1.2 直接插入排序
比如有一组数据:
那么在数组中有一组数据:
按照插入排序的思想,要把这组数据变成有序的
直接插入排序的特性总结:
1. 元素集合越接近有序,直接插入排序算法的时间效率越高
最好情况下,是有序的时候,为O(N),所以对于插入排序来说 数据越有序 越快
2. 时间复杂度:O(N^2)
3. 空间复杂度:O(1),它是一种稳定的排序算法
4. 稳定性:稳定
使用场景:当前有一组数据,基本上趋于有序,那么就可以直接使用插入排序
优点:越有序,越快
一个稳定的排序 可以实现为不稳定的排序
但是一个不稳点的排序 无法实现为稳定的排序
2.1.3 希尔排序( 缩小增量排序 )(面试很少问)
希尔排序法又称缩小增量法。希尔排序法的基本思想是:先选定一个整数,把待排序文件中所有记录分成多个组, 所有距离为的记录分在同一组内,并对每一组内的记录进行排序。然后,取,重复上述分组和排序的工作。当到达 =1时,所有记录在统一组内排好序。
希尔排序可以理解为是插入排序的一种优化,核心逻辑就是缩小增量
逻辑:分组,分别进行插入排序
希尔排序的特性总结:
1. 稳定性:不稳点
2. 希尔排序是对直接插入排序的优化。
3. 当gap > 1时都是预排序,目的是让数组更接近于有序。当gap == 1时,数组已经接近有序的了,这样就会很快。这样整体而言,可以达到优化的效果。我们实现后可以进行性能测试的对比。
4. 希尔排序的时间复杂度不好计算,因为gap的取值方法很多,导致很难去计算,因此在好些树中给出的希尔排序的时间复杂度都不固定:
性能测试:数据有序,乱序
2.2 选择排序
2.2.1基本思想:
每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元 素排完 。
2.2.2 直接选择排序
直接选择排序的特性总结:
1. 直接选择排序思考非常好理解,但是效率不是很好。实际中很少使用
2. 时间复杂度:O(N^2)
3. 空间复杂度:O(1)
4. 稳定性:不稳定
性能测试:
2.2.3 堆排序
堆排序(Heapsort)是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种。它是通过堆来进行选择数据。需要注意的是排升序要建大堆,排降序建小堆。
堆排序的特性总结:
1. 堆排序使用堆来选数,效率就高了很多。
2. 时间复杂度:O(N*logN)
3. 空间复杂度:O(1)
4. 稳定性:不稳定
性能测试:
以目前的代码来说,还是希尔排序比较块一点,但是按照严蔚敏老师给到希尔排序时间复杂度:
O(N^1.3),要比堆排序慢一些!!!时间只是作为参考,实际上在实际开发中,要根据代码来判断
2.3 交换排序
基本思想:所谓交换,就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置,交换排序的特点是:将键值较大的记录向序列的尾部移动,键值较小的记录向序列的前部移动。
2.3.1冒泡排序
冒泡排序的特性总结:
1. 冒泡排序是一种非常容易理解的排序
2. 时间复杂度:O(N^2)
3. 空间复杂度:O(1)
4. 稳定性:稳定
到目前为止:只有两个稳定排序,插入排序,冒泡排序
优化:
2.3.2 快速排序
快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法,其基本思想为:任取待排序元素序列中的某元 素作为基准值,按照该排序码将待排序集合分割成两子序列,左子序列中所有元素均小于基准值,右子序列中所有 元素均大于基准值,然后最左右子序列重复该过程,直到所有元素都排列在相应位置上为止。
将区间按照基准值划分为左右两半部分的常见方式有:
1. Hoare法
问题一:array[right] >= tmp,可不可以不取等于?
问题二:为什么先走右边?
所以:先走左边会导致最后相遇的地方是比基准6大的数据,交换完了之后会把大于基准的值交换到前面来!!!
性能测试:因为本身是递归的,当数据量非常大的情况下,与导致溢出,递归的层次太多了,栈只有两百多k(可修改idea的栈大小),当运行快排的时候,没有经过优化处理,出现栈溢出是正常
2. 挖坑法
3. 前后指针法(了解即可)
2.3.2 快速排序优化
以挖坑法来说。
刚刚说过,当数组给定的数据是一组有序的情况下,就会出现单分支的情况,那么快排的效率就很低,时间复杂度达到O(N^2)
1. 三数取中法选key
此时我们再次测试栈就不会溢出了:减少了递归层次
2. 递归到小的子区间时,可以考虑使用插入排序
因为排序一定是越排越有序,当一个区间越来越小,当趋近于有序的情况下,插入排序效率是最高的,所以递归到子区间,可以使用插入排序,还有快速排序的递归相当于是一颗二叉树,在快排递归的过程当中,每一个底树都要遍历到,对于任何一颗满二叉树来说,后两层的节点是最多的,这些节点都要递归,那么在小区间使用插入排序的话,后面的节点就可以不用递归了,所以总共不递归的区间范围更多
有一点效果,稍微快一点
2.3.3 快速排序非递归
2.3.4 快速排序总结
1. 快速排序整体的综合性能和使用场景都是比较好的,所以才敢叫快速排序
2. 时间复杂度:O(N*logN)
时间复杂度:最好情况下,为树的高度乘以N,O(nlog2n),在最坏情况下,如是1,2,3,4,5给他进行排序,每次递归完都没有左树,就是一个单分支的树,树的高度即为N,相当于right一直找都没有找到,直到与left相遇,那么1就为基准,那么时间复杂度即为O(N^2),但是一般情况下,对于快速排序的时间复杂度,我们通常说的是最好情况下:O(n倍的log以2为底的n),前提是每次分割都是平均分割,所以快速排序场景不能基本趋于有序的情况,用于乱序。所以后面会对代码进行优化,让他趋于n倍的logn
之前讲过的堆排序也是这个时间复杂度,但是还是快速排序快!!!
3. 空间复杂度:O(logN),即为树的高度
4. 稳定性:不稳定
练习:
2.4 归并排序
2.4.1 基本思想
归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。 归并排序核心步骤
2.4.2 归并排序总结
1. 归并的缺点在于需要O(N)的空间复杂度,归并排序的思考更多的是解决在磁盘中的外排序问题。
2. 时间复杂度:O(N*logN),N*树的高度
3. 空间复杂度:O(N)
4. 稳定性:稳定
性能测试:
但是要说快,还是快排快!!!
2.4.3 并归排序的非递归
2.4.4 海量数据的排序问题
外部排序:排序过程需要在磁盘等外部存储进行的排序
前提:内存只有 1G,需要排序的数据有 100G
因为内存中因为无法把所有数据全部放下,所以需要外部排序,而归并排序是最常用的外部排序
1. 先把文件切分成 200 份,每个 512 M
2. 分别对 512 M 排序,因为内存已经可以放的下,所以任意排序方式都可以
3. 进行2路归并,同时对 200 份有序文件做归并过程,最终结果就有序了
练习:
3,排序算法复杂度及稳定性分析
4,其他非基于比较排序(了解)
4.1 计数排序
思想:计数排序又称为鸽巢原理,是对哈希直接定址法的变形应用。
操作步骤:
1. 统计相同元素出现次数
2. 根据统计的结果将序列回收到原来的序列中
【计数排序的特性总结】
1. 计数排序在数据范围集中时,效率很高,但是适用范围及场景有限。
2. 时间复杂度:O(N+范围)
3. 空间复杂度:O(范围)
4. 稳定性:稳定
4.2 基数排序
这个空间复杂度非常的大!!!
4.3 桶排序
至此,排序就到此结束!!!