数据排序之旅

1、排序的概念

排序：所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。

稳定性：假定在待排序的记录序列中，存在多个具有相同的关键字的记录，若经过排序，这些记录的相对次序保持不变，即在原序列中，r[i]=r[j]，且r[i]在r[j]之前，而在排序后的序列中，r[i]仍在r[j]之前，则称这种排序算法是稳定的；否则称为不稳定的。

内部排序：数据元素全部放在内存中的排序。

外部排序：数据元素太多不能同时放在内存中，根据排序过程的要求不断地在内外存之间移动数据的排序。

平常我们网购的时候，我们有时候会看看销售量最多的是商家或者评论最多的商家等等，这里就需要用到排序。

常见的排序算法：

2、算法实现

2.1插入排序

//插入排序  时间：O(N^2)(最好O(N))
void InsertSort(int* a, int n)
{
	for (int i = 0; i < n - 1; i++)
	{
		int end = i;
		int tmp = a[end + 1];
		while (end >= 0)
		{
			if (a[end] > a[end + 1])
			{
				Swap(&a[end], &a[end + 1]);
				end--;
			}
			else
			{
				break;
			}
		}
		a[end + 1] = tmp;
	}
}

2.2希尔排序

希尔排序就是在插入排序的基础上增加了预排序，目的就是使数组比原先有序一点。

预排序，就是设一个gap为大于1的值（不能打过数组长度），先让数据每隔gap的距离进行排序，

然后让不断gap减小，等gap为1时，就是插入排序了。

//希尔排序  时间：O(N^1.3)
void ShellSort(int* a, int n)
{
	//预排序
	int gap = n;
	while (gap > 1)
	{
		gap = gap / 3 + 1;
		for (int i = 0; i < n - gap; i += gap)
		{
			int end = i;
			int tmp = a[end + gap];
			while (end >= 0)
			{
				if (a[end] > a[end + gap])
				{
					Swap(&a[end], &a[end + gap]);
					end -= gap;
				}
				else
				{
					break;
				}
			}
			a[end + gap] = tmp;
		}
	}
}

希尔排序的时间复杂度计算涉及的数学知识比较复杂，记住O(N^1.3)就行。

2.3选择排序

选择排序就是找大和找小，最小放到第一位置和最大放到最后位置，然后设数据来记录数组的长度，减小数组长度。

//时间复杂度O(N^2)
void SelectSort(int*a,int n)
{
    int begin=0;
    int end=n-1;
    while(begin<end)
    {
        int min=begin,max=begin;
        for(int i=begin+1;i<=end;i++)
        {
            if(a[i]<a[min])
                min=i;
            if(a[i]>a[max])
                max=i;
        }
        Swap(&a[begin],&a[min]);
        if(max==begin)
            max=min;
        Swap(&a[begin],&a[max]);
        begin++;
        end--;
    }
}

2.4堆排序

//堆排序  时间：O(N * log N)
void AdjustDown(int* a, int n, int parent)
{
	int child = 2 * parent + 1;

	while (child < n)
	{
		if (child + 1 < n && a[child] < a[child + 1])
		{
			child++;
		}
		if (a[child] > a[parent])
		{
			Swap(&a[child], &a[parent]);
			parent = child;
			child = 2 * parent + 1;
		}
		else
		{
			break;
		}
	}
}
void HeapSort(int* a, int n)
{
	for (int i = (n - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(a, n, i);
	}
	int end = n - 1;
	while (end > 0)
	{
		Swap(&a[0], &a[end]);
		AdjustDown(a, end, 0);
		end--;
	}
}

2.5冒泡排序

只具有教学意义的排序。核心思想就是两两交换。

//时间复杂度O(N^2)
void BubbleSort(int* a, int n)
{
	for (int j = 0; j < n; j++)
	{
		for (int i = 1; i < n - j; i++)
		{
			if (a[i] < a[i - 1])
				Swap(&a[i], &a[i - 1]);
		}
	}
}

2.6快排

2.6.1Hoare版

这个版本的快排就是令两个数据分别指向数组的两端，在令key为数组其中一个元素的值，使key的左边都小于对应key位置的值，key右边的值都大于key位置的值，key对应的值就已经排好了，然后数组就被分为两个小数组，这跟二叉树有点相似，直接使用递归。

void QuickSort01(int* a, int left, int right)
{
	if (left >= right)
		return;
	int key = left;
	int begin = left, end = right;
	while (begin < end)
	{
		while (begin < end && a[end] >= a[key])
		{
			end--;
		}
		while (begin < end && a[begin] <= a[key])
		{
			begin++;
		}
		Swap(&a[begin], &a[end]);
	}
	Swap(&a[begin], &a[key]);
	key = begin;
	QuickSort01(a, left, key - 1);
	QuickSort01(a, key + 1, right);
}

当有很多数据时，我们希望key对应的值比较适中，不希望出现数组分半后，还是只有一个数组。

为了更快提高效率，我们在数组长度为10时，使用其他排序算法来实现，减少递归次数。

优化后：

int GetMid(int* a, int left, int right)
{
	int mid = (left + right) / 2;
	if (a[left] < a[mid])
	{
		if (a[mid] < a[right])
		{
			return mid;
		}
		else if (a[left] < a[right])
		{
			return right;
		}
		else
		{
			return left;
		}
	}
	else
	{
		if (a[mid] > a[right])
		{
			return mid;
		}
		else if (a[left] > a[right])
		{
			return right;
		}
		else
		{
			return left;
		}
	}
}
void QuickSort01(int* a, int left, int right)
{
	if (left >= right)
		return;
	//最小区间优化
	if (right - left + 1 <= 10)
	{
		InsertSort(a+left, right - left + 1);
	}
	else
	{
		//三数取中
		int mid = GetMid(a, left, right);
		Swap(&a[left], &a[mid]);
		int key = left;
		int begin = left, end = right;
		while (begin < end)
		{
			while (begin < end && a[end] >= a[key])
			{
				end--;
			}
			while (begin < end && a[begin] <= a[key])
			{
				begin++;
			}
			Swap(&a[begin], &a[end]);
		}
		Swap(&a[begin], &a[key]);
		key = begin;
		QuickSort01(a, left, key - 1);
		QuickSort01(a, key + 1, right);
	}
}

为什么要右边先走？

会出现一种情况，L找大停下了，R没有找到小，与L相遇了，与key互换位置后，逻辑就变了

左边作key，可保证相遇位置比key小，右边作key，则相遇位置比key大。

左边作key：L遇R，R先走，停下来，R的值比key小，L没有遇到大的，遇R停下了。

R遇L,R先走，找小，没有，遇L停下了。L停留的位置是上一轮交换的位置，上一轮交换把比key小的值，换到了L的位置。

2.6.2挖坑法

没有效率提升，不用分析，左边作key，右边先走的文体，也不用分析相遇位置为什么就是比key小的问题。

void QuickSort02(int* a, int left,int right)
{
	if (left >= right)
		return;
	int key = a[left];
	int begin = left, end = right;
	while (begin < end)
	{
		while ( begin < end &&a[end] >= key)
		{
			end--;
		}
		a[begin] = a[end];
		while (begin < end && a[begin] <= key)
		{
			begin++;
		}
		a[end] = a[begin];
	}
	a[begin] = key;
	QuickSort02(a, left, begin-1);
	QuickSort02(a, begin+1, right);
}

2.6.3前后指针法

//前后指针法
int _QuickSort03(int* a, int left, int right)
{
	int mid = GetMid(a, left, right);
	Swap(&a[left], &a[mid]);
	int key = left;
	int prev = left;
	int pcur = prev + 1;
	while (pcur <= right)
	{
		if (a[pcur] < a[key] && ++prev != pcur)
			Swap(&a[prev], &a[pcur]);
		pcur++;
	}
	Swap(&a[key], &a[prev]);
	return prev;
}
void QuickSort03(int* a, int left, int right)
{
	if (left >= right)
		return;
	int key = _QuickSort03(a, left, right);
	QuickSort03(a, left, key - 1);
	QuickSort03(a, key + 1, right);
}

2.6.4非递归版

非递归，要用栈来帮忙实现。再借用一下前后指针法中子函数。

void QuickSortNonR(int* a, int left,int right)
{
	ST st;
	STInit(&st);
	STPush(&st, right);
	STPush(&st, left);
	while (!STEmpty(&st))
	{
		int begin = STTop(&st);
		STPop(&st);
		int end = STTop(&st);
		STPop(&st);
		int key= _QuickSort03(a, begin, end);
		if (key + 1 < end)
		{
			STPush(&st, end);
			STPush(&st, key + 1);
		}
		if (begin < key - 1)
		{
			STPush(&st, key - 1);
			STPush(&st, begin);
		}
	}
	STDestroy(&st);
}

2.7归并排序

2.7.1递归版

归并排序的原理就是相当于把两个有序数组合成一个有序数组，而归并就是把一个数组分为很多小数组再进行排序。

/归并排序
//时间复杂度：O(N*logN)
//空间复杂度：O(N)
void _MergeSort(int* a, int* tmp, int begin, int end)
{
	if (begin >= end)
		return;
	int mid = (begin + end) / 2;
	_MergeSort(a,tmp,begin,mid);
	_MergeSort(a,tmp,mid+1,end);

	int begin1 = begin, end1 = mid;
	int begin2 = mid + 1, end2 = end;
	int i = begin;
	while (begin1 <= end1 && begin2 <= end2)
	{
		if (a[begin1] < a[begin2])
		{
			tmp[i++] = a[begin1++];
		}
		else
		{
			tmp[i++] = a[begin2++];
		}
	}
	while (begin1 <= end1)
	{
		tmp[i++] = a[begin1++];
	}
	while (begin2 <= end2)
	{
		tmp[i++] = a[begin2++];
	}
	memcpy(a+begin, tmp+begin,sizeof(int)*(end-begin+1));
}
void MergeSort(int*a,int n)
{
	int* tmp = (int*)malloc(sizeof(int) * n);
	if (tmp == NULL)
	{
		perror("malloc fail");
		return;
	}
	_MergeSort(a, tmp, 0, n-1);
	free(tmp);
	tmp = NULL;
}

2.7.2非递归版

void MergeSortNonR(int* a, int n)
{
	int* tmp = (int*)malloc(sizeof(int) * n);
	if (tmp == NULL)
	{
		perror("malloc fail");
		return;
	}
	int gap = 1;
	while (gap < n)
	{
		for (int i = 0; i < n; i += 2 * gap)
		{
			int begin1 = i, end1 = i + gap-1;
			int begin2 = i + gap, end2 = i + 2 * gap - 1;
			//第二组越界不存在，这一组就不需要归并
			if (begin2 >= n)
			{
				break;
			}
			//第二组begin2没越界，end2越界了，需要纠正一下，继续归并
			if (end2 >= n)
			{
				end2 = n - 1;
			}
			int j = i;
			while (begin1 <= end1 && begin2 <= end2)
			{
				if (a[begin1] < a[begin2])
				{
					tmp[j++] = a[begin1++];
				}
				else
				{
					tmp[j++] = a[begin2++];
				}
			}
			while (begin1 <= end1)
			{
				tmp[j++] = a[begin1++];
			}
			while (begin2 <= end2)
			{
				tmp[j++] = a[begin2++];
			}
			memcpy(a + i, tmp + i, sizeof(int) * (end2-i+1));
		}
		gap *= 2;
	}
	free(tmp);
	tmp = NULL;
}

2.8计数排序

//计数排序
//时间：O(N+range)
//只适合整数/适合范围集中 
//空间：O(range)
void CountSort(int* a, int n)
{
	int min = a[0];
	int max = a[0];
	for (int i = 0; i < n; i++)
	{
		if (a[i] > max)
		{
			max = a[i];
		}
		if (a[i] < min)
		{
			min = a[i];
		}
	}
	int range = max - min + 1;
	int* count = (int*)calloc(range, sizeof(int));
	if (count == NULL)
	{
		perror("calloc fail");
		return;
	}
	for (int i = 0; i < n; i++)
	{
		count[a[i] - min]++;
	}
	int i = 0;
	for (int j = 0; j < range; j++)
	{
		while (count[j]--)
		{
			a[i++] = j + min;
		}
	}
	free(count);
}

3.排序性能测试

void TestOP()
{
	srand(time(0));
	const int N = 100000;
	int* a1 = (int*)malloc(sizeof(int) * N);
	int* a2 = (int*)malloc(sizeof(int) * N);
	int* a3 = (int*)malloc(sizeof(int) * N);
	int* a4 = (int*)malloc(sizeof(int) * N);
	int* a5 = (int*)malloc(sizeof(int) * N);
	int* a6 = (int*)malloc(sizeof(int) * N);
	int* a7 = (int*)malloc(sizeof(int) * N);

	for (int i = 0; i < N; i++)
	{
		a1[i] = rand()+i;
		a2[i] = a1[i];
		a3[i] = a1[i];
		a4[i] = a1[i];
		a5[i] = a1[i];
		a6[i] = a1[i];
		a7[i] = a1[i];
	}
	int begin1 = clock();
	InsertSort(a1, N);
	int end1 = clock();

	int begin2 = clock();
	ShellSort(a2, N);
	int end2 = clock();

	int begin3 = clock();
	SelectSort(a3, N);
	int end3 = clock();

	int begin4 = clock();
	HeapSort(a4, N);
	int end4 = clock();

	int begin5 = clock();
	QuickSort(a5,0, N-1);
	int end5 = clock();

	int begin6 = clock();
	MergeSort(a6, N);
	int end6 = clock();

	int begin7= clock();
	BubbleSort(a7, N);
	int end7 = clock();

	printf("InsertSort:%d\n", end1 - begin1);
	printf("ShellSort:%d\n", end2 - begin2);
	printf("SelectSort:%d\n", end3 - begin3);
	printf("HeapSort:%d\n", end4 - begin4);
	printf("QuickSort:%d\n", end5 - begin5);
	printf("MergeSort:%d\n", end6 - begin6);
	printf("BubbleSort:%d\n", end7 - begin7);

	free(a1);
	free(a2);
	free(a3);
	free(a4);
	free(a5);
	free(a6);
	free(a7);
}

我们随机创建十万个数，看看那个排序快。

首先我们看看插入，希尔，堆，选择和冒泡：

这样来看冒泡和选择太慢了，与其他排序不是一个桌子的。

把选择，冒泡和插入和希尔去掉，我们来比较一下快排。

这么一比，hoare版本和挖坑法的快排性能好。

再看看归并排序：

两种都差不多。

	时间复杂度	空间复杂度	稳定性
插入排序	O(N^2)	O(1)	稳定
希尔排序	O(N^1.3)	O(1)	不稳定
选择排序	O(N^2)	O(1)	不稳定
堆排序	O(N*logN)	O(1)	不稳定
冒泡排序	O(N^2)	O(1)	稳定
快排序	O(N*logN)	O(logN)	不稳定
归并排序	O(N*logN)	O(N)	稳定