实现插入排序、冒泡排序、选择排序、合并排序、快速排序算法（从小到大）

①插入排序

②冒泡排序

③选择排序

⑥快速排序

五种排序

现在有10亿的数据（每个数据四个字节），请快速挑选出最大的十个数，并在小规模数据上验证算法的正确性。

方法一：规模为10的插入排序

方法二：规模为10的堆排序

实现插入排序、冒泡排序、选择排序、合并排序、快速排序算法（从小到大）

首先介绍各个排序算法的设计思路以及给出各个算法的伪代码，再通过伪代码具体实现每个排序算法。

①插入排序

设计思路：

假设前N-1个数已经是有序序列了，那么将第N个数插入其中仍使其有序的方法是依次和前N-1个数进行比较，找到合适的位置安放即可。

开始时，将第一个数作为有序序列，先从第2个数开始插入，重复操作，直到排序完成。

将1，2，3，4，4，9作为插入排序的例子，如图1所示。

图1 插入排序图示

伪代码：

matlab代码

result=[];
for power=1:5
    scale=power*10000;
    count=0;
    for times=1:20
        number=randi(scale,1,scale);
        tic;
        for i=1:scale-1
            for j=i+1:-1:2
                if number(j)>number(j-1)
                    break
                else
                    temp=number(j);
                    number(j)=number(j-1);
                    number(j-1)=temp;
                end
            end
        end
        count=count+toc;           
    end
    count=count/20;
    result=[result,count];
end

算法复杂度分析：

最坏时间复杂度：O(n^2）

最好时间复杂度：O(n)

平均时间复杂度：O(n^2)

实际效率：

随机生成数据规模分别为10000，20000，30000，40000，50000的测试数据，每个数据规模记录20组的平均排序时间，数据记录如表1所示。

表1 插入排序

其中取第一个实验值作为理论值基准计算出理论值，如图2所示。

图2 插入排序

解释与分析：

由图2可知，在不同的数据规模下，插入排序的实验数据和理论计算基本一致。

②冒泡排序

设计思路：

比较相邻两个元素的大小，如果大小顺序不对则交换位置，这样一趟下来，最大的或者最小的就可以被分离出来，如此重复下去，直到排序完成。

将8，16，21，25，27，49作为冒泡排序的例子，如图3所示。

图3 冒泡排序图示

伪代码：

matlab代码

result=[];
for power=1:5
    scale=power*100;
    count=0;
    for times=1:20
        number=randi(scale,1,scale);
        tic;
        for i=scale:-1:1
            for j=1:i-1
                if number(j)>number(j+1)
                    temp=number(j);
                    number(j)=number(j+1);
                    number(j+1)=temp;
                end
            end
        end
        count=count+toc;           
    end
    count=count/20;
    result=[result,count];
end

算法复杂度分析：

最坏时间复杂度：O(n^2）

最好时间复杂度：O(n^2)

平均时间复杂度：O(n^2)

实际效率：

随机生成数据规模分别为10000，20000，30000，40000，50000的测试数据，每个数据规模记录20组的平均排序时间，数据记录如表2所示。

表2 冒泡排序

其中取第一个实验值作为理论值基准计算出理论值，如图4所示。

图4 冒泡排序

解释与分析：

由图4可知，冒泡排序的实验数据比理论计算要大，并且随着数据规模的增大，这个差距也在增大，初步分析是数据规模小，所取的理论值基准较小，加上运行环境影响所致。

③选择排序

设计思路：

每次在序列中找出最小的元素，将它与第一个元素交换位置，接着找剩下序列中最小的元素，将它与第二个元素交换位置，如此重复，直到排序完成。

将8，16，21，25，27，49作为选择排序的例子，如图5所示。

图5 选择排序图示

伪代码：

matlab代码

result=[];
for power=1:5
    scale=power*10000;
    count=0;
    for times=1:20
        number=randi(scale,1,scale);
        tic;
        for i=1:scale-1
            for j=i+1:scale
                if number(i)>number(j)
                    temp=number(j);
                    number(j)=number(i);
                    number(i)=temp;
                end
            end
        end
        count=count+toc;           
    end
    count=count/20;
    result=[result,count];
end

算法复杂度分析：

最坏时间复杂度：O(n^2）

最好时间复杂度：O(n^2)

平均时间复杂度：O(n^2)

实际效率：

随机生成数据规模分别为10000，20000，30000，40000，50000的测试数据，每个数据规模记录20组的平均排序时间，数据记录如表3所示。

表3 选择排序

其中取第一个实验值作为理论值基准计算出理论值，如图6所示。

图6 选择排序

解释与分析：

由图6可知，在不同的数据规模下，选择排序的实验数据和理论计算基本一致。

（4）归并排序

设计思路：

把序列分成很多的子序列，先每两个元素合并成一个有序序列，再每四个元素合并成一个有序序列，如此下去，直到整个序列有序。

将8，16，21，25，25*，49作为归并排序的例子，如图7所示。

图7 归并排序图示

伪代码：

matlab代码

result=[];
for power=1:5
    scale=power*100000;
    count=0;
    for times=1:20
        number=randi(scale,1,scale);
        done=zeros(1,scale);
        tic;
        step=1;
%         number=MergeSort(1,scale,number,done);
        while step<scale
            for low=1:2*step:scale
                mid=low+step-1;
                if mid>scale
                    break
                end
                high=low+2*step-1;
                if high>scale
                    high=scale;
                end
                done=Merge(low,mid,high,number,done);
            end
            step=step*2;
            number=done;
        end
        count=count+toc;           
    end
    count=count/20;
    result=[result,count];
end
% function[number]=MergeSort(low,high,number,done)
%     if low<high
%         mid=floor((low+high)/2);
%         number=MergeSort(low,mid,number,done);
%         number=MergeSort(mid+1,high,number,done);
%         number=Merge(low,mid,high,number,number);
%     end
% end
function[done]=Merge(low,mid,high,number,done)
    i=low;
    j=mid+1;
    k=low;
    while i<=mid&&j<=high
        if number(i)<=number(j)
            done(k)=number(i);
            i=i+1;
        else
            done(k)=number(j);
            j=j+1;
        end
        k=k+1;
    end
    while i<=mid
        done(k)=number(i);
        k=k+1;
        i=i+1;
    end
    while j<=high
        done(k)=number(j);
        k=k+1;
        j=j+1;
    end
end

算法复杂度分析：

最坏时间复杂度：O(nlogn）

最好时间复杂度：O(nlogn)

平均时间复杂度：O(nlogn)

实际效率：

随机生成数据规模分别为10000，20000，30000，40000，50000的测试数据，每个数据规模记录20组的平均排序时间，数据记录如表4所示。

表4 归并排序

其中取第一个实验值作为理论值基准计算出理论值，如图8所示。

图8 归并排序

解释与分析：

由图8可知，归并排序的实验数据比理论计算要大，并且随着数据规模的增大，这个差距也在增大，初步分析是数据规模较小，所取的理论值基准较小，加上运行环境影响所致。

⑥快速排序

设计思路：

先取一个中轴元素，比如第一个元素，然后根据这个中轴元素将序列分成两个子序列，一个子序列里面的元素都比中轴元素小，另一个子序列里面的元素都比中轴元素大，然后再对子序列进行这样的操作，如此重复，直到排序完成。

将8，16，21，25，25*，49作为快速排序的例子，如图9所示。

图9

伪代码：

matlab代码

result=[];
for power=1:5
    scale=power*10000;
    count=0;
    for times=1:20
        number=randi(scale,1,scale);
        tic;
        number=Quick(1,scale,number);
        count=count+toc;           
    end
    count=count/20;
    result=[result,count];
end
function[number]=Quick(low,high,number)
    i=low;
    j=high;
    pivot=number(low);
    while low<high
        while low<high&&pivot<=number(high)
            high=high-1;
        end
        if low<high
            number(low)=number(high);
            low=low+1;
        end
        while low<high&&pivot>number(low)
            low=low+1;
        end
        if low<high
            number(high)=number(low);
            high=high-1;
        end
    end
    number(low)=pivot;
    if i<low-1
        number=Quick(i,low-1,number);
    end
    if high+1<j
        number=Quick(high+1,j,number);
    end
end

算法复杂度分析：

最坏时间复杂度：O(n^2）

最好时间复杂度：O(nlogn)

平均时间复杂度：O(nlogn)

实际效率：

随机生成数据规模分别为10000，20000，30000，40000，50000的测试数据，每个数据规模记录20组的平均排序时间，数据记录如表5所示。

表5 快速排序

其中取第一个实验值作为理论值基准计算出理论值，如图10所示。

图10 快速排序

解释与分析：

由图10可知，快速排序的实验数据比理论计算要小，初步分析是数据规模小，所取的理论值基准较小，加上运行环境影响所致。

五种排序

以上五种排序实际运行效率如图11所示。

图11 五种排序比较

由图可以看出五种排序实际效率最快的是平均时间复杂度为O(nlogn)的快速排序和归并排序，然后是最优时间复杂度为O(n)的插入排序，最后是时间复杂度均为O(n^2)的冒泡排序和选择排序。

现在有10亿的数据（每个数据四个字节），请快速挑选出最大的十个数，并在小规模数据上验证算法的正确性。

算法设计思路：

对于10亿个数据从中挑选出最大的十个数，对10亿个数全部进行排序的方法显然不可取，可以通过选择排序或者冒泡排序进行10趟排序，但是这样需要进行的操作次数大概是100亿次，这里我们采取别的方法。

方法一：规模为10的插入排序

我们首先对前10个数进行降序排序，这样末尾的数是前10个数中最小的数，此后遍历剩下的10亿-10个数，对每一个数都和前10个数进行一趟插入排序，最少比较次数为1次，最多比较次数为10次，这样需要进行的操作次数大概是55亿次，比冒泡排序和选择排序减少了近一半的操作次数。

matlab代码

result=[];
for power=1:1
    scale=power*1000000000;
    count=0;
    for times=1:20
        numbers=randi(scale,1,scale);
        number=numbers(1,1:10);
        tic;
        for i=1:9
            for j=i+1:-1:2
                if number(j)<number(j-1)
                    break
                else
                    temp=number(j);
                    number(j)=number(j-1);
                    number(j-1)=temp;
                end
            end
        end
        for i=11:scale
            for j=10:-1:1
                if number(j)>=numbers(i)
                    break
                else
                    if j<10
                        number(j+1)=number(j);
                    end
                    number(j)=numbers(i);
                end
            end
        end      
        count=count+toc;           
    end
    count=count/20;
    result=[result,count];
end

实际表现：

取数据规模为100W，200W，300W，400W，500W作为测试数据，每个数据规模测试20组，记录平均运行时间，如图12所示。

图12 规模为10的插入排序

测试一些大数据的运行时间（20组平均时间）如下：

一千万：0.0390s

五千万：0.1832s

一亿：0.3727s

五亿：1.8612s

十亿：5.6923s

方法二：规模为10的堆排序

方法一的规模为10的插入排序效率已经比较高了，但是仍有不足，即将10个最大的数也进行了排序，而实际上只需要将它们挑选出来即可，考虑建立规模为10的堆排序，这样最小比较次数为1次，但最大比较次数降到了3次，挑出10个最大的数理论上大概需要进行20亿次的操作即可。

matlab代码

result=[];
for power=1:1
    scale=power*1000000000;
    count=0;
    for times=1:20
        numbers=randi(scale,1,scale);
        number=numbers(1,1:10);
        tic;
        for i=5:-1:1
            number=Adjust(i,10,number);
        end
        for i=11:scale
            if numbers(i)>number(1)
                number(1)=numbers(i);
                number=Adjust(1,10,number);
            end
        end      
        count=count+toc;           
    end
    count=count/20;
    result=[result,count];
end
function[number]=Adjust(i,m,number)
    temp=number(i);
    j=2*i;
    while j<=m
        if j<m&&number(j)>number(j+1)
            j=j+1;
        end
        if number(j)>=temp
            break
        end
        number(i)=number(j);
        i=j;
        j=j*2;
    end
    number(i)=temp;
end
% function[number]=HeapSort(number,scale)
%     for i=scale:-1:2
%         temp=number(1);
%         number(1)=number(i);
%         number(i)=temp;
%         number=Adjust(1,i-1,number);
%     end
% end

实际表现：

取数据规模为100W，200W，300W，400W，500W作为测试数据，每个数据规模测试20组，记录平均运行时间，与插入排序相比，效率明显提升，如图13所示。