基础算法中的排序算法归纳

《突围算法》《大数据时代的算法》《神经网络与深度学习》

排序算法是最为常用的基础算法之一。排序是数值计算基础，本节将着重于高效的内排序算法。分治法作为排序中较为重要的思想，核心在于“分而治之，各个击破”。

一般情况下的思想是通过两两比较进行排序，实际产品环境中采用两两比较虽然理论上可以解决现实问题，但是实际上却不会采用两两比较的方式，因此本节中将会介绍性能较高的排序算法，也是实际中用得最多的方式。

一、快速排序

快速排序（Quick Sort）采用分治法的思想，把一个数值序列划分为两个子序列，然后对两个子序列再进行分治法的思想。计算过程如下：

从数值队列中选择一个基准元素。
将队列中的其它元素与基准元素比较，比基准元素小的元素放在基准元素的左边，比基准元素大的元素放在右边（降序排列则相反），则队列被基准元素划分为左右两个区间。
对两个区间的值，分别递归步骤2，使得最终形成有序的序列。

虽然上述步骤采用的是递归的方式，但是当区间小于等于1时，将会直接返回，因此不会无限制递归下去。例如对于队列数值“4 3 6 2 5”采用快速排序进行升序排列过程如下图所示。

如上图所示，以数值“4”为基准，将比其小的元素“3”、“2”放置到左边，比其大的元素“6”、“5”放置到右边，形成以4为基准的左区间和右区间，然后对左区间和右区间分别再次选择出基准元素，重复上述过程，最终得到数值序列“2 3 4 5 6”。

时间复杂度。最坏的时间复杂度 $O(n^{2})$ ，最优的时间复杂度 $O(nlogn)$ ，平均时间复杂度 $O(nlogn)$ 。
空间复杂度。快速排序的空间复杂度相对而言依然与具体的实现有关。

二、归并排序

归并排序（Merge Sort）是指将两个已经有序的序列合并成一个有序序列的排序方式。归并排序可以采用迭代的方式进行排序，例如有两组数值序列A、B，采用归并排序进行升序排序，则排序步骤如下所示：

申请存放最终合并后的数值序列存放空间，空间大小为数值序列A、B的空间之和。
初始化两个指针，分别指向数值序列A、B的首元素地址。
比较两个指针对应的值，将较小的值放入到最终存放空间，并移动较小值指针到序列的下一位。
重复上一个步骤，直到某一个指针已经指到序列的队尾，已经没有元素和另外一个序列进行比较。
将另外一个序列的剩余元素直接拷贝到最终序列存放空间的末尾。

采用的两组数值序列A、B，可以采用递归的思想，将一个大的序列拆分为两组子序列，然后对两组子序列再次进行拆分，直到每一个子序列中仅有一个元素，然后将两个只有一个元素的序列归并为一个含有两个元素的序列，再将两个含有两个元素的序列进行归并，依此类推，直到所有元素都完成归并，如下图所示。

时间复杂度。归并排序的最差时间复杂度 $O(nlogn)$ ，最优时间复杂度 $O(n)$ ，平均时间复杂度 $O(nlogn)$ 。
空间复杂度。归并排序的空间复杂度与具体实现相关，最差空间复杂度不应高于 $O(n)$ 。

三、堆排序

堆排序（Heap Sort）是基于堆的数据结构而实现的排序算法。堆是一种日常中使用较多的数据结构，对于含有N个数值序列的 $\{x_{1},x_{2},...x_{n}\}$ ，若满足 $x_{i}$ 小于等于 $k_{2i}$ 且 $k_{i}$ 小于等于（大于等于） $k_{2i+1}$ (其中1≦i≦n/2)则可以被称小根堆，小跟堆是堆顶的元素值是堆里所有元素节点中最小的值；相反，当 $x_{i}$ 大于等于 $k_{2i}$ 且 $k_{i}$ 大于等于 $k_{2i+1}$ ，即堆顶的元素值是堆里所有结点关键字中最大的堆被称作大根堆。

根据上述描述的堆性质，最小堆的第0个元素是整个堆中的最小值，最大堆的第0个元素是整个堆中的最大值。

由于堆的堆顶元素是最大值或最小值，因此可以利用此特性，每次从数组中可以直接选取出最大值或者最小值，使得每次排序变得相对简单。堆排序的实现步骤分为下列四步。

将初始元素值 $x_{1},x_{2},x_{3},...x_{n}$ 构建大顶堆(最大堆)。
将堆顶元素 $x_{i}$ 与最后一个元素 $x_{n}$ 置换，此时可将所有排序元素区分为两个部分，其中置换后的 $x_{n}$ 属于有序集合，前序元素 $\{x_{1},x_{2},...x_{n-1}\}$ 属于无序集合。
根据第二步结果，将无序集合中的元素再次进行大顶堆调整，将得到的堆顶元素与最后 $x_{n-1}$ 置换，得到有序集合 $\{ x_{n},x_{n-1}\}$ 以及无序集合 $\{x_{1},x_{2},...x_{n-2}\}$ 。
重复上述过程直到无序集合中的数据小于2，然后将有序集合与无序集合的最后一个元素合并，最终得到完整的有序集合。

排序元素的升序排序或降序排序，取决于排序过程采用的是最小堆结构还是最大堆结构。以给定数组a[6] = {18,8,5,39,20,10}为例，进行构建堆的示例。

首先将a数组中的元素构建一棵完全二叉树，如下图所示。

2. 构建初始堆。初始堆的构建过程则是从最后一个非叶子节点开始，即元素5开始，调整过程如下图所示。

3. 重复迭代进行堆排序。

通过上图所示的初始堆，则已经将整个元素集合中最大的元素39找到。因此将元素值39纳入到有序集合中，再次对剩余的无序集合进行构建最大堆，不断迭代，最终获得的有序集合元素即是由大到小的排序结果。

通过上述过程可以发现堆排序的过程实质也是一种选择性排序，它借助了数据结构的树形结构进行排序。在性能方面，堆排序的最坏时间复杂度为 $O(nlogn)$ ，最优时间复杂度为 $O(nlogn)$ 、平均时间复杂度为 $O(nlogn)$ 、最差空间复杂度为 $O(n)$ 。

四、基数排序

基数排序（Radix Sort）的原理是将数值按照位数进行切分为不同数字，然后对每一位数分别进行比较从而达到排序的目的，可以通过以下三个步骤完成。

将所有需要进行比较的数值序列统一为相同长度的位数，如果位数较短的数值，则在最前面补充0。
从位数的最低位开始，依次进行排序，得到初步的排序结果。
在上一步的排序基础上，从次低位继续开始依次进行排序后，得到新的排序结果。
重复2~3步骤，从低位向高位进行排序，最终得到完整有序的序列。

基于位的重复迭代的过程是基础排序的重要思想，例如对数组a[5]={14,27,5,100,19}利用基数排序进行升序排序如下步骤所示：

首先按照个位数进行排序，得到结果：100、14、5、27、19。
其次按照十位数进行排序，得到结果：5、100、14、19、27。
最后依据百位数进行排序，得到最终有序的结果：5、14、19、27、100。

采用基数排序进行排序时，需要注意负数的情况，并且下一次的排序依赖于上一次的排序结果。从性能方面而言，基数排序最差时间复杂度为 $O（k*n）$ ，最差空间复杂度为 $O（k*n）$ ，其中n是元素的个数， $k$ 是数值的位数， $k$ 值决定了需要进度多少轮处理。

五、外排序

前面介绍的快速排序、归并排序、基数排序等都属于内排序，内排序是指能够在内存中完成的排序方式。当计算机内存小于数据本身大小时，无法一次性将数据加载到内存，这个时候则需要采用外排序的方式。

外排序主要是针对大文件的排序，将需要排序的数据文件存放到存储器中，每次加载部分数据到内存，不断进行内存和外部存储器之间的数据交换，最终保证文件中的每个数据都完成排序。

例如有4G的数据文件需要进行排序，当前操作系统的有效可用内存为1G（不考虑其它内存消耗），则需要按照外归并排序的流程完成排序，步骤如下：

将4G的数据文件，平均拆分为1G的数据文件。
将每一份1G数据文件加载到内存，采用内排序的方式（可以是快速排序、堆排序、基数排序等的任意一种内排序）在内存中完成对该数据文件的排序，并将排序后的结果写入到文件。
然后采用四路归并的方式进行归并排序，在4个1G文件中，分别读取200M数据存入内存的输入缓冲区，共占用计算内存800M，将剩余的200M作为输出缓冲区，如下图所示。

4. 将输入缓冲区的四路数据进行归并排序，依次存入到输出缓冲区，当输出缓冲区满时，则写入到文件，当输入缓冲区中某路数据完毕之后，再向文件中读取200M数据到输入缓冲区，不断进行该过程直到所有的数据通过四路归并的方式完成排序。

在外排序中，外归并排序是最常用的方式。在上例中，采用了四路归并方式，同理还有二路归并排序、三路归并排序、多路归并排序等等。它们的共同特征在于将内存分为输入缓冲区和输出缓冲区，在输入缓冲区中加载已经有序的集合，在输出缓冲区进行归并排序，然后将输出缓冲区写入文件；不同点在于输入缓冲区数据的路数不同。

由于外排序需要在内存和存储器之间不断进行数据调度，所以它的性能相对也会较内排序更加依赖于硬件，因此若是要增强外排序的性能，可以通过以下方式改进部分处理性能：

采用多个磁盘驱动器并行的处理数据，可以加快磁盘的读写速度。
采用SSD固态硬盘的方式读取数据，机械硬盘的读写速度相对而言远远小于SSD固态硬盘。
程序可以采用多线程的方式进行数据读写。
采用多核、高频的CPU处理器也可以得到一定的优化。
程序分布式化，将程序部署于分布式计算平台。

此外，增加内存是最直接的改善外排序性能的方式，但是目前实际应用而言，数据的大小一般都远远大于计算机的内存，因此只能起到缓解作用，抛离硬件的因素，数据处理过程的并行化与分布式化是主要的改进方式。