小朋友学数据结构（11）：堆排序

（一）什么是堆

堆实际上是一棵完全二叉树，其任何一非叶节点满足性质：
Key[i]<=key[2i+1]&&Key[i]<=key[2i+2]或者
Key[i]>=Key[2i+1]&&key>=key[2i+2]，
即任何一非叶节点的关键字不大于或者不小于其左右孩子节点的关键字。
堆分为大顶堆和小顶堆，满足Key[i]>=Key[2i+1]&&key>=key[2i+2]称为大顶堆，满足 Key[i]<=key[2i+1]&&Key[i]<=key[2i+2]称为小顶堆。由上述性质可知大顶堆的堆顶的关键字肯定是所有关键字中最大的，小顶堆的堆顶的关键字是所有关键字中最小的。

（二）堆排序思想

利用大顶堆(小顶堆)堆顶记录的是最大关键字(最小关键字)这一特性，使得每次从无序中选择最大记录(最小记录)变得简单。
以大顶堆为例，其基本思想为：
a）将初始待排序关键字序列(R1,R2....Rn)构建成大顶堆，此堆为初始的无序区；
b）将堆顶元素R[1]与最后一个元素R[n]交换，此时得到新的无序区(R1,R2,......Rn-1)和新的有序区(Rn),且满足R[1,2...n-1]<=R[n];
c）由于交换后新的堆顶R[1]可能违反堆的性质，因此需要对当前无序区(R1,R2，……，Rn-1)调整为新堆，然后再次将R[1]与无序区最后一个元素交换，得到新的无序区(R1,R2....Rn-2)和新的有序区(Rn-1,Rn)。不断重复此过程直到有序区的元素个数为n-1，则整个排序过程完成。

（三）操作过程

a）初始化堆：将R[1..n]构造为堆；
b）将当前无序区的堆顶元素R[1]同该区间的最后一个记录交换，然后将新的无序区调整为新的堆。
因此对于堆排序，最重要的两个操作就是构造初始堆和调整堆，其实构造初始堆事实上也是调整堆的过程，只不过构造初始堆是对所有的非叶节点都进行调整。

（四）例子和代码

针对两步操作过程，咱们以整形数组a[]={16,7,3,20,17,8}为例。
a）第一步是构造初始堆：
首先根据该数组元素构建一个完全二叉树，得到

4-1.jpg

然后需要构造初始堆，则从最后一个非叶节点开始调整，调整过程如下：

4-2.jpg

4-3.jpg

4-4.jpg

上图中因为16，7，17三个节点不满足堆的性质，因此需要重新调整如下图：

4-5.jpg

这样就得到了初始堆。
上面的过程实际上就是每次调整都是从父节点、左孩子节点、右孩子节点三者中选择最大者跟父节点进行交换，交换之后可能造成被交换的孩子节点不满足堆的性质，因此每次交换之后要重新对被交换的孩子节点进行调整。
整个过程的实现代码如下：

#include <stdio.h>

void HeapAdjust(int *a,int i,int size)  //调整堆
{
    // 如果i是叶子 节点就不用进行调整
    if(i >= size/2)
    {
        return;
    }
    
    // i非叶子节点，开始调整
    int lchild = 2 * i + 1;     // i的左孩子节点序号
    int rchild = 2 * i + 2;     // i的右孩子节点序号
    int max = i;                // 临时变量
    if(lchild < size && a[lchild] > a[max])
    {
        max = lchild;
    }
    if(rchild < size && a[rchild] > a[max])
    {
        max = rchild;
    }
    if(max != i)
    {
        // 将a[i]与a[max]对换
        a[i]   = a[i] ^ a[max];
        a[max] = a[i] ^ a[max];
        a[i]   = a[i] ^ a[max];
        
        // 若调整之后以max为父节点的子树不是堆，则对该子树继续调整
        HeapAdjust(a, max, size);
    }
}

void BuildHeap(int *a,int size)
{
    for(int i = size/2 - 1; i >= 0; i--)    //非叶节点最大序号值为size/2
    {
        HeapAdjust(a, i, size);
    }
}

int main(int argc, const char * argv[])
{
    int a[] = {16, 7, 3, 20, 17, 8};
    int size = sizeof(a) / sizeof(int);
    BuildHeap(a, size);     // 建立堆
    
    printf("构造出初始堆");
    for(int i = 0; i < size; i++)
    {
        printf("%d ", a[i]);
    }
    
    return 0;
}

运行结果：

构造出初始堆  20 17 8 7 16 3

b）有了初始堆之后，就可以进行排序

4-6.jpg

此时3位于堆顶不满足堆的性质需要继续调整：

4-7.jpg

调整后，3、7、16这个子堆不满足堆的性质，继续调整：

4-8.jpg

这样经过第一轮调整后，得到了一个有序数组{20}和一个调整后的堆。下面继续调整：

4-9.jpg

4-10.jpg

4-11.jpg

这样经过第二轮调整后，得到一个有序数组{17，20}和一个调整后的堆。继续调整：

4-12.jpg

4-13.jpg

这样经过第三轮调整后，得到一个有序数组{16，17，20}和一个调整后的堆。继续调整：

4-14.jpg

4-15.jpg

这样经过第四轮调整后，得到一个有序数组{8，16，17，20}和一个调整后的堆。继续调整：

4-16.jpg

这样经过第五轮调整后，得到一个有序数组{7，8，16，17，20}和一个调整后的堆，这个堆只有一个元素，且一定是整个数组中的最小值，所以不用调整。
由上述过程可知，总共需要调整5轮，即sizeof(数组)-1轮。

下面给出实现的代码：

#include <stdio.h>

void HeapAdjust(int *a,int i,int size)  //调整堆
{
    // 如果i是叶子 节点就不用进行调整
    if(i >= size/2)
    {
        return;
    }
    
    // i非叶子节点，开始调整
    int lchild = 2 * i + 1;     // i的左孩子节点序号
    int rchild = 2 * i + 2;     // i的右孩子节点序号
    int max = i;                // 临时变量
    if(lchild < size && a[lchild] > a[max])
    {
        max = lchild;
    }
    if(rchild < size && a[rchild] > a[max])
    {
        max = rchild;
    }
    if(max != i)
    {
        // 将a[i]与a[max]对换
        a[i]   = a[i] ^ a[max];
        a[max] = a[i] ^ a[max];
        a[i]   = a[i] ^ a[max];
        
        // 若调整之后以max为父节点的子树不是堆，则对该子树继续调整
        HeapAdjust(a, max, size);
    }
}

void BuildHeap(int *a,int size)
{
    for(int i = size/2 - 1; i >= 0; i--)    //非叶节点最大序号值为size/2
    {
        HeapAdjust(a, i, size);
    }
}

void HeapSort(int *a,int size)    //堆排序
{
    BuildHeap(a, size);
    for(int i = size - 1; i > 0; i--)
    {
        // 交换堆顶和最后一个元素，即每次将剩余元素中的最大者放到最后面
        a[i] = a[i] ^ a[0];
        a[0] = a[i] ^ a[0];
        a[i] = a[i] ^ a[0];
        HeapAdjust(a, 0, i);      //重新调整堆顶节点成为大顶堆
    }
}

int main(int argc, const char * argv[])
{
    int a[] = {16, 7, 3, 20, 17, 8};
    int size = sizeof(a) / sizeof(int);
    HeapSort(a, size);     // 堆排序
    
    printf("堆排序后的结果 ");
    for(int i = 0; i < size; i++)
    {
        printf("%d ", a[i]);
    }
    
    return 0;
}

运行结果：

堆排序后的结果 3 7 8 16 17 20

（五）进一步分析

从上述过程可知，堆排序其实也是一种选择排序，是一种树形选择排序。只不过直接选择排序中，为了从R[1...n]中选择最大记录，需比较n-1次，然后从R[1...n-2]中选择最大记录需比较n-2次。事实上这n-2次比较中有很多已经在前面的n-1次比较中已经做过，而树形选择排序恰好利用树形的特点保存了部分前面的比较结果，因此可以减少比较次数。对于n个关键字序列，最坏情况下每个节点需比较log2(n)次，因此其最坏情况下时间复杂度为nlogn。堆排序为不稳定排序，不适合记录较少的排序。