一道Google面试题——基数排序思想

题目描述：

　　一个大小为n的数组，里面的数都属于范围[0，n-1]，有不确定的重复元素，找到至少一个重复元素，要求O(1)空间和O(n)时间。

算法分析：　

　　这个题目要求用O(n)的时间复杂度，这意味着只能遍历数组一次。同时还要寻找重复元素，很容易想到建立哈希表来完成，遍历数组时将每个元素映射到哈希表中，如果哈希表中已经存在这个元素则说明这就是个重复元素。因此直接使用C++ STL中的hash_set，可以方便的在O(n)时间内完成对重复元素的查找。

但是题目却在空间复杂度上有限制——要求为O(1)的空间。因此采用哈希表这种解法肯定在空间复杂度上是不符合要求的。但可以沿着哈希法的思路继续思考，题目中数组中所以数字都在范围[0， n-1]，因此哈希表的大小为n即可。因此我们实际要做的就是对n个范围为0到n-1的数进行哈希，而哈希表的大小刚好为n。对排序算法比较熟悉的同学不难发现这与一种经典的排序算法——基数排序非常类似。而基数排序的时间空间复杂度刚好符合题目要求！因此尝试使用基数排序来解这道面试题。

举例分析：

　　下面以2，4，1，5，7，6，1，9，0，2这十个数为例，展示下如何用基数排序来查找重复元素。

下标	0	1	2	3	4	5	6	7	8	9
数据	2	4	1	5	7	6	1	9	0	2

（1）由于第0个元素a[0] 等于2不为0，故交换a[0]与a[a[0]]即交换a[0]与a[2]得：

下标	0	1	2	3	4	5	6	7	8	9
数据	1	4	2	5	7	6	1	9	0	2

（2）由于第0个元素a[0] 等于1不为0，故交换a[0]与a[a[0]]即交换a[0]与a[1]得：

下标	0	1	2	3	4	5	6	7	8	9
数据	4	1	2	5	7	6	1	9	0	2

（3）由于第0个元素a[0] 等于4不为0，故交换a[0]与a[a[0]]即交换a[0]与a[4]得：

下标	0	1	2	3	4	5	6	7	8	9
数据	7	1	2	5	4	6	1	9	0	2

（4）由于第0个元素a[0] 等于7不为0，故交换a[0]与a[a[0]]即交换a[0]与a[7]得：

下标	0	1	2	3	4	5	6	7	8	9
数据	9	1	2	5	4	6	1	7	0	2

（5）由于第0个元素a[0] 等于9不为0，故交换a[0]与a[a[0]]即交换a[0]与a[9]得：

下标	0	1	2	3	4	5	6	7	8	9
数据	2	1	2	5	4	6	1	7	0	9

（6）由于第0个元素a[0] 等于2不为0，故交换a[0]与a[a[0]]即交换a[0]与a[2]，但a[2]也为2与a[0]相等，因此我们就找到了一个重复的元素——2。

下标	0	1	2	3	4	5	6	7	8	9
数据	2	1	2	5	4	6	1	7	0	9

通过上面的具体分析，得到如下代码：

 1 //GOOGLE面试题
 2 //一个大小为n的数组，里面的数都属于范围[0, n-1]，有不确定的重复元素，找到至少一个重复元素，要求O(1)空间和O(n)时间。
 3 #include <stdio.h>
 4 const int NO_REPEAT_FLAG = -1;
 5 void Swap(int &x, int &y)
 6 {
 7     int t = x;
 8     x = y;
 9     y = t;
10 }
11 //类似于基数排序，找出数组中第一个重复元素。
12 int RadixSort(int a[], int n)
13 {
14     int i;
15     for (i = 0; i < n; i++)
16     {
17         while (i != a[i])
18         {
19             if (a[i] == a[a[i]])
20                 return a[i];
21             Swap(a[i], a[a[i]]);
22         }
23     }
24     return NO_REPEAT_FLAG;
25 }
26 void PrintfArray(int a[], int n)
27 {
28     for (int i = 0; i < n; i++)
29         printf("%d ", a[i]);
30     putchar('
');
31 }
32 int main()
33 {
34     const int MAXN = 10;
35     int a[MAXN] = {2, 4, 1, 5, 7,  6, 1, 9, 0, 2};
36     printf("数组为: 
");
37     PrintfArray(a, MAXN);
38     int nRepeatNumber = RadixSort(a, MAXN);
39     if (nRepeatNumber != NO_REPEAT_FLAG)
40         printf("该数组有重复元素，此元素为%d
", nRepeatNumber);
41     else
42         printf("该数组没有重复元素
");
43     return 0;
44 }

　　整个程序的核心代码只有Radixsort()函数中短短5行左右，虽然有二重循环语句，但每个元素只会被访问一次，完成符合题目对时间复杂度的要求。

存在的问题：

　　改动了原数组的数据，那么有没有一种方法既能在满足题目时间、空间复杂度要求的前提下找到数组中的重复元素，又能不改变数组中的数据呢？

我们可以通过下面的方式实现：

 1 int Repeat(int *a, int n)
 2 {
 3     for(int i = 0; i < n; i++)
 4     {
 5         if(a[i] > 0) //判断条件
 6         {
 7             if(a[ a[i] ] < 0)
 8             {
 9                 return a[i];//已经被标上负值了，有重复
10             }
11             else 
12             {
13                 a[ a[i] ]= -a[a[i]]; //记为负
14             }
15 
16         }
17         else // 此时|a[i]|代表的值已经出现过一次了
18         {
19             if(a[-a[i]] < 0)
20             {
21                 return -a[i];//有重复找到
22             }
23             else 
24             {
25                 a[ -a[i] ] = -a[ -a[i] ];
26             }
27         }
28     }
29     return -1;//数组中没有重复的数
30 }

下面我们通过一个具体的实例分析一下：——以取负为访问标志的方法　　

　　设int a[] = {1, 2, 1}

　　　　第一步：由于a[0]等于1大于0，因此先判断下a[a[0]]即a[1]是否小于0，如果小于，说明这是第二次访问下标为1的元素，表明我们已经找到了重复元素。不是则将a[a[0]]取负，a[1]=-a[1]=-2。

　　　　第二步：由于a[1]等于-2，因此先判断下a[-a[1]]取出a[2]是否小于0，如果小于，说明这是第二次访问下标为2的元素，表明我们已经找到了重复元素。不是则将a[-a[1]]取负，a[2]=-a[2]=-1。

　　　　第三步：由于a[2]等于-1，因此判断下a[-a[2]]即a[1]是否小于0，由于a[1]在第一步中被取反过了，因此证明这是第二次访问下标为1的元素，直接返回-a[2]即可。

但是问题又一次的出现了：

　　当数组第0个元素为0且数据中只有0重复时是无法找出正确解的。只要用：

　　　　const int MAXN = 5;

　　　　 int a[MAXN] = {0, 1, 2, 3, 0};

　　这组数据来测试，就会发现该方法无法判断0是个重复出现的元素。

解决方法：

　　这个算法之所以用到了取负，是因此根据题目条件，数组中数据范围为[0，n-1]，因此可以通过判断元素是否大于0来决定这个元素是未访问过的数据还是已访问过的数据。但也正因为对0的取负是无效操作决定了这个算法存在着缺陷。要改进一下也很简单——不用取负，而用加n。这样通过判断元素是否大于等于n就能决定这个元素是未访问过的数据还是已访问过的数据。

改进代码如下：

 1 //GOOGLE面试题
 2 //一个大小为n的数组，里面的数都属于范围[0, n-1]，有不确定的重复元素，找到至少一个重复元素，要求O(1)空间和O(n)时间。
 3 #include <stdio.h>
 4 const int NO_REPEAT_FLAG = -1;
 5 int FindRepeatNumberInArray(int *a, int n)
 6 {
 7     for(int i = 0; i < n; i++)
 8     {
 9         int nRealIndex = a[i] >= n ? a[i] - n : a[i];
10         if (a[nRealIndex] >= n) //这个位置上的值大于n说明已经是第二次访问这个位置了
11             return nRealIndex;
12         else
13             a[nRealIndex] += n;
14     }
15     return NO_REPEAT_FLAG; //数组中没有重复的数
16 }
17 void PrintfArray(int a[], int n)
18 {
19     for (int i = 0; i < n; i++)
20         printf("%d ", a[i]);
21     putchar('
');
22 }
23 int main()
24 {
25     const int MAXN = 10;
26     int a[MAXN] = {2, 4, 1, 5, 7,  6, 1, 9, 0, 2};
27     printf("数组为: 
");
28     PrintfArray(a, MAXN);
29     int nRepeatNumber = FindRepeatNumberInArray(a, MAXN);
30     if (nRepeatNumber != NO_REPEAT_FLAG)
31         printf("该数组有重复元素，此元素为%d
", nRepeatNumber);
32     else
33         printf("该数组没有重复元素
");
34     return 0;
35 }