并查集

1.引出并查集

并查集，英文译为Disjoint Set，即不相交集合。常用来解决集合相交问题。为什么叫并查集呢？这是因为并查集中包括两个主要的步骤：（1）合并（2）查找。不妨看看下面的例题：

在某个城市里住着n个人，任何两个认识的人不是朋友就是敌人，而且满足：

n 我朋友的朋友是我的朋友；

n 我敌人的敌人是我的朋友；

已知关于 n个人的m条信息（即某2个人是朋友或者敌人），假设所有是朋友的人一定属于同一个团伙，请计算该城市最多有多少团伙？

分析：要知道有多少个团伙，就要知道每个人属于哪个团伙？还有做到的是若A属于Team1同时也属于Team2那么就要合并Team1和Team2。这就是并查集的“并”和“查”了。显然天生就要用到并查集解决这个题了。

2.并查集实现

2.1现在来看看怎么实现并查集算法吧？主要看看并（merge）和查（find）怎么实现？

还是举个例子吧。存在下面的几个集合{1,3,7}, {4}, {2,5,9,10}, {6,8}，如果用编号最小的元素标记所在集合即为set[i]。表示如下：

i 1 2 3 4 5 6 7 8 9 10

set[i] 1 2 1 4 2 6 1 6 2 2

对应的代码：

find1(x)

{

return set[x];

}

Merge1(a,b)

{

i = min(a,b);

j = max(a,b);

for (k=1; k<=N; k++)

{

if (set[k] == j)

set[k] = i;

}

Find的时间复杂度为O（1）,merge的时间复杂度为O(N)。那么能不能优化呢？？

2.2并查集中的集合要是表示成树，难道不是很顺理成章的事情吗？？我们试一试吧。

i 1 2 3 4 5 6 7 8 9 10

set[i] 1 2 3 2 1 3 4 3 3 4

set[i] = i , 则i表示本集合，并是集合对应树的根

set[i] = j, j<>i, 则 j 是 i 的父节点.

对应的数结构

1 2 3

| | | | |

5 4 6 8 9

| |

7 10

代码：

find2(x)

{

r = x;

while (set[r] != r)

r = set[r];

return r;

}

merge2(a, b)

{

if (a<b)

set[b] = a;

else

set[a] = b;

}

Find的最坏的情况时间复杂度是O(N),merge的复杂度为O(1)，那么这个优化了吗？这就要避免find出现最坏的情况了。其实可以将深度小的树合并到深度大的树。这样假设两棵树的深度分别为h1和h2, 则合并后的树的高度h是:

1.max(h1,h2), if h1<>h2.

2.h1+1, if h1=h2.

看看代码优化过的代码吧？（find没有变化，变化的merge）

merge3(a,b)

{

if (height(a) == height(b))

{

height(a) = height(a) + 1;

set[b] = a;

}

else if (height(a) < height(b))

set[a] = b;

else

set[b] = a;

}

这样优化过后，显然树的高度不会超过logN了。这样find的复杂度也就不会是O（n）了吧。

2.3作为一个IT应该善于思考滴，想想还能不能优化呢？这一次我们采取一种叫做路径压缩的技术进行优化。思路是这样的：第一步，找到根结点。第二步，修改查找路径上的所有节点，将它们都指向根结点。这显然可以缩短find的复杂度吧。看看代码：

find(x)

{

r = x;

while (set[r] <> r) //找根节点

r = set[r];

i = x;

while (i <> r) //修改查找路径中所有节点指向根节点

{

j = set[i];

set[i] = r;

i = j;

}

3．总结一下：

并查集算法的时间复杂度主要是find和merge。2.2和2.3的优化本质上都是从find上面优化的，方法都是降低树的高度。2.2是合并的降低的；2.3是查找根节点的时候降低的。另外我们在用并查集的时候，只需要调用merge的。

4．例子

Problem Description

某省调查城镇交通状况，得到现有城镇道路统计表，表中列出了每条道路直接连通的城镇。省政府“畅通工程”的目标是使全省任何两个城镇间都可以实现交通（但不一定有直接的道路相连，只要互相间接通过道路可达即可）。问最少还需要建设多少条道路？

Input

测试输入包含若干测试用例。每个测试用例的第1行给出两个正整数，分别是城镇数目N ( < 1000 )和道路数目M；随后的M行对应M条道路，每行给出一对正整数，分别是该条道路直接连通的两个城镇的编号。为简单起见，城镇从1到N编号。
注意:两个城市之间可以有多条道路相通,也就是说
3 3
1 2
1 2
2 1
这种输入也是合法的
当N为0时，输入结束，该用例不被处理。

Output

对每个测试用例，在1行里输出最少还需要建设的道路数目。

Sample Input

4 2

1 3

4 3

3 3

1 2

1 3

2 3

5 2

1 2

3 5

999 0

Sample Output

998

#include "stdio.h"

int bin[1002];

int findx(int x)

{

int r=x;

while(bin[r] !=r)

r=bin[r];

return r;

}

void merge(int x,int y)

{

int fx,fy;

fx = findx(x);

fy = findx(y);

if(fx != fy)

bin[fx] = fy;

}

int main()

{

int n,m,i,x,y,count;

while(scanf("%d",&n),n)

{

for(i=1;i<=n;i++)

bin[i] = i;

for(scanf("%d",&m);m>0;m--)

{

scanf("%d %d",&x,&y);

merge(x,y);

}

for(count=-1, i=1;i<=n;i++)

if(bin[i] == i)

count ++;

printf("%d\n",count);

}