并查集算法的描述

1、概念：

在一些有N个元素的集合应用问题中，我们通常是在开始时让每个元素构成一个单元素的集合，然后按一定顺序将属于同一组的元素所在的集合合并，其间要反复查找一个元素在哪个集合中。这一类问题近几年来反复出现在信息学的国际国内赛题中，其特点是看似并不复杂，但数据量极大，若用正常的数据结构来描述的话，往往在空间上过大，计算机无法承受；即使在空间上勉强通过，运行的时间复杂度也极高，根本就不可能在比赛规定的运行时间（1～3秒）内计算出试题需要的结果，只能用并查集来描述。

2、定义：

并查集是一种树型的数据结构，用于处理一些不相交集合（Disjoint Sets）的合并及查询问题。常常在使用中以森林来表示。

集就是让每个元素构成一个单元素的集合，也就是按一定顺序将属于同一组的元素所在的集合合并。

3、操作：

初始化

把每个点所在集合初始化为其自身。

通常来说，这个步骤在每次使用该数据结构时只需要执行一次，无论何种实现方式，时间复杂度均为O(N)。

查找

查找元素所在的集合，即根节点。

合并

将两个元素所在的集合合并为一个集合。

通常来说，合并之前，应先判断两个元素是否属于同一集合，这可用上面的“查找”操作实现。

4、例题

描述

若某个家族人员过于庞大，要判断两个是否是亲戚，确实还很不容易，给出某个亲戚关系图，求任意给出的两个人是否具有亲戚关系。规定：x和y是亲戚，y和z是亲戚，那么x和z也是亲戚。如果x,y是亲戚，那么x的亲戚都是y的亲戚，y的亲戚也都是x的亲戚。

Input

第一行：三个整数n,m,p，（n< =5000,m< =5000,p< =5000），分别表示有n个人，m个亲戚关系，询问p对亲戚关系。以下m行：每行两个数Mi，Mj，1< =Mi，Mj< =N，表示Mi和Mj具有亲戚关系。接下来p行：每行两个数Pi，Pj，询问Pi和Pj是否具有亲戚关系。

Output

P行，每行一个’Yes’或’No’。表示第i个询问的答案为“具有”或“不具有”亲戚关系。

分析——问题实质

初步分析觉得本题是一个图论中判断两个点是否在同一个连通子图中的问题。对于题目中的样例，以人为点，关系为边，建立无向图如下：

图0-0-1 {请补充图解}

比如判断3和4是否为亲戚时，我们检查3和4是否在同一个连通子图中，结果是在，于是他们是亲戚。又如7和10不在同一个连通子图中，所以他们不是亲戚。

用图的数据结构的最大问题是，我们无法存下多至(M=)2 000 000条边的图，后面关于算法时效等诸多问题就免谈了。

用图表示关系过于“奢侈”了。其实本题只是一个对分离集合（并查集）操作的问题。

我们可以给每个人建立一个集合，集合的元素值有他自己，表示最开始时他不知道任何人是它的亲戚。以后每次给出一个亲戚关系a, b，则a和他的亲戚与b和他的亲戚就互为亲戚了，将a所在集合与b所在集合合并。对于样例数据的操作全过程如下：

输入关系分离集合

初始状态

(2,4) {2,4}

(5,7) {2,4} {5,7}

(1,3) {1,3} {2,4} {5,7}

(8,9) {1,3} {2,4} {5,7} {8,9}

(1,2) {1,2,3,4} {5,7} {8,9}

(5,6) {1,2,3,4} {5,6,7} {8,9}

(2,3) {1,2,3,4} {5,6,7} {8,9}

最后我们得到3个集合{1,2,3,4}, {5,6,7}, {8,9}，于是判断两个人是否亲戚的问题就变成判断两个数是否在同一个集合中的问题。如此一来，需要的数据结构就没有图结构那样庞大了。

算法需要以下几个子过程：

(1) 开始时，为每个人建立一个集合SUB-Make-Set(x)；

(2) 得到一个关系后a,b，合并相应集合SUB-Union(a,b)；

(3) 此外我们还需要判断两个人是否在同一个集合中，这就涉及到如何标识集合的问题。我们可以在每个集合中选一个代表标识集合，因此我们需要一个子过程给出每个集合的代表元SUB-Find-Set(a)。于是判断两个人是否在同一个集合中，即两个人是否为亲戚，等价于判断SUB-Find-Set(a)=SUB-Find-Set(b)。

有了以上子过程的支持，我们就有如下算法。

PROBLEM-Relations(N, M, a1,…,aM, b1,…,bM, Q, c1,…,cQ, d1,…,dQ)

1 for i←1 to N

2 do SUB-Make-Set(i)

3 for i←1 to M

4 do if SUB-Find-Set(ai) != SUB-Find-Set(bi)

5 then SUB-Union(ai, bi)

6 for i←1 to Q

7 do if SUB-Find-Set(ci)=SUB-Find-Set(di)

8 then output “Yes?”

9 else output “No?”

解决问题的关键便为选择合适的数据结构实现并查集的操作，使算法的实现效率最高。

注意事项

本题的输入数据量很大，这使得我们的程序会在输入中花去不少时间。如果你用Pascal写程序，可以用库函数SetTextBuf为输入文件设置缓冲区，这可以使输入过程加快不少。如果你是用C语言的话，就不必为此操心了，系统会自动分配缓冲区。

5、c++代码描述

 1 #include<iostream>
 2 #include<cstring>
 3 #include<cstdio>
 4 #include<cstdlib>
 5 using namespace std;
 6  
 7 int father[50002],a,b,m,n,p;
 8 int find(int x){
 9 if(father[x]!=x)
10 father[x]=find(father[x]);
11 /*
12 x代表例题中的人，father[x]中所存的数代表这一集合中所有人都与一个人有亲戚关系
13 相当于例题中第一个集合所有的元素都与第一个元素有亲戚关系
14 搜索时只要找元素所指向的father[x]=x的元素(即父元素)
15 然后比较两个元素的父元素是否相同就可以判断其关系
16 */
17 return father[x];
18 }
19 int main()
20 {
21   int i;
22   scanf("%d%d%d",&n,&m,&p);
23   for(i=1;i<=n;i++)
24     father[i]=i;
25     for(i=1;i<=m;i++)
26     {
27       scanf("%d%d",&a,&b);
28       a=find(a);
29       b=find(b);
30       father[a]=b;
31     }
32     for(i=1;i<=p;i++)
33     {
34       scanf("%d%d",&a,&b);
35       a=find(a);
36       b=find(b);
37       if(a==b)
38         printf("Yes");
39       else
40         printf("No");
41     }
42   return 0;
43 }

View Code