并查集

1.引出并查集

         并查集,英文译为Disjoint Set,即不相交集合。常用来解决集合相交问题。为什么叫并查集呢?这是因为并查集中包括两个主要的步骤:(1)合(2)查。不妨看看下面的例题:

   在某个城市里住着n个人,任何两个认识的人不是朋友就是敌人,而且满足:

n    我朋友的朋友是我的朋友;

n    我敌人的敌人是我的朋友;

       已知关于 n个人的m条信息(即某2个人是朋友或者敌人),假设所有是朋友的人一定属于同一个团伙,请计算该城市最多有多少团伙?

         分析:要知道有多少个团伙,就要知道每个人属于哪个团伙?还有做到的是若A属于Team1同时也属于Team2那么就要合并Team1和Team2。这就是并查集的“并”和“查”了。显然天生就要用到并查集解决这个题了。

2.并查集实现

         2.1现在来看看怎么实现并查集算法吧?主要看看并(merge)和查(find)怎么实现?

还是举个例子吧。存在下面的几个集合{1,3,7}, {4}, {2,5,9,10}, {6,8}如果用编号最小的元素标记所在集合即为set[i]。表示如下:

                                    i       1  2  3  4  5  6  7  8  9  10

                                     set[i]        1  2  1  4  2   6  1  6  2   2

对应的代码:

find1(x)

{

    return set[x];

}

Merge1(a,b)

{  

         i = min(a,b);

    j = max(a,b);

for (k=1; k<=N; k++)

{

        if (set[k] == j)

            set[k] = i;

    }

}

Find的时间复杂度为O(1),merge的时间复杂度为O(N)。那么能不能优化呢??

        

         2.2并查集中的集合要是表示成树,难道不是很顺理成章的事情吗??我们试一试吧。

                                       i       1  2  3  4  5  6  7  8  9  10

                                     set[i]        1  2   3  2  1  3  4  3  3   4

         set[i] = i , 则i表示本集合,并是集合对应树的根

         set[i] = j, j<>i, 则 j 是 i 的父节点.

 

 

         对应的数结构

                            1                                   2                                            3

                            |                                   |                                   |       |       |

                            5                                   4                                   6       8       9

                                                        |                |

                                                        7                10

代码:

find2(x)

{

   r = x;

   while (set[r] != r)

      r = set[r];

   return r;

}

merge2(a, b)

{

    if (a<b)

       set[b] = a;

    else

       set[a] = b;

}

Find的最坏的情况时间复杂度是O(N),merge的复杂度为O(1),那么这个优化了吗?这就要避免find出现最坏的情况了。其实可以将深度小的树合并到深度大的树。这样假设两棵树的深度分别为h1和h2, 则合并后的树的高度h是:

1.max(h1,h2), if h1<>h2.

2.h1+1, if h1=h2.

看看代码优化过的代码吧?(find没有变化,变化的merge)

merge3(a,b)

{

         if (height(a) == height(b))

         {

             height(a) = height(a) + 1;

         set[b] = a;

   }

   else if (height(a) < height(b))

      set[a] = b;

   else 

      set[b] = a; 

}

这样优化过后,显然树的高度不会超过logN了。这样find的复杂度也就不会是O(n)了吧。

         2.3作为一个IT应该善于思考滴,想想还能不能优化呢?这一次我们采取一种叫做路径压缩的技术进行优化。思路是这样的:第一步,找到根结点。第二步,修改查找路径上的所有节点,将它们都指向根结点。这显然可以缩短find的复杂度吧。看看代码:

find(x)

{

         r = x;

         while (set[r] <> r) //找根节点

                   r = set[r];      

         i = x;

         while (i <> r) //修改查找路径中所有节点指向根节点

         {  

                   j = set[i];

  set[i] = r;

  i = j;

}

}

 

3.总结一下:

         并查集算法的时间复杂度主要是find和merge。2.2和2.3的优化本质上都是从find上面优化的,方法都是降低树的高度。2.2是合并的降低的;2.3是查找根节点的时候降低的。另外我们在用并查集的时候,只需要调用merge的。

 

4.例子

Problem Description

某省调查城镇交通状况,得到现有城镇道路统计表,表中列出了每条道路直接连通的城镇。省政府“畅通工程”的目标是使全省任何两个城镇间都可以实现交通(但不一定有直接的道路相连,只要互相间接通过道路可达即可)。问最少还需要建设多少条道路?

 

Input

测试输入包含若干测试用例。每个测试用例的第1行给出两个正整数,分别是城镇数目N ( < 1000 )和道路数目M;随后的M行对应M条道路,每行给出一对正整数,分别是该条道路直接连通的两个城镇的编号。为简单起见,城镇从1到N编号。
注意:两个城市之间可以有多条道路相通,也就是说
3 3
1 2
1 2
2 1
这种输入也是合法的
当N为0时,输入结束,该用例不被处理。

 

Output

对每个测试用例,在1行里输出最少还需要建设的道路数目。

 

Sample Input

4 2

1 3

4 3

3 3

1 2

1 3

2 3

5 2

1 2

3 5

999 0

0

 

Sample Output

1

0

2

998

 

#include "stdio.h"

int bin[1002];

int findx(int x)

{

    int r=x;

    while(bin[r] !=r)

        r=bin[r];

    return r;

}

void merge(int x,int y)

{

    int fx,fy;

    fx = findx(x);

    fy = findx(y);

    if(fx != fy)

        bin[fx] = fy;

}

int main()

{

    int n,m,i,x,y,count;

    while(scanf("%d",&n),n)

    {

        for(i=1;i<=n;i++)

            bin[i] = i;

        for(scanf("%d",&m);m>0;m--)

        {

            scanf("%d %d",&x,&y);

            merge(x,y);

        }

        for(count=-1, i=1;i<=n;i++)

            if(bin[i] == i)

                count ++;

        printf("%d\n",count);

    }

}

 

原文地址:https://www.cnblogs.com/BeyondAnyTime/p/BeyondAnyTime.html