树的广度优先搜索（上）：人际关系的六度理论是真的吗？

社交网络中的好友问题

LinkedIn、Facebook、微信、QQ 这些社交网络平台都有大量的用户。在这些社交网络中，非常重要的一部分就是人与人之间的“好友”关系。

在数学里，为了表示这种好友关系，我们通常使用图中的结点来表示一个人，而用图中的边来表示人和人之间的相识关系，那么社交网络就可以用图论来表示。而“相识关系”又可以分为单向和双向。

单向表示，两个人 a 和 b，a 认识 b，但是 b 不认识 a。如果是单向关系，我们就需要使用有向边来区分是 a 认识 b，还是 b 认识 a。如果是双向关系，双方相互认识，因此直接用无向边就够了。

从上面的例图可以看出，人与人之间的相识关系，可以有多条路径。比如，张三可以直接连接赵六，也可以通过王五来连接赵六。比较这两条通路，最短的通路长度是 1，因此张三和赵六是一度好友。也就是说，这里我用两人之间最短通路的长度，来定义他们是几度好友。照此定义，在之前的社交关系示意图中，张三、王五和赵六互为一度好友，而李四和赵六、王五为二度好友。

给定一个用户，如何优先找到他的二度好友呢？

深度优先搜索面临的问题

在使用深度优选搜索的时候，一旦遇到产生回路的边，我们需要将它过滤。具体的操作是，判断新访问的点是不是已经在当前通路中出现过，如果出现过就不再访问。

六度理论告诉我们，你的社会关系会随着关系的度数增加，而呈指数级的膨胀。这意味着，在深度搜索的时候，每增加一度关系，就会新增大量的好友。

什么是广度优先搜索？

广度优先搜索（Breadth First Search），也叫宽度优先搜索，是指从图中的某个结点出发，沿着和这个点相连的边向前走，去寻找和这个点距离为 1 的所有其他点。只有当和起始点距离为 1 的所有点都被搜索完毕，才开始搜索和起始点距离为 2 的点。当所有和起始点距离为 2 的点都被搜索完了，才开始搜索和起始点距离为 3 的点，如此类推。

广度优先搜索其实就是横向搜索一颗树啊！
尽管广度优先和深度优先搜索的顺序是不一样的，它们也有两个共同点。
第一，在前进的过程中，我们不希望走重复的结点和边，所以会对已经被访问过的点做记号，而在之后的前进过程中，就只访问那些还没有被标记的点。这一点上，广度优先和深度优先是一致的。有所不同的是，在广度优先中，如果发现和某个结点直接相连的点都已经被访问过，那么下一步就会看和这个点的兄弟结点直接相连的那些点，从中看看是不是有新的点可以访问。

在上图中，访问完结点 945 的两个子结点 580 和 762 之后，广度优先策略发现 945 没有其他的子结点了，因此就去查看 945 的兄弟结点 131，看看它有哪些子结点可以访问，因此下一个被访问的点是 906。而在深度优先中，如果到了某个点，发现和这个点直接相连的所有点都已经被访问过了，那么不会查看它的兄弟结点，而是回退到这个点的父节点，继续查看和父结点直接相连的点中是不是存在新的点。例如在上图中，访问完结点 945 的两个子结点之后，深度优先策略会回退到点 110，然后访问 110 的子结点 131。
第二，广度优先搜索也可以让我们访问所有和起始点相通的点，因此也被称为广度优先遍历。如果一个图包含多个互不连通的子图，那么从起始点开始的广度优先搜索只能涵盖其中一个子图。这时，我们就需要换一个还没有被访问过的起始点，继续广度优先遍历另一个子图。广度优先搜索可以使用同样的方式来遍历有多个连通子图的图，

如何实现社交好友推荐？

如何在记录所有已被发现的结点情况下，优先访问距离更短的点呢？仔细观察，你会发现和起始点更近的结点，会先更早地被发现。也就是说，越早被访问到的结点，越早地处理它，

这里我们需要用到队列这种先进先出（First In First Out）的数据结构。

那么在广度优先搜索中，队列是如何工作的呢？这主要分为以下几个步骤。
首先，把初始结点放入队列中。然后，每次从队列首位取出一个结点，搜索所有在它下一级的结点。接下来，把新发现的结点加入队列的末尾。重复上述的步骤，直到没有发现新的结点为止。

第 1 步，将初始结点 110 加入队列中。
第 2 步，取出结点 110，搜出下一级结点 123、879、945 和 131。
第 3 步，将点 123、879、945 和 131 加入队列的末尾。
第 4 步，重复第 2 和第 3 步，处理结点 123，将新发现结点 162 和 587 加入队列末尾。
第 5 步，重复第 2 和第 3 步，处理结点 879，没有发现新结点。
第 6 步，重复第 2 和第 3 步，处理结点 945，将新发现的结点 580 和 762 加入队列末尾。
……
第 n-1 步，重复第 2 和第 3 步，处理结点 906，没有发现新结点。
第 n 步，重复第 2 和第 3 步，处理结点 681，没有发现新的结点，也没有更多待处理的结点，整个过程结束。

用户结点 Node。这次设计的用户结点和前缀树结点 TreeNode 略有不同，包含了用户的 ID user_id，以及这个用户的好友集合。我用 HashSet 实现，便于在生成用户关系图的时候，确认是否会有重复的好友。
表示整个图的结点数组 Node[]。由于每个用户使用 user_id 来表示，所以我可以使用连续的数组表示所有的用户。用户的 user_id 就是数组的下标。
队列 Queue。由于 Java 中 Queue 是一个接口，因此需要用一个拥有具体实现的 LinkedList 类。

总结

在遍历树或者图的时候，如果使用深度优先的策略，被发现的结点数量可能呈指数级增长。如果我们更关心的是最近的相连结点，比如社交关系中的二度好友，那么这种情况下，广度优先策略更高效。也正是由于这种特性，我们不能再使用递归编程或者栈的数据结构来实现广度优先，而是需要用到具有先进先出特点的队列。