图解表连接

join算法，常见的有以下几种：

Ø Nested Loop join：思路很简单，相当于两层循环遍历，外层是驱动表，返回满足关联条件的行。适用于驱动表小(经过条件过滤后)，而被驱动表上join字段有索引的情况。在两表都很大时效率很差。

for each row R1 in the outer table for each row R2 in the inner table if R1 joins with R2 return (R1, R2)

Ø Sort-merge join：思路也很简单，就是按join字段排序，然后进行归并排序。当join字段存在重复值时，相当于每个重复值形成了一个分区。Join字段是否排序和重复值的多少决定了sort-merge的效率。适用于两表都很大的情况，尤其当join字段上存在聚集索引时(相当于已经排好序了)，效率很高。算法主要消耗在磁盘上。

Ø Hash join：类似于存在重复值情况时的sort-merge，只不过是人为的使用哈希函数进行分区。思路是扫描小表建立哈希表(build阶段，小表也叫build表)，然后逐行扫描大表进行比较(probe阶段，大表也叫probe表)。适用于两表都很大又没有索引的情况，限制是只适用于等值连接。算法主要消耗在CPU上。

此外，对于子查询还有semi join和anti join等算法。

最后将查询树变成物理操作树，也就是真正的执行计划。然后根据集群的资源情况，调度到合适的结点上进行并行计算。

参考资料

1 Parallel Query Processing