SQL SERVER技术内幕之6 集合查询

1.定义

集合运算会对两个输入查询的结果集进行逐行比较，根据比较结果和所使用的集合运算来确定某一行是否应该包含在集合运算的结果中。因为集合运算是针对集合之间进行的计算，所以集合运算涉及的两个查询不能包含Order By子句。包含Order By子句的查询可以确保结果的排列顺序，因此，这样的查询返回的不是集合，而是游标。

ANSI SQL对每种集合运算都支持两个选项:DISTINCT(默认值)和ALL，DISTINCT逻辑上可以从两个输入的多集中消除重复的行，然后返回一个集合。ALL对两个多集进行运算时不会删除重复行，而是会返回一个可能包含重复行的多集。SQL Server 2008均支持DISTINCT选项，但只在UNION中支持ALL选项。

2.特征

(1)参与集合运算的两个集合必须包含相同的列数，而且相应列必须具有兼容的数据类型，所谓”兼容的数据类型”是指优先级较低的数据类型必须能隐式地转换为较高级的数据类型
(2)集合运算结果中的列名由第一个查询决定，因此，如果要为结果列分配别名，应该在第一个查询中分配相应的别名。
(3)集合运算对行进行比较时，认为两个NULL是相等的。

3.UNION(并集)集合运算
两个集合的并集是指如果一个元素属于任何一个输入集合，那么它也属于结果集。
(1)UNION ALL集合运算
UNION ALL集合运算返回在输入的多集中出现的所有行，它实际上不会对行进行比较，也不会删除重复行。查询查询Query1返回m行，查询Query2返回n行，则Query 1 UNION ALL Query 2返回 m + n行。因为Union ALL不会删除重复行，所以它的结果是多集，而不是真正的集合。
(2)UNION DISTINCT
UNION集合运算通过删除重复的记录，生成的结果是一个真正的集合，而不是多集。

4.INTERSECT(交集)集合运算

在集合论中，两个集合(记为集合A和B)的交集是指由既属性A，也属于B的所有元素组成的集合。
(1)INTERSECT ALL集合运算
但INTERSECT ALL与UNION ALL有所不同:前者不会返回所有的重复行，而只返回重复行数目较少的那个多集中的所有重复行。如果行R在集合A中出现了x次，在集合B中出现了y次，则行R应该在运算的结果中出现min(x , y)次。
虽然SQL Server不支持内建的INTERSECT ALL运算，但用其他解决方案也能生成相同的结果。可以用ROW_NUMBER函数来计算每个输入查询中每行的出现次数，在函数的PARTITION BY子句中指定所有参与集合运算的行，并在ORDER BY子句中用SELECT <常量>来表明行的排列顺序不重要。以下是完整解决方案:

5.EXCEPT(差集集合运算)
在集合论中，集合A与集合B的差集是由属于集合A，但不属于集合B的元素组成的集合。
(1)EXCEPT ALL集合运算
假设行R在集合A中出现了x次，在集合B中出现了y次，且x>y，则在A EXCEPT ALL B中，R出现了x-y次。解决方案可以参照INTERSECT ALL集合运算的解决方案

6.集合运算的优先级
SQL定义了集合运算之间的优先级。INTERSECT运算比UNION和EXCEPT运算的优先级高，而UNION和EXCEPT的优先级相等。

7.避开不支持的逻辑查询处理
(1)只有Order by阶段才允许直接应用于集合运算的结果，示例如下:

如果要对集合运算的结果应用除ORDER BY以外的其他逻辑阶段，应该怎么办?通过使用表表可以轻易避开这个限制。