Teradata Join类型

Types of Teradata Joins

Teradata joins

当我们在一列或者多个列上join两个或者多个表的时候，就发生了joining。这将会获取两个表中匹配的记录。这个通用概念对所有的数据库都是统一的。
在Teradata中，Optimizer（一个智能的解释器）用于根据用户输入决定采用的join策略以达到更高的性能。
在Teradata中，包含一些通用的join类型：
- Inner join（某些情况下是self join）
- Outer Join（Left，Right，Full）
-Cross Join（笛卡尔积）
当用户发出join查询时，optimizer会选择join计划。这些join策略包括：
- Merge Join
- Nested Join
- Hash Join
- Product Join
- Exclusion Join

Merge Join（归并连接）

Merge Join中被连接的行必须在同一AMP中。如果被连接的行不在同一AMP中，Teradata会基于where子句中涉及的列来重新分布数据或者复制spool中的数据。
如果被连接的两个表有相同的primary index，则records（记录）会在相同的AMP中，就不需要重新分布记录了。
Merge Join在下列4中情况下会发生重分布（redistribution）：
情况1：如果连接的列是UPI = UPI，则被连接的列在相同AMP中，不需要重分布。这是最快速高效的join策略
情况2：如果连接的列是UPI = Non Index column，则必须根据与第一个表的关系将第二个表中的记录重新分布到AMP
情况3：如果连接的列是Non Index column = Non Index column，则两个表都必须重新分布，使皮匹配的数据位于同一AMP上。由于两个表的完全重新分布遍历所有AMP，因此这种策略非常耗时。
情况4：对于发生在Primary Index上的join，如果参照表（join中的第二个表）很小，则这张表被拷贝到所有AMP上。

Nested Join（嵌套连接）

Nested Join是Optimizer推荐的最精确连接策略的一种。Nested Join工作在Join语句中使用的UPI/USI上，并用于从第一个表中检索单条记录。然后从第二个表中根据join中使用的index（primary或secondary）查询出匹配记录并返回匹配结果。
示例SQL：

Select EMP.Ename , DEP.Deptno, EMP.salary
from
EMPLOYEE EMP ,
DEPARTMENT DEP
Where EMP.Enum = DEP.Enum
and EMp.Enum= 2345; -- this results in nested join

Hash Join（哈希连接）

Hash Join是Optimizer基于连接条件建议的策略之一。在功能上，Hash Join与Merge Join紧密相关。Merge Join中连接发生在同一AMP中。Hash Join中，在同一AMP中的一个或两个表完全在内存中。AMP将小表保持在其内存中用于发生在Row hash上的join。
Hash Join的优势：
1.比Merge join更快速，因为大表不需要排序。
2.由于join发生的两张表一个在APM内存中，一个在不需排序的spool中，因此join速度非常快。

Exclusion Join

当查询语句中包含以下关键字时，Optimizer建议使用Exclusion Join：
-NOT IN
-EXCEPT
-MINUS
-SET 差集操作

Select EMP.Ename , DEP.Deptno, EMP.salary
from
EMPLOYEE EMP
WHERE EMP.Enum NOT IN
( Select Enum from
DEPARTMENT DEP
where Enum is NOT NULL );

请确保添加一个额外的WHERE过滤“where Enum is NOT NULL ”，因为在NOT IN中使用NULL不会返回结果。
对NOT IN查询的Exclusion Join有3种情况：
情况1：与NOT IN子查询结果匹配的行将被忽略
情况2：不匹配的将被使用
情况3：NOT IN中的任何未知结果将被忽略（NULL是这种情况的一个典型例子）。

teradata关联可分为四种策略：
1：Merge Join
2：Nested Join
3：Hash Join
4：Product Join(including Cartesian Product joins)

Merge Join 比较高效的Join：
1：通常是等值(=)关联
2：关联的数据行在同样的AMP上
3：数据已经使用ROWHASH 排序
缺点数据需要排序，如果数据量过大，非常耗时

Nested Join不同于oracle，一种最高效的Join：
1：用于等值连接
2：并且连接的字段是都PI或者UPI

Hash Join：
1：通常为等值连接
2：通常为大–小表之间的关联
3：会将小表放到内存中，或者复制到AMPS上

Product Join：
1：通常发生于非等值连接 > < <>或者有or的情况
2：一张表每行数据需要与另外一张表的所有行做比较，例如A表10行，B表10行，需要比较100次
3：假设没有关联条件，将会产生cross join，如同2里面说的将会返回100行数据

另外还有一张Exclusion Join：
通常产生于寻找不匹配的值，如NOT IN ，EXCEPT等
————————————————
版权声明：本文为CSDN博主「_假象」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/wali_wang/article/details/50520534