SQL高度优化

　　受同事dd之托，优化一条boss看的报表SQL。dd写复杂疑难SQL无数，如何写出优雅的SQL自有一番心得体会。能将一条7表含inner join，left join并含有关联子查询的、返回结果集3400余条的SQL优化到2s已足以证明功力之深厚。此次也是在她的基础上加以分析，优化，将此过程记录分享。

　　1、原始SQL。希望将执行时间缩减到1s以内。

　　　　执行计划如下:（执行时间2.063 sec）

　　　　摘除红框的where条件执行计划如下：（执行时间0.452 sec）

　　　　分析：SQL中的where条件为不相关子查询。然后使用not in

　　分析1：

　　not in 在这里形成了笛卡尔积。形成3418*252次判断。如果改成in则会走索引。执行时间0.2s

　　于是灵光一现。想到：

　　　　不加where条件返回的数据集 - in 返回的数据集 = 原SQL中返回的数据集。

　　两个执行时间为0.2s 的SQL相减得到执行时间为 0 。真diao!

　　分析2：

　　冥冥之中自由一股力量引领我将where条件中的表和大表做条件关联。

　　以避免这种毫无关系的笛卡尔积，同时也实现了江湖人人歌颂的小结果集驱动（红框中STRAIGHT_JOIN强制指定驱动表顺序）。

　　于是乎另一种写法闪亮登场。执行时间：0.248 sec . 真屌！

备注（废话）：正常来说，在一个结果集后面加where条件不会比没有where条件时糟糕。理由如下：

第一种情况：如果该where条件列有索引

1、使用到了索引。

　　1、为减少CPU的使用而走的索引。比如对结果集进行排序(分组)，最值等。

　　2、为减少IO而走的索引。

　　如果CPU强劲（频率高），排序计算的时间就很快。

　　如果IO吞吐能力强（假设产生物理读)，CPU处于IO wait的时间就相对少。即便这样关系型数据库中也不建议产生大量的物理读。一来，外存的IO速度与CPU处理之间有不可逾越的鸿沟，同时，同时也防止大量的读将　　　　　　

　　内存池数据（buffer pool data）被swap out出去。

　　总结就是：

　　待取的数据/实际读出的数据约接近1越好。体现在执行计划列rows的值接近实际返回的行数(found_rows())。

　　当然最好的设计模式是1、2兼得。最典型的案例如索引(column1,column2)

　　where column1 = ‘value1’ [group|order] by column2类似查询。

2、没有使用到索引。

　　1、确实不可走。如联合索引的后缀。这由B+Tree索引的数据结构决定。等

　　2、优化器认为走索引的代价不如不走索引。通过非聚集索引（也称为二级索引)的指针找表的过程俗称回表（同样有不回表的覆盖索引（Extra列含有use index））。大量的回表不如全表扫。这是大多数能走的索引却　　

　　　　不走的原因。这个过程基于数据库内部维护对表的定期采样的数据。统计信息的不准也会导致该走某个索引却没有走。等

　　如果有索引却没有使用到索引，获取到结果集的时间理论上是略大于没有where条件的。（优化器发现该表有可用的索引，会分析走索引的代价，略微增加了解析时间，除非关联的表异常多，一般可忽略不计）。　

　　多数情况我们信任基于成本（CBO）查询优化器(Query Optimizer)。如果不，也可以通过IGNORE，FORCE，USE忽略、强制、建议走索引。

第二种情况：如果没有索引

　　1. 多了判断是否符合where条件的计算的时间。甚至如果此时CPU使用率异常繁忙，可能会

　　　　因为抢占不到CPU时间导致一条简单的SQL 语句hang住。

　　　　所以如果没有索引，有where条件获取到结果集的时间大于没有where条件。（如果远程客户端，假定网络带宽足够大）