[03] SQL优化

1.SQL优化的实质
　　充分利用索引；
　　访问尽量少的数据块；
　　减少表扫描的I/O次数；
　　尽量避免全表扫描和其他额外开销；

2.oracle数据库常用的两种优化器
　　RBO(rule-based-optimizer)：基于规则的优化器，根据优先级来决定执行计划.
　　CBO(cost-based-optimizer)：基于开销的优化器，根据表及索引的状态信息来决定执行计划.

3.驱动表和被驱动表　　

　　多表嵌套连接时，先全表扫描驱动表，将驱动表返回的结果集一行一行去匹配被驱动表（使用索引），所以应该选择小表作为驱动表，大表作为被驱动表。

　　在基于规则的优化器RBO中，ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名，FROM子句中写在最后的表(基础表、驱动表)被最先处理，所以要选择记录数最少的表作为基础表。如果有3个以上的表连接查询, 那就需要选择交叉表(intersection table)作为基础表, 交叉表是指那个被其他表所引用的表.

　　在基于成本的优化器CBO中，ORACLE会选择最合适的驱动表，但不一定选择较小的表作为驱动表。

4.减少表扫描的I/O次数

　　访问数据库时，ORACLE会在内部执行许多如解析SQL语句, 估算索引的利用率, 绑定变量, 读数据块等工作。每向数据库发送一条语句，都会用掉很多服务器资源，所以高流量网站都将查询语句缓存起来。Memcached是一种分布式内存缓存系统，它可以减轻数据库的负载，来加速基于动态数据库的网站。

　　使用ROWID删除重复记录(最高效)： DELETE FROM EMP E WHERE E.ROWID > (SELECT MIN(X.ROWID) FROM EMP X WHERE X.EMP_NO = E.EMP_NO);

　　避免循环查询，将SQL放在循环语句中会给你的数据库增加负担，可以使用存储过程进行批量操作（存储过程是预编译的）。

　　使用DECODE函数可以避免重复扫描相同记录或重复连接相同的表。

5.其他额外开销

　　ORACLE采用自下而上的顺序解析WHERE子句，所以表之间的连接必须写在其他WHERE条件之前，而将能过滤掉最大数据量的条件写在WHERE的末尾。

　　ORACLE在解析的过程中, 会通过查询数据字典将SELECT中的'*'依次转换成所有的列名，所以应该在查询的字段上加上表的别名。

　　带有DISTINCT,UNION,MINUS,INTERSECT,ORDER BY的SQL语句会启动SQL引擎执行耗费资源的排序(SORT)功能.

　　用Where子句替换HAVING子句, HAVING只会在检索出所有记录之后才对结果集进行过滤，这个处理需要排序，总计等操作。

　　当进行包含一对多表信息的查询时，用EXISTS替换DISTINCT，因为RDBMS核心模块将在子查询的条件一旦满足后，会立刻返回结果。

　　用UNION ALL代替UNION合并两个查询结果集，先以UNION-ALL的方式合并, 然后再排序输出；使用UNION ALL不需要排序，但会重复输出相同的记录。

　　ORDER BY子句使用索引的条件：ORDER BY中所有的列必须定义为非空，ORDER BY中所有的列必须包含在相同的索引中并保持在索引中的排列顺序。　

　　使用LIMIT来限定你想选定的数据的行数，否则会遍历所有行。

　　不要使用全词通配符(%hello%)，用前缀通配符(hello%)或后置通配符(%hello)。在百万数量级的数据上采用全词通配符来搜索会让你的数据库当机。

　　采用join来替换子查询：虽然子查询很有用，但可用join语句替换它，join语句执行起来更快：　　　　

SELECT a.id, (SELECT MAX(created) FROM posts WHERE author_id = a.id) AS latest_post FROM authors a
--替换成
SELECT a.id, MAX(p.created) AS latest_post FROM authors a INNER JOIN posts p ON (a.id = p.author_id) GROUP BY a.id

6.in和exists的性能区别

　　in和exists主要是造成了驱动顺序的改变（性能变化的关键），我们以驱动表的快速返回为目标（会考虑到索引及结果集的关系）。

　　in：以内层表为驱动表。内层子查询结果集较少，主查询中的表较大且又有索引时应使用in；

　　exists：以外层表为驱动表。外层主查询结果集较少，子查询中的表较大且又有索引时应使用exists；　　

--EXISTS的执行流程
select * from t1 where exists ( select null from t2 where y = x );
--可以理解为:
for x in ( select * from t1 ) loop
  if ( exists ( select null from t2 where y = x.x ) ) then 
     OUTPUT THE RECORD
  end if

　　in不对null进行处理：select 1 as x from dual where null in (0, 1, 2, null);