[03] SQL优化

1.SQL优化的实质
  充分利用索引;
  访问尽量少的数据块;
  减少表扫描的I/O次数;
  尽量避免全表扫描和其他额外开销;

2.oracle数据库常用的两种优化器
  RBO(rule-based-optimizer):基于规则的优化器,根据优先级来决定执行计划.
  CBO(cost-based-optimizer):基于开销的优化器,根据表及索引的状态信息来决定执行计划.

3.驱动表和被驱动表  

  多表嵌套连接时,先全表扫描驱动表,将驱动表返回的结果集一行一行去匹配被驱动表(使用索引),所以应该选择小表作为驱动表,大表作为被驱动表

  在基于规则的优化器RBO中,ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表、驱动表)被最先处理,所以要选择记录数最少的表作为基础表。如果有3个以上的表连接查询, 那就需要选择交叉表(intersection table)作为基础表, 交叉表是指那个被其他表所引用的表.

  在基于成本的优化器CBO中,ORACLE会选择最合适的驱动表,但不一定选择较小的表作为驱动表。

4.减少表扫描的I/O次数

  访问数据库时,ORACLE会在内部执行许多如解析SQL语句, 估算索引的利用率, 绑定变量, 读数据块等工作。每向数据库发送一条语句,都会用掉很多服务器资源,所以高流量网站都将查询语句缓存起来。Memcached是一种分布式内存缓存系统,它可以减轻数据库的负载,来加速基于动态数据库的网站。

  使用ROWID删除重复记录(最高效): DELETE FROM EMP E WHERE E.ROWID > (SELECT MIN(X.ROWID) FROM EMP X WHERE X.EMP_NO = E.EMP_NO);

  避免循环查询,将SQL放在循环语句中会给你的数据库增加负担,可以使用存储过程进行批量操作(存储过程是预编译的)。

  使用DECODE函数可以避免重复扫描相同记录或重复连接相同的表。

5.其他额外开销

  ORACLE采用自下而上的顺序解析WHERE子句,所以表之间的连接必须写在其他WHERE条件之前,而将能过滤掉最大数据量的条件写在WHERE的末尾

  ORACLE在解析的过程中, 会通过查询数据字典将SELECT中的'*'依次转换成所有的列名,所以应该在查询的字段上加上表的别名

  带有DISTINCT,UNION,MINUS,INTERSECT,ORDER BY的SQL语句会启动SQL引擎执行耗费资源的排序(SORT)功能.

  用Where子句替换HAVING子句, HAVING只会在检索出所有记录之后才对结果集进行过滤,这个处理需要排序,总计等操作。

  当进行包含一对多表信息的查询时,用EXISTS替换DISTINCT,因为RDBMS核心模块将在子查询的条件一旦满足后,会立刻返回结果。

  用UNION ALL代替UNION合并两个查询结果集,先以UNION-ALL的方式合并, 然后再排序输出;使用UNION ALL不需要排序,但会重复输出相同的记录。

  ORDER BY子句使用索引的条件:ORDER BY中所有的列必须定义为非空,ORDER BY中所有的列必须包含在相同的索引中并保持在索引中的排列顺序。 

  使用LIMIT来限定你想选定的数据的行数,否则会遍历所有行。

  不要使用全词通配符(%hello%),用前缀通配符(hello%)或后置通配符(%hello)。在百万数量级的数据上采用全词通配符来搜索会让你的数据库当机。

  采用join来替换子查询:虽然子查询很有用,但可用join语句替换它,join语句执行起来更快:    

SELECT a.id, (SELECT MAX(created) FROM posts WHERE author_id = a.id) AS latest_post FROM authors a
--替换成
SELECT a.id, MAX(p.created) AS latest_post FROM authors a INNER JOIN posts p ON (a.id = p.author_id) GROUP BY a.id

 6.in和exists的性能区别

  in和exists主要是造成了驱动顺序的改变(性能变化的关键),我们以驱动表的快速返回为目标(会考虑到索引及结果集的关系)。

  in:以内层表为驱动表。内层子查询结果集较少,主查询中的表较大且又有索引时应使用in

  exists:以外层表为驱动表。外层主查询结果集较少,子查询中的表较大且又有索引时应使用exists  

--EXISTS的执行流程
select * from t1 where exists ( select null from t2 where y = x );
--可以理解为:
for x in ( select * from t1 ) loop
  if ( exists ( select null from t2 where y = x.x ) ) then 
     OUTPUT THE RECORD
  end if

   in不对null进行处理:select 1 as x from dual where null in (0, 1, 2, null);

原文地址:https://www.cnblogs.com/yujianU/p/4754741.html