索引优化-1

查看查询语句的IO统计以及执行时间

SET STATISTICS IO ON

SELECT orderid,custid,empid,shipperid,orderdate,filler

FROM dbo.Orders

WHERE orderdate='20060101' AND orderdate<'20060201'

 

SET STATISTICS IO OFF

 

SET STATISTICS TIME ON

SELECT orderid,custid,empid,shipperid,orderdate,filler

FROM dbo.Orders

WHERE orderdate='20060101' AND orderdate<'20060201'

有序和无序扫描的性能差异取决于索引的碎片级别。

非聚集索引的叶级行中指向数据行的行定位符是一个8字节的物理指针,被称为RID。

覆盖索引表示非聚集索引包含查询中的所有列。换句话说,覆盖索引不是一个具有特殊属性的索引,而是关于特定查询的覆盖索引。

索引的访问方法

  1. 表扫描/无序聚集索引扫描:

扫描表中的所有数据页,当表中包含聚集索引时,所采取的访问方法是无序聚集索引扫描。

  1. 无序覆盖非聚集索引扫描
  2. 有序聚集索引扫描
  3. 有序覆盖非聚集索引扫描
  4. 非聚集索引查找+有序局部扫描+lookups:通常用于小范围查询(包括点查询),且用到的非聚集索引没有覆盖该查询

分析该方法在堆上和聚集表上访问的差异

  1. 无序非聚集索引扫描+lookups
  2. 聚集索引查找+有序局部扫描
  3. 覆盖非聚集索引查找+有序局部扫描

索引交集

确定选择点:这个点是指查询是会选择聚集索引查找还是非聚集索引查找的最佳记录数。

获取样例行数

SELECT * FROM orders TABLESAMPLE(1000 ROWS)

基于集合的优化解决方案

SELECT shipperid FROM

 (SELECT shipperid,(SELECT MAX(orderdate) FROM orders AS o WHERE o.shipperid =s.shipperid)

 AS maxod FROM shippers AS s) AS d WHERE maxod<'20010101'

 

 SELECT shipperid FROM

 (SELECT shipperid,(SELECT MAX(orderdate) FROM orders AS o WHERE o.shipperid =s.shipperid)

 AS maxod FROM shippers AS s) AS d WHERE COALESCE(maxod,'99991231')<'20010101'

 

 

 SELECT shipperid FROM dbo.shippers AS s

 WHERE EXISTS

 (SELECT * FROM dbo.orders AS o WHERE o.shipperid=s.shipperid AND o.orderdate<'20010101')

 AND EXISTS (SELECT * FROM dbo.orders AS o WHERE o.shipperid=s.shipperid

 )

COALESCE()函数可以接受一系列的值,如果列表中所有项都为空(null),那么只使用一个值。然后,它将返回第一个非空值。这一技巧描述了创造性使用SQL Server 中COALESCE()函数的两种方法。

NULLIF函数的函数是在两个参数相等的时候返回NULL,否则返回第一个参数,NULLIF也可以用CASE来解释:

CASE

when exp1 =exp2 then null

else exp1

独立子查询与相关子查询

SELECT OrderID, CustomerID, EmployeeID, OrderDate

FROM dbo.Orders

WHERE OrderDate IN

 (SELECT MAX(OrderDate)

   FROM dbo.Orders

   GROUP BY CONVERT(CHAR(6), OrderDate, 112));

  

  

   SELECT OrderID, CustomerID, EmployeeID, OrderDate, RequiredDate

FROM dbo.Orders AS O1

WHERE OrderDate =

 (SELECT MAX(OrderDate)

   FROM dbo.Orders AS O2

   WHERE O2.EmployeeID = O1.EmployeeID);

公用表表达式

CTE

排名函数

Row_Number,Rank,Dense_Rank,Ntile(分组)

WITH Tiles AS

(

 SELECT empid, qty,

    NTILE(3) OVER(ORDER BY qty, empid) AS tile

 FROM dbo.Sales

)

SELECT tile, MIN(qty) AS lb, MAX(qty) AS hb

FROM Tiles

GROUP BY tile

ORDER BY tile;

分页

DECLARE @pagesize AS INT, @pagenum AS INT;

SET @pagesize = 5;

SET @pagenum = 2;

WITH SalesCTE AS

(

 SELECT ROW_NUMBER() OVER(ORDER BY qty, empid) AS rownum,

    empid, mgrid, qty

 FROM dbo.Sales

)

SELECT rownum, empid, mgrid, qty

FROM SalesCTE

WHERE rownum > @pagesize * (@pagenum-1)

 AND rownum <= @pagesize * @pagenum

ORDER BY rownum;

联接算法

1.    loop join

循环联接扫描其中一个联接表,为该表中的每一行在另外一个联接表中搜索匹配的行,

当较大表的联接列上有索引时,使用nested loops非常高效,它允许执行查找和局部扫描。

2.    merge join

合并联接是一种非常高效的算法,它依赖联接列经过排序的两个输入。

3.    Hash

当联接列上缺少合适的索引时,优化器通常选择hash join 运算府,优化器会创建一个hash表,作为平衡树的中间搜索结构。

集合操作

1.    union

2.    union all:不会去掉重复的行

3.    except 去掉另外一个表中存在的行

4.    except all :比较复杂

5.    intersect:返回两个输入中都出现的行

一种解决方案

为每个员工返回具有max(orderdate)值的订单,用max(orderid)作为附件属性

解决方法:使用二进制串联

SELECT EmployeeID,

 CAST(SUBSTRING(binstr, 1, 8)   AS DATETIME) AS OrderDate,

 CAST(SUBSTRING(binstr, 9, 4)   AS INT)      AS OrderID,

 CAST(SUBSTRING(binstr, 13, 10) AS NCHAR(5)) AS CustomerID,

 CAST(SUBSTRING(binstr, 23, 8) AS DATETIME) AS RequiredDate

FROM (SELECT EmployeeID,

        MAX(CAST(OrderDate        AS BINARY(8))

              + CAST(OrderID      AS BINARY(4))

              + CAST(CustomerID   AS BINARY(10))

              + CAST(RequiredDate AS BINARY(8))) AS binstr

      FROM dbo.Orders

      GROUP BY EmployeeID) AS D;

Pivot:行转列

 SELECT objectid,attr1,attr2,attr3,attr4,attr5

 FROM dbo.OpenSchema

 PIVOT(MAX(value) FOR attribute IN ([attr1],[attr2],[attr3],[attr4],[attr5])) AS p

列转行

SELECT objectid,attribute,value

 FROM (SELECT objectid,attribute,CASE attribute

 WHEN 'attr1' THEN [attr1]

   WHEN 'attr2' THEN [attr2]

    WHEN 'attr3' THEN [attr3]

     WHEN 'attr4' THEN [attr4]

      WHEN 'attr5' THEN [attr5]

      END AS value

 FROM dbo.TableOPEN,(SELECT 'attr1' AS attribute

 UNION ALL SELECT 'attr2'

 UNION ALL SELECT 'attr3'

 UNION ALL SELECT 'attr4'

 UNION ALL SELECT 'attr5') AS attributes) AS d

 WHERE value IS NOT null

 SELECT objectid,attribute,value

 FROM dbo.TableOPEN UNPIVOT(value FOR attribute IN([attr1],[attr2],[attr3],[attr4],[attr5])) AS u

With cube/with rollup

产生多维数据集/维度的多层次分析

复制表的结构

Select top(0) * into tablename from tablename

Table  Scan:    

 1、当你看到这个信息的时候,说明在你的表上没有建立聚集索引并且没有使用到索引(如过有).在这种情况下,表中的每一条记录都将被检查一次,如果表很小,那么扫描是很快的,甚至比用了索引还要快.如果表很大,他会执行很长的时间,性能会受到很大的影响.  

 所以当你看到这个提示的时候,你要做的第一件事就是看表的大小,表很大就添加合适的索引.  

 2、你可能又会发现,已经建立了一个非聚集索引,但索引仍然没有使用。因为是否使用索引还依赖于你要获取的数据量的大小以及表的大小,或者你要查询的数据可选性很小(即在同一列中数据的重复性很高),这种情况下表扫描的速度大于使用索引.    

   

 在查询计划提示中你需要留意Estimated   Row   Count(预计行计数)   .   它的意思是查询分析器可能返回的行数。如果采用表扫描并且这个计数很高的话,查询优化器就认为使用表扫描的速度快于使用非聚集索引(如果存在的话)。

 Index   Seek:    

 在表上使用非聚集索引查找数据,一般情况下执行都很快,   尤其是返回结果集很小的时候.

 Clustered   Index   Seek:    

 在表上使用聚集索引查找数据,执行很快.   他是sqlserver查询数据时所使用的查询速度最快的索引.

Cross apply

新增的apply表运算符把右表表达式应用到左表表达式中的每一行。它不像join那样,先计算哪个表达式都可以,apply必须先逻辑的计算左表达式。

Top n 问题

SELECT OrderID, CustomerID, EmployeeID, OrderDate, RequiredDate

FROM dbo.Employees AS E

 CROSS APPLY

    (SELECT TOP(3) OrderID, CustomerID, OrderDate, RequiredDate

     FROM dbo.Orders AS O

     WHERE O.EmployeeID = E.EmployeeID

     ORDER BY OrderDate DESC, OrderID DESC) AS A;

索引扫描和索引查找的区别

Id = 1612399360

 不良的sql往往来自于不恰当的索引设计、不充份的连接条件和不可优化的where子句。在对 它们进行适当的优化后,其运行速度有了明显地提高!下面我将从这三个方面分别进行总结:
  为了更直观地说明问题,所有实例中的sql运行时间均经过测试,不超过1秒的均表示为(< 1秒)。
  测试环境--   主机:hp lh ii   主频:330mhz   内存:128兆   操作系统:operserver5.0.4   数据库:sybase11.0.3
  一、不合理的索引设计   例:表record有620000行,试看在不同的索引下,下面几个 sql的运行情况:

  1.在date上建有一个非群集索引
  select count(*) from record where date >'19991201' and date < '19991214'and amount >2000 (25秒)   select date,sum(amount) from record group by date(55秒)   select count(*) from record where date >'19990901' and place in ('bj','sh') (27秒)
  分析:   date上有大量的重复值,在非群集索引下,数据在物理上随机存放在数据页上,在范围查找时,必须执行一次表扫描才能找到这一范围内的全部行。

 

  2.在date上的一个群集索引
  select count(*) from record where date >'19991201' and date < '19991214' and amount >2000(14秒)   select date,sum(amount) from record group by date(28秒)   select count(*) from record where date >'19990901' and place in ('bj','sh')(14秒)
  分析:   在群集索引下,数据在物理上按顺序在数据页上,重复值也排列在一起,因而在范围查找时,可以先找到这个范围的起末点,且只在这个范围内扫描数据页,避免了大范围扫描,提高了查询速度。

 

  3.在place,date,amount上的组合索引
  select count(*) from record where date >'19991201' and date < '19991214' and amount >2000(26秒)   select date,sum(amount) from record group by date(27秒)   select count(*) from record where date >'19990901' and place in ('bj, 'sh')(< 1秒)
  分析:   这是一个不很合理的组合索引,因为它的前导列是place,第一和第二条sql没有引用place,因此也没有利用上索引;第三个sql使用了place,且引用的所有列都包含在组合索引中,形成了索引覆盖,所以它的速度是非常快的。

 

  4.在date,place,amount上的组合索引   select count(*) from record where date >'19991201' and date < '19991214' and amount >2000(< 1秒)   select date,sum(amount) from record group by date(11秒)   select count(*) from record where date >'19990901' and place in ('bj','sh')(< 1秒)
  分析:   这是一个合理的组合索引。它将date作为前导列,使每个sql都可以利用索引,并且在第一和第三个sql中形成了索引覆盖,因而性能达到了最优。

 

  5.总结:
  缺省情况下建立的索引是非群集索引,但有时它并不是最佳的;合理的索引设计要建立在对各种查询的分析和预测上。一般来说:   ①.有大量重复值、且经常有范围查询   (between, >,< ,>=,< =)和order by、group by发生的列,可考虑建立群集索引;
  ②.经常同时存取多列,且每列都含有重复值可考虑建立组合索引;
  ③.组合索引要尽量使关键查询形成索引覆盖,其前导列一定是使用最频繁的列。

 

  二、不充份的连接条件:   例:表card有7896行,在card_no上有一个非聚集索引,表account有191122行,在 account_no上有一个非聚集索引,试看在不同的表连接条件下,两个sql的执行情况:
  select sum(a.amount) from account a,card b where a.card_no = b.card_no(20秒)
  将sql改为:   select sum(a.amount) from account a,card b where a.card_no = b.card_no and a.account_no=b.account_no(< 1秒)
  分析:   在第一个连接条件下,最佳查询方案是将account作外层表,card作内层表,利用card上的索引,其i/o次数可由以下公式估算为:
  外层表account上的22541页+(外层表account的191122行*内层表card上对应外层表第一行所要查找的3页)=595907次i/o
  在第二个连接条件下,最佳查询方案是将card作外层表,account作内层表,利用account上的索引,其i/o次数可由以下公式估算为:
  外层表card上的1944页+(外层表card的7896行*内层表account上对应外层表每一行所要查找的4页)= 33528次i/o
  可见,只有充份的连接条件,真正的最佳方案才会被执行。
  总结:
  1.多表操作在被实际执行前,查询优化器会根据连接条件,列出几组可能的连接方案并从中找出系统开销最小的最佳方案。连接条件要充份考虑带有索引的表、行数多的表;内外表的选择可由公式:外层表中的匹配行数*内层表中每一次查找的次数确定,乘积最小为最佳方案。
  2.查看执行方案的方法-- 用set showplanon,打开showplan选项,就可以看到连接顺序、使用何种索引的信息;想 看更详细的信息,需用sa角色执行dbcc(3604,310,302)。

 

  三、不可优化的where子句   1.例:下列sql条件语句中的列都建有恰当的索引,但执行速度却非常慢:
  select * from record where substring(card_no,1,4)='5378'(13秒)   select * from record where amount/30< 1000(11秒)   select * from record where convert(char(10),date,112)='19991201'(10秒)
  分析:   where子句中对列的任何操作结果都是在sql运行时逐列计算得到的,因此它不得不进行表搜索,而没有使用该列上面的索引;如果这些结果在查询编译时就能得到,那么就可以被sql优化器优化,使用索引,避免表搜索,因此将sql重写成 下面这样:
  select * from record where card_no like '5378%'(< 1秒)   select * from record where amount < 1000*30(< 1秒)   select * from record where date= '1999/12/01' (< 1秒) 你会发现sql明显快起来!

  2.例:表stuff有200000行,id_no上有非群集索引,请看下面这个sql:
  select count(*) from stuff where id_no in('0','1')(23秒)
  分析:   where条件中的'in'在逻辑上相当于'or',所以语法分析器会将in ('0','1')转化为id_no ='0' or id_no='1'来执行。我们期望它会根据每个or子句分别查找,再将结果相加,这样可以利用id_no上的索引;但实际上(根据showplan),它却采用了"or策略",即先取出满足每个or子句的行,存入临时数据库的工作表中,再建立唯一索引以去掉重复行,最后从这个临时表中计算结果。因此,实际过程没有利用id_no上索引,并且完成时间还要受tempdb数据库性能的影响。

  实践证明,表的行数越多,工作表的性能就越差,当stuff有620000行时,执行时间竟达到220秒!还不如将or子句分开:
  select count(*) from stuff where id_no='0'   select count(*) from stuff where id_no='1'
  得到两个结果,再作一次加法合算。因为每句都使用了索引,执行时间只有3秒,在620000行下,时间也只有4秒。或者,用更好的方法,写一个简单的存储过程:   create proc count_stuff as   declare @a int   declare @b int   declare @c int   declare @d char(10)   begin   select @a=count(*) from stuff where id_no='0'   select @b=count(*) from stuff where id_no='1'   end   select @c=@a+@b   select @d=convert(char(10),@c)   print @d
  直接算出结果,执行时间同上面一样快!   总结:
  可见,所谓优化即where子句利用了索引,不可优化即发生了表扫描或额外开销。
  1.任何对列的操作都将导致表扫描,它包括数据库函数、计算表达式等等,查询时要尽可能将操作移至等号右边。
  2.in、or子句常会使用工作表,使索引失效;如果不产生大量重复值,可以考虑把子句拆开;拆开的子句中应该包含索引。
  3.要善于使用存储过程,它使sql变得更加灵活和高效。

  • 索引中的数据尽可能少,即窄索引更容易被选择;
  • 聚集索引码要被包含在表的所有的非聚集索引中,所以聚集索引码要尽可能短;
  • 建立高选择性的非聚集索引;
  • 频繁请求的列上不能建立聚集索引,应该建立非聚集索引,并且要尽可能使值惟一;
  • 尽可能减少热点数据。如果频繁地对表中的某些数据进行读和写,这些数据就是热点数据,要想办法将热点数据分散;
  • 监控磁盘的数据流量。如果利用率太高,就要考虑索引列并在多个磁盘上分布数据以减少I/O;
  • 在至少有一个索引的表中,应该有一个聚集索引。包括的不同值的个数有限,返回一定范围内值的列,查询时返回大量结果的列考虑建立聚集索引;
  • 分析经常使用的SQL语句的Where子句,得出经常取值的数据,考虑对这些数据列根据常见的查询类型建立索引;
  • 主码如果涉及多个数据列,要将显著变化的数据列放在首位。如果数据列的变化程度相当,将经常访问的数据列放在首位;
  • 有大量重复值、且经常有范围查询。如(between,>,<,>=,<=)、order by、group by发生的列,可考虑建立聚集索引;
  • SQL查询语句同时存取多列的数据,且每列都含有重复值,可以考虑建立覆盖索引,覆盖索引要尽量使关键查询形成索引覆盖,其前导列一定是使用最频繁的列;
  • 索引值较短的索引具有比较高的效率,因为每个索引页上能存放较多的索引行,而且索引的级别也比较少。所以,缓存中能防止更多的索引列,这样也减少了I/O操作;
  • 表上的索引过多会影响UPDATE、INSERT和DELETE的性能,因为所有的索引必须做响应的调整。另外,所有的分页操作都被记录在日志中,这样也会增加I/O操作;
  • 一般不对经常被更新的列建立聚集索引,这样会引起整行的移动,严重影响性能;
  • 查询很少或着数据很少的数据表一般不用建立索引;
  • 与ORDER BY或GROUP BY一起使用的列一般使用建立聚集索引。如果ORDER BY 命令中用到的列上有聚集索引,就不会生成1个临时表,因为行已经排序。GROUP BY命令则一定产生1个临时表;
  • 当有大量的行正在被插入表中时,要避免在本表一个自然增长(例如Identity列)的列上建立聚集索引。如果建立了聚集索引,那么INSERT的性能就会大大降低,因为每个插入的行必须到表的最后一个数据页面。

  从以上这些例子可以看出,sql优化的实质就是在结果正确的前提下,用优化器可以识别的语句,充份利用索引,减少表扫描的i/o次数,尽量避免表搜索的发生。其实sql的性能优化是一个复杂的过程,上述这些只是在应用层次的一种体现,深入研究还会涉及数据库层的资源配置、网络层的流量控制以及操作系统层的总体设计。

原文地址:https://www.cnblogs.com/heartstage/p/3390437.html