mysql 优化笔记

数据表总共81万条数

SQL

explain select  id_card,account_number from crm_finance_grant as a  where id_card in(select id_card from crm_finance_grant as bb GROUP BY id_card HAVING count(id_card) > 1);

执行时间超级长，没有等到执行完成就终止了太慢了

explain一下

发现表bb 的select_type 为DEPENDENT SUBQUERY 搜索了一下资料

基础知识：Dependent Subquery意味着什么

官方含义为：

SUBQUERY：子查询中的第一个SELECT；

DEPENDENT SUBQUERY：子查询中的第一个SELECT，取决于外面的查询 。

换句话说，就是 子查询对 bb 的查询方式依赖于外层 a 的查询。

什么意思呢？它意味着两步：

第一步，MySQL 根据 select id_card,account_number from crm_finance_grant as a where id_card; 得到一个大结果集 t1，其数据量就是上图中的 rows=81万。

第二步，上面的大结果集 t1 中的每一条记录，都将与子查询 SQL 组成新的查询语句：select id_card from crm_finance_grant where id_card =%t1.id_card %。等于说，子查询要执行80多万次……即使这两步查询都用到了索引但依旧超级慢。

优化方案

select 
        a.client_name, a.id_card, a.account_number
    from
        crm_finance_grant as a, (SELECT 
        id_card, count(id_card) as counts
    FROM
        crmdk1.crm_finance_grant as ss
    group by id_card
    having counts > 1) as aa
    where
        aa.id_card = a.id_card

速度提升

explain一下

发现有个DEVICE PRIMARY 查一下

DERIVED 的官方含义为：

DERIVED：用于 from 子句里有子查询的情况。MySQL 会递归执行这些子查询，把结果放在临时表里。

PRIMARY 最外层的 select 查询

表示先把子查询扫描815053次后将结果2633条写入临时表<derived2> 然后 mysql优化器自动优化让小结果集驱动大结果集

table a 中建立了id_card的索引 type为ref 性能不错能够快速和临时表中的数据关联得到

table <derived2> 是表示派生表是没有索引的临时表 <derivedN>N就是id值，指该id值对应的那一步操作的结果。

问题： <derived2> 有时是ALL 有时是system 这个是跟哪个指标有关联？难道是group by ?希望有人能够帮忙

DBA观点引用：MySQL 子查询的弱点

hidba 论述道（参考资源3）：

mysql 在处理子查询时，会改写子查询。

通常情况下，我们希望由内到外，先完成子查询的结果，然后再用子查询来驱动外查询的表，完成查询。

例如：

select * from test where tid in(select fk_tid from sub_test where gid=10)

通常我们会感性地认为该 sql 的执行顺序是：

sub_test 表中根据 gid 取得 fk_tid(2,3,4,5,6)记录，

然后再到 test 中，带入 tid=2,3,4,5,6，取得查询数据。

但是实际mysql的处理方式为：

select * from test where exists (

select * from sub_test where gid=10 and sub_test.fk_tid=test.tid

)

mysql 将会扫描 test 中所有数据，每条数据都将会传到子查询中与 sub_test 关联，子查询不会先被执行，所以如果 test 表很大的话，那么性能上将会出现问题。

《高性能MySQL》一书的观点引用

《高性能MySQL》的第4.4节“MySQL查询优化器的限制（Limitations of the MySQL Query Optimizer）”之第4.4.1小节“关联子查询（Correlated Subqueries）”也有类似的论述：

MySQL有时优化子查询很糟，特别是在WHERE从句中的IN()子查询。……

比如在sakila数据库sakila.film表中找出所有的film，这些film的actoress包括Penelope Guiness(actor_id = 1)。可以这样写：

mysql> SELECT * FROM sakila.film

-> WHERE film_id IN(

-> SELECT film_id FROM sakila.film_actor WHERE actor_id = 1);

mysql> EXPLAIN SELECT * FROM sakila.film ...;

+----+--------------------+------------+--------+------------------------+

| id | select_type | table | type | possible_keys |

+----+--------------------+------------+--------+------------------------+

| 1 | PRIMARY | film | ALL | NULL |

| 2 | DEPENDENT SUBQUERY | film_actor | eq_ref | PRIMARY,idx_fk_film_id |

+----+--------------------+------------+--------+------------------------+

根据EXPLAIN的输出，MySQL将全表扫描film表，对找到的每行执行子查询，这是很不好的性能。幸运的是，很容易改写为一个join查询：

mysql> SELECT film.* FROM sakila.film

-> INNER JOIN sakila.film_actor USING(film_id)

-> WHERE actor_id = 1;

另外一个方法是通过使用GROUP_CONCAT()执行子查询作为一个单独的查询，手工产生IN()列表。有时候比join还快。（注：你不妨在我们的库上试试看 SELECT goods_id,GROUP_CONCAT(cast(id as char))

FROM bee_shop_goods

WHERE shop_id IN (1519066,1466114,1466110,1466102,1466071,1453929)

GROUP BY goods_id;）

参考：http://www.cnblogs.com/zhengyun_ustc/p/slowquery3.html