<<高性能mysql>>笔记1

转载请注明： TheViper http://www.cnblogs.com/TheViper

<<高性能mysql>>这本书写的真的很好，只可惜本屌不才，大部分都看不懂，暂且记下与mysql优化有关，对自己有用的东西。

测试指标

吞吐量

吞吐量指的是单位时间内的事务处理数，单位tps(transaction per second).这一直是经典的数据库应用测试的指标。

响应时间或延迟

这个指标用于测试任务所需的整体时间

并发性

注意，web服务器并发性不等同于数据库的并发性。服务器的高并发一般也会导致数据库的高并发，但服务器所用的语言，框架，工具集对此都会有影响。一个设计良好的应用，同时可以打开成千上百个数据库服务器连接，但可能同时只有少数连接在执行查询。因此，所需要关注的是正在工作中的并发操作，或者是同时工作中的线程数或连接数。

可扩展性

可扩展性指的是，给系统增加一倍的工作，理想情况下，会获得两倍的吞吐量，这时，看实际增加的吞吐量是多少。

性能优化的目标--响应时间

很多人认为性能优化就是降低cpu利用率。但这是个陷阱，资源就是用来消耗并用来工作的。所以，有时候消耗更多的资源能够加快查询速度。很多时候，升级到mysql新版本后，cpu利用率会上升的很厉害。这不代表性能出了问题。相反，说明新版本对资源的利用率上升了。

另外，如果把性能优化仅仅看出是提升每秒查询量，这其实只是吞吐量优化。吞吐量的提升可以减少响应时间的副产品（倒数关系）。

优化数据类型

更小的通常更好

一般情况下，应该尽量使用可以正确存储数据的最小数据类型。但是确保没有低估需要存储的值得范围。

简单就好

简单数据类型的操作通常需要更少的cpu周期。例如，整型比字符操作代价更低，具体的。

1.应该使用mysql内建类型而不是字符串存储日期和时间

2.应该用整型存储ip地址。

尽量避免null

通常情况下，最好指定列为not null,除非真的需要存储null值。如果查询中包含可为null的列，对mysql来说会更难优化，因为可为null的列使得索引，索引计算和值比较更复杂。另外，可为null的列会使用更多的存储空间。

下面具体说下数据类型

整数类型

有两种类型的数字，整数和实数。如果存储整数，可以使用这几种整数类型：TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT，对应8,16,24,32,64位存储空间。

整数类型有UNSINGED属性，表示不允许负数，这大致可以是整数的最大值上限提高一倍。

mysql可以为整数类型指定宽度，如INT(7),但对大多数应用这时没意义的。它不会限制值的范围。对于存储来说，INT(1)和INT(10)是一样的。

　　2.实数类型

实数是带有小数部分的数字。但是，它们不仅可以用来储存小数部分，还可以使用DECIMAL储存比BIGINT还大的整数。

浮点类型在储存同样范围的值时，通常比DECIMAL使用更少的空间。FLOAT使用4个字节储存，DOUBLE使用8个字节储存。mysql使用DOUBLE作为内部浮点计算的类型。

注意，在数据量比较大时，例如储存财务数据，可以考虑使用BIGINT替代DECIMAL，将需要存储的货币单位，根据小数的位数乘以相应的倍数即可。这样可以同时避免浮点存储不精确和DECIMAL精确计算代价高的问题。

　　3.字符串类型

VARCHAR：用于存储可变长字符串。它比定长类型更节省空间，因为它仅使用必要的空间。

VARCHAR需要使用1或2个额外字节记录字符串的长度。如果列的最大长度<=255字节，则使用1个字节表示，否则使用2个字节。

由于行是变长的，在update时可能会使行变得比原来长。下面情况下使用VARCHAR比较合适。

1.字符串列的最大长度比平均长度大很多

2.列的更新很少，不会出现碎片问题。

3.使用了想utf-8这样复杂的字符集。

4.每个字符都使用不同的字节数进行存储。

CHAR：定长，mysql总是根据定义的字符串长度分配足够的空间。

在存储时，mysql会删除所有的末尾空格。CHAR适合存储很短的字符串，或所有值都接近同一长度。

例如，CHAR适合存储密码的md5值，因为它是定长的。对于经常变更的数据，CHAR比VARCHAR更好，因为CHAR不容易产生碎片。

　　4.blob和text类型

两者都是为存储很大的数据而设计的字符串数据类型，分别采用二进制和字符方式存储。

　　5.日期，时间类型

mysql能存储的最小时间粒度为秒。

DATETIME:这个类型能保存大范围的值，从1001年到9999年，精度为秒，它把日期和时间封装到格式为YYYYMMDDHHMMSS的整数中，与时区无关，使用8个字节的存储空间。

TIMESTAMP:这个类型保存了从1970年1月1日0时以来的秒数。它和unix时间戳相同。它使用4个字节储存，因此范围比DATETIME小很多，只能表示1970年到2038年。TIMESTAMP显示的值与时区有关。

创建高性能的索引

索引可以包含一个或多个列的值。如果索引包含多个列，那列的顺序十分重要，因为mysql只能高效的使用索引的最左前缀列。

最常见的B-Tree索引，按照顺序存储数据，所以mysql可以做order by和group by操作。因为数据是有序的，所以B-Tree也会将相关的列值都存储在一起。最后，因为索引中存储了实际的值，所以某些查询只使用索引，就能够完成全部查询。

策略：

1.独立的列：索引列不能是表达式的一部分，也不能是函数的参数。比如，

select id from a where id+1=5

select .... where TO_DAYS(CURRENT_DATE)-TO_DAYS(date_col)<=10

应该养成简化where条件的习惯，始终将索引列单独放在比较符号的一侧。

2.前缀索引：索引开始的部分字符。

对于像BLOB,TEXT这种很长的列，必须使用前缀索引。因为mysql不允许索引这些列的完整长度。

因此建立前缀索引的关键是，选择足够长的前缀，以保证较高的选择性，同时又不能太长。

前缀应该足够长，以使得前缀索引的选择性接近于索引整个列。为了找出这个足够长度，需要找到最常见的值的列表，然后和最常见的前缀列表进行比较。例如

可以看到每个值都在45到65之间，区分度不好。下面取3个前缀字符

这次区分度就要好点了，下面继续增加前缀长度，最后发现前缀长度为7时比较合适

计算合适前缀长度的另一个方法是计算完整列的选择性，并使前缀的选择性接近于完整列的选择性，具体的

3.多列索引

一个常见的错误是，为每个列创建一个单独的索引，或按照错误的顺序创建多列索引。

关于索引列的顺序，正确的顺序依赖于使用该索引的查询，同时还要考虑是否满足排序和分组的需要。

一个经验：将选择性最高的列放在索引的最前列。这个经验在不需要考虑排序和分组的时候效果很好。这时候索引的作用只是在优化where条件的查找。

事实上，性能不只是依赖于所有索引列的选择性，也和查询条件的具体值有关，也就是和值分布有关，这和前面说的选择最佳前缀长度需要考虑的地方一样。换句话说，可能需要根据那些运行频率最高的查询来调整索引列的顺序。

使用索引扫描排序

mysql有两种方式生成有序结果，通过排序操作或按索引顺序扫描。如果explain出来的type列的值为index,说明使用了索引扫描做排序。

扫描索引本身是很快的，因为只需要从一条索引记录移动到紧接的下一条记录。但如果索引不能覆盖查询所需的全部列，那就不得不每扫描一条索引记录就回表查询一次对应的行。这基本上都是随机的io.因此按索引顺序读取数据的速度通常比顺序的全表扫描慢，尤其是在io密集型的工作负载中。

mysql可以使用同一个索引既满足排序，又用于查找行。因此，如果可能，设计索引时应该尽可能的满足这两种任务最好。

只有当索引的顺序和order by子句的顺序完全一致，并且所有列的排列方向都一样时，mysql才能使用索引对结果排序。

如果查询需要关联多张表，则只有当order by子句引用的字段全部为第一个表时，才能使用索引做排序。

order by子句和查找性查询的限制是一样的，需要满足索引的最左前缀的要求，否则，mysql都需要执行排序操作。

有一种情况可以不满足索引的最左前缀要求，依然可以使用索引排序。那就是当前导量为常数时。例如

在一个表上，建立索引(a,b,c)。

select ... where a=“2014-12-21” order by b,c.

这时索引的第一列被指定为常数，可以使用索引。下面的也可以使用索引

select ... where a>"2014-12-21" order by b

select ... where a>"2014-12-21" order by a,b

这两个刚好用了索引的前缀，所以也可以。

下面是一些不能使用索引进行排序的查询

select ... where a="2014-12-21" order by b DESC,c ESC

查询使用了两种不同的排序方向，但是索引列都是正序排序的。

select ... where a="2014-12-21" order by b，d

引用了一个不在索引中的列

select ... where a="2014-12-21" order by c

where和order by中的列无法组成索引的最左前缀，因为跳过了b这个列

select ... where a>"2014-12-21" order by b，c

第一列是范围查询

select ... where a>"2014-12-21" and b in(1,2) order by c

b列上有多个等于条件