高性能索引（1）

　　索引（也叫做“键（key）”）是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键，尤其是当表中的数据量非常大时。索引可以包含一个或者多个列的值。如果索引包含多个列，那么列的顺序十分重要，因为MySQL只能使用索引的最左前缀列。

1.索引的创建和删除

　　在执行CREATE TABLE语句时可以创建索引，也可以单独用CREATE INDEX或ALTER TABLE来为表增加索引。
　　ALTER TABLE用来创建普通索引、UNIQUE索引或PRIMARY KEY索引的实例如下：

ALTER TABLE table_name ADD INDEX index_name (column_list)
ALTER TABLE table_name ADD UNIQUE (column_list)
ALTER TABLE table_name ADD PRIMARY KEY (column_list)

View Code

　　其中table_name是要增加索引的表名，column_list指出对哪些列进行索引，多列时各列之间用逗号分隔。索引名index_name可选，缺省时，MySQL将根据第一个索引列赋一个名称。另外，ALTER TABLE允许在单个语句中更改多个表，因此可以在同时创建多个索引。
　　CREATE INDEX可对表增加普通索引或UNIQUE索引。

CREATE INDEX index_name ON table_name (column_list)
CREATE UNIQUE INDEX index_name ON table_name (column_list)

View Code

　　table_name、index_name和column_list具有与ALTER TABLE语句中相同的含义，索引名不可选。另外，不能用CREATE INDEX语句创建PRIMARY KEY索引。
　　在创建索引时，可以规定索引能否包含重复值。如果不包含，则索引应该创建为PRIMARY KEY或UNIQUE索引。对于单列惟一性索引，这保证单列不包含重复的值。对于多列惟一性索引，保证多个值的组合不重复。PRIMARY KEY索引和UNIQUE索引非常类似。事实上，PRIMARY KEY索引仅是一个具有名称PRIMARY的UNIQUE索引。这表示一个表只能包含一个PRIMARY KEY，因为一个表中不可能具有两个同名的索引。下面的SQL语句对students表在sid上添加PRIMARY KEY索引。

ALTER TABLE students ADD PRIMARY KEY (sid)

View Code

　　可利用ALTER TABLE或DROP INDEX语句来删除索引。类似于CREATE INDEX语句，DROP INDEX可以在ALTER TABLE内部作为一条语句处理，语法如下。

DROP INDEX index_name ON talbe_name
ALTER TABLE table_name DROP INDEX index_name
ALTER TABLE table_name DROP PRIMARY KEY

View Code

　　其中，前两条语句是等价的，删除掉table_name中的索引index_name。第3条语句只在删除PRIMARY KEY索引时使用，因为一个表只可能有一PRIMARY KEY索引，因此不需要指定索引名。如果没有创建PRIMARY KEY索引，但表具有一个或多个UNIQUE索引，则MySQL将删除第一个UNIQUE索引。如果从表中删除了某列，则索引会受到影响。对于多列组合的索引，如果删除其中的某列，则该列也会从索引中删除。如果删除组成索引的所有列，则整个索引将被删除。

2.索引的类型

　　在MySql中索引是在存储引擎层实现，所以并没有统一的索引标准：不同的存储引擎的索引工作方式不一样。

2.1 B-Tree索引

　　B-Tree索引使用B-Tree数据结构来存储数据。实际上在很多存储引擎使用的是B+Tree（每一个叶子节点都包含指向下一个叶子节点的指针，从而方便叶子节点的范围查询）。不同的存储引擎以不同的方式使用B-Tree索引，MyISAM使用前缀压缩技术使索引更小，但InnoDB则按照原数据格式进行存储。MyISAM索引通过数据的物理位置引用被索引的行，而InnoDB则根据主键引用被索引的行。

　　B-Tree索引通常意味着所有值都是按顺序存储点，并且每一个叶子节点到跟的距离相同。下图反应了InnoDB的索引是如何工作的。

　　B-Tree索引能够加快访问数据的速度，因为存储引擎不再需要进行全表扫描来获取需要的数据。B-Tree索引对列是顺序组织的，所以很适合范围查询。如下数据表：

CREATE TABLE Peaple (
    last_name VARCHAR (50) NOT NULL,
    first_name VARCHAR (50) NOT NULL,
    dob DATE NOT NULL,
    gender ENUM ('m', 'f') NOT NULL,
    KEY (last_name, first_name, dob)
);

View Code

　　其索引是如下图组织数据存储的：

　　索引对多个值进行排序的依据是CREATE TABLE语句中定义索引时列的顺序 B-Tree索引对如下类型的查询有效：

全值匹配：指和索引中所有列进行匹配。
匹配最左前缀。
匹配列前缀：只匹配某一列的值的开头部分。
匹配范围值。
精确匹配某一列并范围匹配另外一列。
只访问索引的查询。

　　索引树中的节点是有序的，除了按值查找外，索引还可以用户查询中的Order BY操作。

　　B-Tree索引使用的限制：

如果不是按照索引的最左列开始查找，则无法使用索引。
不能跳过索引中的列。
如果查询中有某个列的范围查询，则其右边所有列都无法使用索引优化查找。

2.2Hash索引

　　哈希索引基于哈希表实现，只能精确匹配索引所有列的查询才有效。在MySQL中，只有Memory引擎显示支持哈希索引。哈希索引存在以下限制：

哈希索引只包含哈希值和行指针，而不存储字段值，所以不能使用索引中的值来避免读取行。
哈希索引数据不是按照索引值进行顺序存储的所以无法用于排序。
哈希索引不支持部分索引列匹配查找。
哈希索引只支持等值比较查询，包括=、IN()、和<==>,不支持任何范围查询。
存在哈希冲突现象。

　　InnoDB引擎有一个特殊的“自适应哈希索引”。当InnoDB注意到某些索引值被频繁使用时，它会在内存中基于B-Tree索引之上再创建一个Hash索引。这个行为是完全自动的、内部行为，用户无法配置或者控制，如果有必要可以关闭该功能。

2.3自定义哈希索引

　　如果存储引擎不支持哈希索引，则可以自己定义哈希索引。具体思路是：在B-Tree基础之上创建一个伪哈希索引。这和真正的哈希所用不完全相同，因为还是使用B-Tree进行查找，但是它使用哈希值而不是键本身进行索引查找。你需要做的就是在查询的Where字句中手动指定使用哈希函数。

例如需要存储大量的URL，并需要根据URL进行搜索查找。如果使用B-Tree来存在URL，存储的内容就很大。例如如下查询：

MySql>SELECT id FROM url WHERE url='http://www.mysql.com';

View Code

　　若删除删除原来URL列上的索引，而新增一个被索引的url_crc列，使用CRC32做哈希，就可以使用下面的方式查询:

MySql>SELECT id FROM url WHERE url='http://www.mysql.com' AND    url_crc=CRC32('http://www.mysql.com');

View Code

　　对于这种实现的缺陷是需要维护哈希值，哈希值可以使用触发器实现。同时为了处理哈希冲突，当使用哈希索引进行查找时，必须在WHERE子句中包含常量值。

3.索引的优点

　　索引可以让服务器快速定位到表指定的位置，但这不是索引唯一的作用。

索引大大减少了服务器需要扫描的数据量
索引可以帮助服务器避免排序和临时表
索引可以将随机I/O变为顺序I/O