索引基础知识

一、索引的优缺点

索引的优点（为什么要有索引）

1、快速取数据

2、保证数据记录的唯一性

3、加快表的连接速度

4、在使用ORDER by、group by子句进行数据检索时，利用索引可以减少排序和分组的时间。

索引的缺点

1、索引需要占物理空间。

2、当对表中的数据进行增加、删除和修改的时候，索引也要动态的维护，降低了数据的维护速度。

二、索引的本质

其实，索引的本质是一个查找问题。索引一般都是用BTree或者BTree的变种（包括B+树、B-树、B*树）

B树（二叉树）

BTree即二叉搜索树。如下图所示。这个的查询应该不用说大家都知道。

如果这个BTree是平衡二叉树，那么他的查询性能是逼近二分查找的。但是如果是下图所示，那么查询的性能会非常差。如何将一棵树转换为平衡二叉树，这个留着以后写。

B-树

是一种多路搜索树（并不是二叉的）：

1、定义任意非叶子结点最多只有M个儿子；且M>2；

2、根结点的儿子数为[2, M]；

3、除根结点以外的非叶子结点的儿子数为[M/2,M]；

4、每个结点存放至少M/2-1（取上整）和至多M-1个关键字；（至少2个关键字）

5、非叶子结点的关键字个数=指向儿子的指针个数-1；

6、非叶子结点的关键字：K[1],K[2], …, K[M-1]；且K[i] < K[i+1]；

7、非叶子结点的指针：P[1], P[2],…, P[M]；其中P[1]指向关键字小于K[1]的子树，P[M]指向关键字大于K[M-1]的子树，其它P[i]指向关键字属于(K[i-1], K[i])的子树；

8、所有叶子结点位于同一层；

如：（M=3）的一个B-树如下：

B-树的搜索，从根结点开始，对结点内的关键字（有序）序列进行二分查找，如果命中则结束，否则进入查询关键字所属范围的儿子结点；重复，直到所对应的儿子指针为空，或已经是叶子结点；

B-树有如下特性：

1、关键字集合分布在整颗树中；

2、任何一个关键字出现且只出现在一个结点中；

3、搜索有可能在非叶子结点结束；

B+树

B+树是B-树的变体，也是一种多路搜索树。其定义基本与B-树同，除了以下几点：

1、非叶子结点的子树指针与关键字个数相同；

2、非叶子结点的子树指针P[i]，指向关键字值属于[K[i],K[i+1])的子树（B-树是开区间）；

3、为所有叶子结点增加一个链指针；

4、所有关键字都在叶子结点出现；

B+树有如下特性：

1.所有关键字都出现在叶子结点的链表中（稠密索引），且链表中的关键字恰好是有序的；

2.不可能在非叶子结点命中；

3.非叶子结点相当于是叶子结点的索引（稀疏索引），叶子结点相当于是存储（关键字）数据的数据层；

4.更适合文件索引系统；

总结如下：

B树：二叉树，每个结点只存储一个关键字，等于则命中，小于走左结点，大于走右结点；

B-树：多路搜索树，每个结点存储M/2到M个关键字，非叶子结点存储指向关键字范围的子结点；所有关键字在整颗树中出现，且只出现一次，非叶子结点可以命中；

B+树：在B-树基础上，为叶子结点增加链表指针，所有关键字都在叶子结点中出现，非叶子结点作为叶子结点的索引；B+树总是到叶子结点才命中；

该部分参考了http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html

三、索引的分类

按照数据库中可以创建的索引类型来分：

普通索引

这是最基本的索引类型，而且它没有唯一性之类的限制。

创建普通索引的方法如下：CREATE INDEX<索引的名字> ON tablename(列的列表)

唯一索引

不允许其中任何两行具有相同索引值的索引

创建唯一索引的方法如下：CREATEUNIQUE INDEX <索引的名字> ON tablename(列的列表)

主键索引

其实主键索引是唯一索引的一种特殊类型。主键索引支持，在创建表的主键时，主键索引会自动创建。

聚集索引（也叫聚簇索引）

在聚集索引中，表中行的物理顺序与键值的逻辑（索引）顺序相同。

聚集索引一个表只能有一个，而非聚集索引一个表可以存在多个。

与非聚集索引相比，聚集索引通常提供更快的数据访问速度。

四、索引使用策略及优化

1、小的数据类型通常更好

越小的数据类型通常在磁盘、内存和CPU缓存中都需要更少的空间，处理起来更快。

2、简单的数据类型更好

整型数据比起字符，处理开销更小，因为字符串的比较更复杂。在MySQL中，应该用内置的日期和时间数据类型，而不是用字符串来存储时间；以及用整型数据类型存储IP地址。

3、尽量避免NULL

应该指定列为NOT NULL，除非你想存储NULL。在MySQL中，含有空值的列很难进行查询优化，因为它们使得索引、索引的统计信息以及比较运算更加复杂。你应该用0、一个特殊的值或者一个空串代替空值。

4、如果对多列进行索引(组合索引)，列的顺序非常重要

MySQL仅能对索引最左边的前缀进行有效的查找。例如：假设存在组合索引it1c1c2(c1,c2)，查询语句select * from t1 where c1=1 and c2=2能够使用该索引。查询语句select *from t1 where c1=1也能够使用该索引。但是，查询语句select * from t1 where c2=2不能够使用该索引，因为没有组合索引的引导列,即，要想使用c2列进行查找，必需出现c1等于某值。