[转]单表上亿的数据量如何分表

http://freemandf77.blog.163.com/blog/static/1072187052012528102228386/

数据库中有一个表有上亿的数据量，怎么优化？（主要是拆分，除了按业务拆分外，还有什么从技术角度的，可扩展性好的水平拆分方式）

之前的几篇关于分表的，提到的分表策略不够详细，我在这篇中补充一些分表策略吧：

按号段分：

(1) user_id为区分，1～1000的对应table1，1001～2000的对应table2，以此类推，或者以id最后两位数字为区分，分到table00-table99表中；
优点：可部分迁移
缺点：数据分布不均

(2)hash取模分：
对user_id进行hash（或者如果user_id是数值型的话直接使用user_id 的值也可），然后用一个特定的数字，比如应用中需要将一个表切分成4个表的话，我们就用4这个数字对user_id的hash值进行取模运算，也就是user_id%4,这样的话每次运算就有四种可能：结果为1的时候对应table1；结果为2的时候对应table2；结果为3的时候对应table3；结果为0的时候对应table4，这样一来就非常均匀的将数据分配到4个table中。当然还有其他一些算法，可以以user_name作为参数，进行hash运算，可参考@php hash算法使用
优点：数据分布均匀
缺点：数据迁移的时候麻烦，不能按照机器性能分摊数据

(3)在认证库中保存数据库配置
就是建立一个table，这个table单独保存user_id到table的映射关系，每次访问数据库的时候都要先查询一次这个数据库，以得到具体的table信息，然后才能进行我们需要的查询操作。
优点：灵活性强，一对一关系
缺点：每次查询之前都要多一次查询，性能大打折扣

以上就是我们在开发中通常选择的方式，在一些复杂的项目中我们也可以混合使用这几种方式。

可以参考这几篇文章：
@mysql 分表，拆分策略都有哪些？各在什么情况下应用？
@mysql 海量数据不分分表影响吗？
@求mysql 分表的意义