Mongodb 分片操作介绍

为什么需要分片操作？由于数据量太大，使得CPU，内存，磁盘I/O等压力过大。当MongoDB存储海量的数据时，一台机器可能不足以存储数据，也可能不足以提供可接受的读写吞吐量。这时，我们就可以通过在多台机器上分割数据，使得数据库系统能存储和处理更多的数据。

当单个MongoDB节点的数据量过大的时候，我们通常考虑将数据切分为多个shard，也就是切分为多片。

（一）数据分片之后，整个集群中的MongoDB节点就分为了三类，一类是Router节点，实现前端路由，客户端由此接入，且让整个集群看上去像单一数据库，前端应用可以透明使用。一类是Config节点，存储了整个元数据ClusterMetadata，其中包括 chunk信息，明确知道客户端请求的数据在哪个shard节点上。第三类，shard节点，存储真实的数据，将原有的数据集分片之后平均存储在每一个shard节点之上。
（二）MongoDB的分片机制上建立在副本集概念之上的概念，因为这里每一个shard节点都将组成一个副本集，使每一个shard节点的数据具有高可用性。这里需要补充一个chunk的概念，大数据集首先是切分为多个chunk，之后再将chunk发布到各个shard节点中，就是每一个shard节点的数据都是一个一个的chunk组成的。那么chunk又是基于什么标准切分出来的呢？是这样的，一般在切分chunk的时候，会指定索引，比如age，如果在一个collection中给age这个字段创建了一个索引，那么切分chunk的时候，就以age这个索引来切分，使得1~60岁这个年龄阶段的数据能够根据不同的区间范围，切割为多个chunk，例如1~15岁为一个chunk，15~20岁一个chunk，21~30岁一个chunk，31~60岁一个chunk，每一个chunk的数量大小均等，因此整个collection就被切割成为了3个chunk，chunk信息将会保存至config节点中，而chunk数据将会保存在每一个shard节点中。
（三）shard分片的衡量的标准，也就是根据哪个索引（切片键）进行切片（让经常写的数据尽量离散分散到各个shard中，让经常读的数据尽量集中到一个shard中）

1：基于范围range做分片

例如：以年龄、时间等切片

2：基于离散列表切片

例如：以区域、地名等数据切片

3：基于hash值进行随机切片

例如：以热点人物（例如：aa和bb）做hash之后切片

Mongodb 分片操作 介绍

Mongodb 分片操作介绍