Redis的主从复制 master-slave；哨兵

高并发；高性能；高可用

单机Redis的风险与问题

问题1.机器故障现象：硬盘故障，系统崩溃本质：数据丢失，很可能对业务造成灾难性打击

问题2.容量瓶颈现象：内存不足

为了避免单点服务器故障，准备多台服务器，互相连通。将数据复制多个副本保存在不同的服务器上，连接在一起，并保证数据是同步的。即使有其中一台服务器宕机，其他服务器依然可以继续提供服务，实现Redis的高可用，即数据的冗余备份

主从复制/主从同步：将master中的数据即时有效的复制到slave中特征：一个master可以拥有多个slave，一个slave只对应一个master

（主从复制，主机数据更新后根据配置和策略，自动同步到备机的master/slaver机制，Master以写为主，Slave以读为主）

master：写数据；执行写操作时，将出现变化的数据自动同步到slave；读数据（可忽略） slave：读数据；写数据（禁止）

作用：读写分离，提高服务器的读写负载能力负载均衡故障恢复数据冗余高可用容灾恢复

Redis主从同步的优点：

1、Master可以有多个Slave

2、多个Slave连接到相同Master，Slave还可以连接其他Slave形成图形结构

3、不会阻塞Master。当一个或多个Slave与Master进行初次同步数据时，Master可以继续处理客户端的请求。相反，Slave在初次同步数据时会阻塞从而不能处理客户端的请求（2.2版本后不再阻塞）

4、主从同步用来提高系统的伸缩性，比如多个Slave专门用于客户端的读请求

5、在Master服务器上禁止数据持久化（注释配置文件中所有save配置选项），只在Slave服务器上进行数据持久化

怎么用：配从不配主：

　　　　从库配置：命令-->slaveof 主库IP 主库端口 --> 每次与master断开之后，都需要重新连接，除非你配置进redis.conf文件；Info replication

　　　　修改配置文件细节操作：拷贝多个redis.conf文件；开启daemonize yes；Pid文件名字；指定端口；Loq文件名字；Dump.rdb名字

　　　　常用3招：一主二仆薪火相传反客为主

一主二备：（三角形）

读写分离，只有主机可写，从机只能读

主机宕掉，从机不动，主机恢复后，再更新数据，从机可以继续备份

从机宕掉，需重连

薪火相传：（链式）

反客为主：slaveof no one 使当前数据库停止与其他数据库的同步，转成主数据库

复制原理：Slave启动成功连接到master后会发送一个sync命令

　　　　Master接到命令启动后台的存盘进程，同时收集所有接收到的用于修改数据集命令，在后台进程执行完毕之后，master将传送整个数据文件到slave，以完成一次完全同步

　　　　全量复制：而slave服务在接收到数据库文件数据后，将其存盘并加载到内存中-->快照方式

　　　　增量复制：Master继续将新的所有收集到的修改命令依次传给slave，完成同步

　　　　但是只要是重新连接master，一次完全同步（全量复制）将被自动执行

主从复制三阶段：建立连接阶段-->数据同步阶段-->命令传播阶段

建立连接阶段：建立slave到master的连接，使master能够识别slave，并保存slave端口号

　　　　　流程：

方式：

1.slaveof ip port

2.redis-server --slaveof masterip masterport

3.修改配置文件， slaveof masterip masterport

主从断开连接：slaveof no one

授权访问：

master配置文件设置密码：requirepass password

master客户端发送命令设置密码：config set requirepass password config get requirepass

slave客户端发送命令设置密码：auth password

slave配置文件设置密码：masterauth password

启动客户端设置密码：redis-cli -a password

数据同步阶段工作流程:在slave初次连接master后，复制master中的所有数据到slave，将slave的数据库状态更新成master当前的数据库状态

slave服务器主动发送SYNC命令到Master服务器请求同步

小结：

1.如果master数据量巨大，数据同步阶段应避开流量高峰期，避免造成master阻塞，影响业务正常执行

2.复制缓冲区大小设定不合理，会导致数据溢出。如果进行全量复制周期太长，进行部分复制时发现数据已经存在丢失的情况，必须进行第二次全量复制，导致slave陷入死循环状态 repl-backlog-size 1mb

3.master单机内存占用主机内存的比例不应过大，建议使用50%-70%的内存，留下30%-50%的内存用于执行bgsave命令和创建复制缓冲区

slave

1.为避免slave进行全量复制、部分复制时服务器响应阻塞或数据不同步，建议关闭此期间的对外服务

slave-serve-stale-data yes|no

2.数据同步阶段，master发送给slave信息可以理解master是slave的一个客户端，主动向slave发送命令

3.多个slave同时对master请求数据同步，master发送的RDB文件增多，会对带宽造成巨大冲击，如果master带宽不足，因此数据同步需要根据业务需求，适量错峰

4.slave过多时，建议调整拓扑结构，由一主多从结构变为树状结构，中间的节点既是master，也是slave。注意使用树状结构时，由于层级深度，导致深度越高的slave与最顶层master间数据同步延迟较大，数据一致性变差，应谨慎选择。

命令传播阶段

当master数据库状态被修改后，导致主从服务器数据库状态不一致，此时需要让主从数据同步到一致的状态，同步的动作称为命令传播

master将接收到的数据变更命令发送给slave，slave接受命令后执行命令

命令传播阶段的部分复制：

命令传播阶段出现了断网现象-->网络闪断闪连忽略；短时间网络中断部分复制；长时间网络中断全量复制

部分复制的三个核心要素：服务器的运行id(run id)；主服务器的复制积压缓冲区；主从服务器的复制偏移量

服务器运行ID:

复制缓冲区：是一个先进先出的队列，用于存储服务器执行过的命令，每次传播命令，master都会将传播的命令记录下来，并存储在复制缓冲区

主从服务器复制偏移量offset

概念：一个数字，描述复制缓冲区中的指令字节位置

分类：master复制偏移量-->记录发送给所有slave的指令字节对应的位置（多个）

　　slave复制偏移量-->记录slave接收master发送过来的指令字节对应的位置（一个）

数据来源：master端-->发送一次记录一次

　　　　　slave端-->接受一次记录一次

作用：同步信息，比对master与slave的差异，当slave断线后，恢复数据使用

数据同步+命令传播阶段工作流程

心跳机制

进入命令传播阶段后，master与slave间需要进行信息交换，使用心跳机制进行维护，实现双方连接保持在线

master心跳：指令-->Ping

　　　　　　周期-->由repl-ping-slave-period决定，默认10秒

　　　　　　作用-->判断slave是否在线

　　　　　　查询-->info replication 获取slave最后一次连接时间间隔，lag项维持在0或1视为正常

slave心跳任务：指令-->REPLCONF ACK{offset}

　　　　　　　　周期-->1秒

　　　　　　　　作用1：汇报slave自己的复制偏移量，获取最新的数据变更指令

　　　　　　　　作用2：判断master是否在线

主从复制常见问题：

频繁的全量复制：

1.伴随着系统的运行，master的数据量会越来越大，一旦master重启，runid将发生变化，会导致全部slave的全量复制操作

内部优化方案：（1）master内部创建master_replid变量，使用runid相同的策略生成，长度41位，并发送给所有slave；

　　　　（2）在master关闭时执行命令shutdown save，进行RDB持久化，将runid与offset保存到RDB文件中：

　　　　　　　　repl-id repl-offset

　　　　　　　　通过redis-check-rdb命令可以查看该信息

　　　　（3）master重启后加载RDB文件，恢复数据：

　　　　　　　　重启后，将RDB文件中保存的repl-id与repl-offset加载到内存中

　　　　　　　　　　　　master_repl_id = repl　　master_repl_offset = repl_offset

　　　　　　　　　　　　通过info命令可以查看该信息

作用：本机保存上次runid，重启后恢复该值，使所有slave认为还是之前的master

2.问题现象：网络环境不佳，出现网络中断，slave不提供服务

问题原因：复制缓冲区过小，断网后的slave的offset越界，触发全量复制

最终结果：slave反复进行全量复制

解决方案：修改复制缓冲区大小

频繁的网络中断

数据不一致

哨兵模式：sentinel.conf

哨兵是一个分布式系统，用于对主从结构中的每台服务器进行监控，当出现故障时通过投票机制选择新的master并将所有slave连接到新的master

哨兵的作用：主从切换

监控：不断地检查master和slave是否正常运行

通知（提醒）：当被监控的服务器出现问题时，向其他（哨兵间，客户端）发送通知

自动故障转移：断开master与slave连接，选取一个slave作为master，将其他slave连接到新的master，并告知客户端新的服务器地址

注意：哨兵也是一台Redis服务器，只是不提供数据服务；通常哨兵配置数量为单数

是什么-->反客为主的自动版，能够从后台监控主机是否故障，如果故障了根据投票数自动将从库转换为主库

怎么用-->自定义的/myredis目录下新建sentinel.conf文件

　　　　配置哨兵，填写内容：sentinel monitor被监控数据库名字（自己起名字）127.0.0.1 6379 1 最后一个数字1，表示主机挂掉后slave投票看让谁接替成为主机，得票数多少后成为主机

　　　　启动哨兵：Redis-sentinel /usr/common/sentinel.conf 上述目录按照各自的实际情况配置，可能目录不同

　　　　　　　　主机宕掉之后，会投票选一个从机当作主机，主机重启后会成为新主机的从机

　　　　正常主从演示

　　　　原有的master挂了

　　　　投票新选

　　　　重新主从继续开工，info replication查查看　　

　　　　问题：如果之前的master重启回来，会不会双master冲突？

　　　　一组sentinel能同时监控多个Master

复制的缺点：由于所有的写操作都是先在Master上操作，然后同步更新到Slave上，所以从Master同步到Slave机器有一定的延迟，当系统很繁忙的时候，延迟问题会更加严重，Slave机器数量的增加也会使这个问题更加严重

原理：

阶段一：监控阶段

用于同步各个节点的状态信息：获取各个sentine的状态（是否在线）

　　　　　　　　　　　　　　获取master的状态：master属性-->runid role：master

　　　　　　　　　　　　　　　　　　　　　　　各个slave的详细信息

　　　　　　　　　　　　　　获取所有slave的状态（根据master中的slave信息）

　　　　　　　　　　　　　　　　　　　　　　　　slave属性：runid role：slave　　master_host、master_port　　offset

总结：

监控-->同步信息

通知-->保持联通

故障转移-->发现问题；竞选负责人；优选新master；新master上任，其他slave切换master，原master作为slave故障回复后连接