redis主从同步与故障切换的配置项可能出现的问题

redis主从同步的机制出现的问题：
第一：主从同步不一致

原因：主从库在命令传播阶段：主从库间的命令复制是异步进行的。

即主库将接受到的写命令发发送给从库后，就会去处理客户端的其他请求，而不会等到从库执行完写命令后在返回去处理其他请求，这时如果由于网络原因，从库没有及时从缓冲区读出主库的写命令，

而此时其他客户端访问该数据，得到的就是修改之前的数据，这样就会存在数据不一致的问题。另一方面如果从库接收到了命令，但是其在处理其他高复杂度的命令，也会造成主库传播来的命令延迟执行，

而在主库命令被滞后处理的这段时间内，主库本身可能又执行了新的写操作。这样一来，主从库间的数据不一致程度就会进一步加剧。

解决方案：
（1）在硬件环境配置方面，我们要尽量保证主从库间的网络连接状况良好

（2）因为主从库之间都会维护一个变量：主库（master_repl_offset）与从库（slave_repl_offset）所以当主从库之间如果master_repl_offset-slave_repl_offset的差值达到规定的量后，就可以让客户端与该从服务器关闭连接，

使得客户端避免从从库中读取数据，可以使用外部程序来监控主从库之间的复制进度，进行判断。监控程序可以一直监控着从库的复制进度，当从库的复制进度又赶上主库时，我们就允许客户端再次跟这些从库连接。

第二：因为过期数据出现的问题：
当我们为一个键设置过期时间后，但是在从库中我们还能读到过期的数据，这就与redis删除键的淘汰机制有关：

如果是惰性删除，那么只有在主库访问到过期数据后，才会执行删除，并将删除命令传播给从库

这样在数据过期后，但是为从主库中读，这样就能读到过期数据。

如果是定时删除，但是每次都会从过期键中抽取部分检查删除，每次随机检查数据的数量并不多。如果过期数据很多，并且一直没有再被访问的话，这些数据就会留存在 Redis 实例中。业务应用之所以会读到过期数据，这些留存数据就是一个重要因素。

如果是这样的话，解决方案：
：使用redis3.2之后的版本，redis3.2之后的版本如果读取键，会判断键是否过期，如果键过期那么就会返回空，但是不会删除键。

但是还有一个问题并不是使用3.2之后的版本就代表并不会读到过期数据，

如果对一个键执行EXPIRE 和 PEXPIRE：它们给数据设置的是从命令执行时开始计算的存活时间；那么由于从库传播阶段到执行阶段这之间的时间差，就会造成在从库，该键的过期时间被延后，那么在该键过期后，我们依然可以在一定时间内

从从库读到该数据，这样的话就会造成错误。

解决方案：
EXPIREAT 和 PEXPIREAT：它们会直接把数据的过期时间设置为具体的一个时间点。

故障切换不合理配置项出现的问题：
protected-mode 配置项

这个配置项的作用是限定哨兵实例能否被其他服务器访问。当这个配置项设置为 yes 时，哨兵实例只能在部署的服务器本地进行访问。当设置为 no 时，其他服务器也可以访问这个哨兵实例。

正因为这样，如果 protected-mode 被设置为 yes，而其余哨兵实例部署在其它服务器，那么，这些哨兵实例间就无法通信。当主库故障时，哨兵无法判断主库下线，也无法进行主从切换，最终 Redis 服务不可用。

我们在应用主从集群时，要注意将 protected-mode 配置项设置为 no，并且将 bind 配置项设置为其它哨兵实例的 IP 地址。这样一来，只有在 bind 中设置了 IP 地址的哨兵，才可以访问当前实例，既保证了实例间能够通信进行主从切换，

也保证了哨兵的安全性。（注意是protected-mode结合 bind一起使用）

slave-read-only 是设置从库能否处理写命令，slave-read-only 设置为 yes 时，从库只能处理读请求，无法处理写请求。slave-read-only 的作用，它主要用来控制 slave 是否可写，但是否主动删除过期 key，根据 Redis 版本不同，执行逻辑也不同。

1、如果版本低于 Redis 4.0，slave-read-only 设置为 no，此时 slave 允许写入数据，但如果 key 设置了过期时间，那么这个 key 过期后，虽然在 slave 上查询不到了，但并不会在内存中删除，这些过期 key 会一直占着 Redis 内存无法释放。

2、Redis 4.0 版本解决了上述问题，在 slave 写入带过期时间的 key，slave 会记下这些 key，并且在后台定时检测这些 key 是否已过期，过期后从内存中删除。

但是请注意，这 2 种情况，slave 都不会主动删除由 *master 同步过来带有过期时间的 key*。也就是 master 带有过期时间的 key，什么时候删除由 master 自己维护(即master执行del命令，并进行命令传播到从库)，slave 不会介入。如果 slave 设置了 slave-read-only = no，而且是 4.0+ 版本，slave 也只维护直接向自己写入的带有过期的 key，过期时只删除这些 key。

主从同步其余 2 个问题:

1、主从库设置的 maxmemory 不同，如果 slave 比 master 小，那么 slave 内存就会优先达到 maxmemroy，然后开始淘汰数据，此时主从库也会产生不一致。

2、如果主从同步的 client-output-buffer-limit 设置过小，并且 master 数据量很大，主从全量同步时可能会导致 buffer 溢出，溢出后主从全量同步就会失败。如果主从集群配置了哨兵，那么哨兵会让 slave 继续向 master 发起全量同步请求，然后 buffer 又溢出同步失败，如此反复，会形成复制风暴，这会浪费 master 大量的 CPU、内存、带宽资源，也会让 master 产生阻塞的风险。