缓存与数据库的一致性

https://blog.csdn.net/huazhongkejidaxuezpp/article/details/88945627

背景
cache如memcache，redia等缓存来缓存数据库读取出来的数据，以提高读性能。但凡是使用缓存的项目，几乎都会遇到一个普遍的问题：在不断增删改数据的过程中，如何保持缓存与数据库中数据的一致性。在支付、下单类业务中，此类问题尤为普遍。下面就自己对此的一些理解。浅谈一下自己的看法。

缓存的衡量指标
命中率、响应时间；缓存一致性。

命中率：请求的命中率与miss率。可以通过一定的工具监控到。

响应时间：包括命中时的响应时间，非命中时的响应时间。

缓存一致性：在不断进行增删改操作后，缓存中的数据是否与数据库数据保持一致，避免二者不一致，获取数据不正确的情况发生。

使用缓存可能带来的问题
分布式环境下非常容易出现缓存和数据库间的数据一致性问题。在使用缓存前，如果你的项目对缓存的要求是强一致性的，那么请不要使用缓存。我们只能采取合适的策略来降低缓存和数据库间数据不一致的概率，而无法保证两者间的强一致性。

经典的几个问题如下：

1）缓存和数据库间数据一致性问题

问题描述：缓存和数据库间的数据不一致。缓存与数据库不一致的情况，大致分为三类：

数据库有数据，缓存没有数据；

数据库有数据，缓存也有数据，数据不相等；

数据库没有数据，缓存有数据。

合适的策略：包括合适的缓存更新策略，更新数据库后要及时更新缓存、缓存失败时增加重试机制，例如MQ模式的消息队列。

2）缓存击穿问题

问题描述：缓存击穿表示恶意用户模拟请求很多缓存中不存在的数据，由于缓存中都没有，导致这些请求短时间内直接落在了数据库上，导致数据库异常。

场景举例：抢购活动、秒杀活动的接口API被大量的恶意用户刷，导致短时间内数据库宕机了

解决方案：

使用互斥锁排队
业界比较普遍的一种做法，即根据key获取value值为空时，锁上，从数据库中load数据后再释放锁。若其它线程获取锁失败，则等待一段时间后重试。这里要注意，分布式环境中要使用分布式锁，单机的话用普通的锁（synchronized、Lock）就够了。

从一定程度上减轻数据库压力，但是锁机制使得逻辑的复杂度增加，吞吐量也降低了，有点治标不治本

布隆过滤器（推荐）
bloomfilter就类似于一个hash set，用于快速判某个元素是否存在于集合中，其典型的应用场景就是快速判断一个key是否存在于某容器，不存在就直接返回。布隆过滤器的关键就在于hash算法和容器大小

3）缓存雪崩问题

问题描述：缓存在同一时间内大量键过期（失效），接着来的一大波请求瞬间都落在了数据库中导致连接异常。

解决方案：

加锁排队
建立备份缓存，缓存A和缓存B，A设置超时时间，B不设值超时时间，先从A读缓存，A没有读B，并且更新A缓存和B缓存;
4）缓存并发问题

问题描述：多个redis的client同时set key引起的并发问题

解决方案：

把redis.set操作放在队列中使其串行化，必须的一个一个执行
加锁
缓存使用/更新套路
1. 首先尝试从缓存读取，读到数据则直接返回；如果读不到，就更新数据库，并将数据会写到缓存，并返回。

2. 需要更新数据时，先更新数据库，然后把缓存里对应的数据失效掉（删掉）。

进一步思考：
先删除缓存，然后再更新数据库：如果A,B两个线程同时要更新数据，并且A,B已经都做完了删除缓存这一步，接下来，A先更新了数据库，C线程读取数据，由于缓存没有，则查数据库，并把A更新的数据，写入了缓存，最后B更新数据库。那么缓存和数据库的值就不一致

为什么最后是把缓存的数据删掉，而不是把更新的数据写到缓存里。这么做引发的问题是，如果A,B两个线程同时做数据更新，A先更新了数据库，B后更新数据库，则此时数据库里存的是B的数据。而更新缓存的时候，是B先更新了缓存，而A后更新了缓存，则缓存里是A的数据。这样缓存和数据库的数据也不一致。

效果：理论上也是有不一致的风险的，但概率很小。不一致原因：产生的原因是更新数据库成功，但是删除缓存失败。可以进一步考虑的方案：

1. 对删除缓存进行重试，数据的一致性要求越高，我越是重试得快。

2. 定期全量更新，简单地说，就是我定期把缓存全部清掉，然后再全量加载。

3. 给所有的缓存一个失效期。失效期越短，数据一致性越高。但是失效期越短，查数据库就会越频繁。因此失效期应该根据业务来定

进一步思考，当更新数据库时候，缓存应该如何更新
更新缓存VS淘汰缓存

答：更新缓存很直接，但是涉及到本次更新的数据结果需要一堆数据运算（例如更新用户余额，可能需要先看看有没有优惠券等），复杂度就增加了。而淘汰缓存仅仅会增加一次cache miss，代价可以忽略，所以建议淘汰缓存。当然了可以采用更新缓存而不是淘汰缓存，前提是更新的代价比较低

测试思路
测试缓存的时候，除了业务在正常情况下需要正常交互外，尤其是热点key过期的时候，需要测试击穿，以及雪崩，穿透等情形对下游DB的并发请求带来的影响。

测试场景：

1、命中情况下：响应情况

2、并发下、非命中下响应情况

思考点

测试点

(雪崩)缓存会不会集中失效？如会，怎么避免？

1、 (如果会失效)模拟集中失效场景

2、查看服务响应情况

3、如果有措施，测试措施的效果。

措施例如：

在缓存的时候给过期时间加上一个随机值，这样就会大幅度的减少缓存在同一时间过期。
缓存key是什么？为什么？

1、key的内容

2、缓存占用的大小

会不会出现缓存穿透？如何避免？

缓存穿透是指查询一个一定不存在的数据

1、模拟穿透情况

2、查看服务响应情况

3、测试应对方案：

1）使用互斥锁

2）从数据库找不到的时候，我们也将这个空对象设置到缓存里边去

3）布隆过滤器(BloomFilter)或者压缩filter提前拦截，不合法就不让这个请求到数据库层

如果缓存挂了，业务是否会有影响？怎么控制这里的影响面？

1、模拟缓存挂了的情况

2、查看服务响应情况

3、测试应对缓存挂掉的方案：

事发前：实现redis的高可用，尽量避免缓存全部挂掉

事发中：万一redis真的挂了，我们可以设置本地缓存(ehcache)+限流(hystrix)，确保业务正常

事发后：redis持久化，重启后自动从磁盘上加载数据，快速恢复缓存数据。

什么时候更新缓存？如何确保更新成功？

1、模拟业务(并发)各种增删改查的情况

2、检查缓存更新情况

3、测试不同更新策略

ps-两种策略各自有优缺点：

先删除缓存，再更新数据库：在高并发下表现不如意，在原子性被破坏时表现优异；
先更新数据库，再删除缓存(Cache Aside Pattern设计模式)：在高并发下表现优异，在原子性被破坏时表现不如意
失效时间是多少？为什么？

1、失效时间设置多少

2、失效后影响

缓存方案命中率/miss率多少

1、模拟缓存使用场景

2、评估命中率/miss率

3、使用工具监控命中率/miss率