缓存

　　【前言】最近看到django的缓存，因为动态页面对缓存还是有比较大的需求的，我们默认的是在setting中设置使用内存作为缓存。只要不频繁并发的查询，部署到服务器上也不会占用太大的缓存。有人在git上开源用redis做缓存，计算机技术真的是有趣而博大精深。下面转一篇当下大的公司使用缓存情景的介绍。

　　转自阿里社区：https://yq.aliyun.com/articles/11228

　　说起缓存相关技术，老多了， memcache、redis、squid、varnish、web cache、 CDN等等。缓存技术五花八门，但这些技术间有什么共性的地方，又有什么不同的地方呢？答案肯定是有的，这次为大家分享及整理一下缓存方面的技术，主要分为三个系列展开：

　　缓存随谈系列之一：数据库缓存

　　缓存随谈系列之二：静态缓存

　　缓存随谈系列之三：动态缓存

（一）数据库缓存

一、什么是数据库缓存

　　我们知道常见的数据库，比如oracle、mysql等，数据都是存放在磁盘中。虽然在数据库层也做了对应的缓存，但这种数据库层次的缓存一般针对的是查询内容，而且粒度也太小，一般只有表中数据没有变更的时候，数据库对应的cache才发挥了作用。但这并不能减少业务系统对数据库产生的增、删、查、改的庞大IO压力。所以数据库缓存技术在此诞生，实现热点数据的高速缓存，提高应用的响应速度，极大缓解后端数据库的压力。

以下为memcache数据库缓存为例，以图说明一下什么是数据库缓存：

二、数据库缓存的技术特点

1、性能优越

　　数据库缓存的第一个技术特点就是提高性能，所以数据库缓存的数据基本上都是存储在内存中，相比io读写的速度，数据访问快速返回。而且在mysql 5.6的版本开始，已经把memcache这种跟数据库缓存直接挂钩的中间件直接集成进去了，已经等不及我们自己去单独部署对应数据库缓存的中间件了。

2、应用场景

　　针对数据库的增、删、查、改，数据库缓存技术应用场景绝大部分针对的是“查”的场景。比如，一篇经常访问的帖子/文章/新闻、热门商品的描述信息、好友评论/留言等。因为在常见的应用中，数据库层次的压力有80%的是查询，20%的才是数据的变更操作。所以绝大部分的应用场景的还是“查”缓存。当然，“增、删、改”的场景也是有的。比如，一篇文章访问的次数，不可能每访问一次，我们就去数据库里面加一次吧？这种时候，我们一般“增”场景的缓存就必不可少。否则，一篇文章被访问了十万次，代码层次不会还去做十万次的数据库操作吧。

3、数据一致性

　　在很多应用场景中，当一个数据发生变更的时候，很多人在考虑怎么样确保缓存数据和数据库中数据保存一致性，确保从缓存读取的数据是最新的。甚至，有人在对应数据变更的时候，先更新数据库，然后再去更新缓存。我觉得这个考虑不太现实，一方面这会导致代码层次逻辑变得复杂，另外一方面也真想不明白还要缓存干什么了。在绝大多数的应用中，缓存中的数据和数据库中的数据是不一致的。即，我们牺牲了实时性换回了访问速度。比如，一篇经常访问的帖子，可能这篇帖子已经在数据库层次进行了变更。而我们每次访问的时候，读取的都是缓存中的数据（帖子）。既然是缓存，那么必然是对实时性可以有一定的容忍度的数据，容忍度的时间可以是5分钟，也可以是5小时，取决于业务场景的要求。相反，一定要求是实时性的数据库，就不应该从缓存里读取，比如库存，再比如价格。

4、高可用

　　自从有了缓存，代码每天快乐的去缓存中愉快的玩耍。为什么说高可用呢，我们知道缓存为数据库抵挡了很多压力，同时也为应用提供了良好的访问速度。但同时有没有想过缓存的感受，如果当数据库缓存“罢工”了，这会出现什么后果？特别在一些高并发的应用中，数据库层肯定是“消化不良“，最终导致应用全面崩溃。所以缓存的高可用显得非常重要。

三、数据库缓存常见开源技术

　　要说用于数据库缓存场景的开源技术，那必然是memcache和redis这两个中间件。

　　因为都是专注于内存缓存领域，memcache和redis向来都有争议。比如性能，到底是memcache性能好，还是redis性能更好等。同样都是内存缓存技术，它们都有自己的技术特性。没有更好的技术，只有更合适的技术。个人总结一下，有持久化需求或者对数据结构和处理有高级要求的应用，选择redis。其他简单的key/value存储，选择memcache。所以根据自身业务特性，数据库缓存来选择适合自己的技术。

　　 redis缓存的一篇文章：https://www.cnblogs.com/rjzheng/p/9096228.htm （性能和并发）

　　暂不说用不用数据库缓存，见过有人把session存储在数据库中的，也见过把视频/文件转化成二进制存储在数据库的，这种行为无疑是逆天的。合理应用数据库缓存技术，且行且珍惜，切勿走向误区。

（二）静态缓存

　　静态缓存，一般指 web 类应用中，将图片、js、css、视频、html等静态文件/资源通过磁盘/内存等缓存方式，提高资源响应方式，减少服务器压力/资源开销的一门缓存技术。说起静态缓存技术，CDN是经典代表之作。静态缓存技术面非常广，涉及的开源技术包含apache、Lighttpd、nginx、varnish、squid等。

　　本文主要通过：浏览器缓存、磁盘缓存、内存缓存、nginx的内存缓存、CDN五个方面围绕静态缓存而展开。

一、浏览器缓存

　　浏览器缓存，也称为客户端缓存，是静态缓存中最常见最直接的表现形式，很多时候都往往被人忽略掉。

　　案例1：

　　我们经常在nginx的配置文件中看到以下缓存配置：

6d000037ed9f276fc6c

　　案例2：

　　在经常写 jsp 的时候，html 标签中关于 http 头信息也可以注意到“ expires ”的字样：

6d100037e15c8ded90d

　　对于案例1和案例2中（nginx设置的expires优先级大于代码中设置的expires优先级），expires是给一个资源设定一个过期时间，也就是说无需去服务端验证，直接通过浏览器自身确认是否过期即可，所以不会产生额外的流量。此种方法非常适合不经常变动的资源。如果文件变动较频繁，就不要使用 expires 来缓存。

　　比如对于常见类web网站来说，css 样式和 js 脚本基本已经定型，所以最适合的方法是 expires 来缓存一些内容到访问者浏览器。

　　案例3：

　　通过 chrome 访问服务器端的一张图片，用F12键打开开发者前端调试工具：

6d000037eda08b47417

　　第一次访问，响应200状态，当第二次及后续访问的时候，变成304状态，客户端已经开始获取浏览器缓存内容，而不需要去服务器端获取对应的请求内容，即 nginx 中 expires 参数设置已经生效。等待客户端缓存时间过期后，会再次请求服务器端内容来更新本地缓存。

6d000037edbc442d9b9

　　介绍到这里，突然想起一个有意思的需求。比如，访问一张静态文件，不想客户端缓存，需要每次都去服务器端取数据。我们可以用“ last-modified ”参数来实现，即“ last-modified ”是根据文件更新时间来确定是否再次发送加载。

　　Nginx核心配置如下：

6d000037ed8acbc1f97

　　我们更改掉服务器传回客户端的“ last-modified ”文件修改时间参数的值，这样导致客户端本地保存的文件时间每次跟服务器端传回来的时间不一致，所以每次客户端“ 误认为 ”服务器端有静态文件更新，每次都会去服务器端取“ 所谓的最新数据 ”。这样我们可以看到，不管在浏览器访问多少次，返回的 http 状态都是200，再也找不到304状态了。

　　误区：在 nginx 中设置 expires，并不是指把静态内容缓存在 nginx 中，而是设置客户端浏览器缓存的时间，这是很多人的误区所在。

　　PS：我的爬虫验证码项目不就是浏览器缓存的一种应用吗？？

二、磁盘缓存

　　除了存储在客户端的静态缓存（浏览器静态）技术外，在服务器端的静态缓存技术主要分为磁盘缓存和内存缓存两大类。单纯围绕 nginx 的 squid、varnish 等一类中间件，处理静态数据的性能十分优秀。核心是 nginx 基于 epoll 网络模型，而相比 apache 基于 select 网络模型。所以 apache 的优势在于密计算型，稳定性好。而 nginx 偏向静态处理，反向代理，高并发。比如 apache+php 的稳定性比 nginx+php 要好，而性能是明显 nginx 要优秀许多。

以上仅单纯是对磁盘中静态数据处理的能力，所谓磁盘缓存，指另外的一种缓存静态文件的技术。以 nginx 配置为例：

6d100037e19d4127df6

　　可以看出 nginx 主要通过 proxy_cache 来实现 web cache，熟悉 nginx 的同学，不难看出，以上配置在 location 这里，不仅可以实现静态文件的缓存，还可以实现动态文件的缓存（这里放在下章节详细介绍）。我们编写个 test.html测试文件，然后并访问。test.html 源码如下：

6d000037edc9ba52346

我们发现服务器的 cache 目录里面，多了两个缓存文件：

6d100037e1746809432

有意思的，这两个文件里面的内容分别为（通过 less 命令查看）：

6d100037e1ae69f0753

（b0ad5d3e7f099bfff9e4fc6a159d868c）

6d100037e1e193e6dbb

（53edc39ed253e14415a29412cfc01faf）

　　所以不难看出，nginx 把 html 内容和图片二进制全部缓存到本地磁盘上了。下次用户再次来访问 test.html 的时候，nginx 直接将缓存在本地磁盘的文件返回给用户。特别是后端如若是部署的 tomcat、iis 等，nginx 强大的静态缓存能力，有效减少了服务器压力。

三、内存缓存

　　紧接上面描述的磁盘缓存，内存缓存顾名思义，就是把静态文件缓存在服务器端的内存中。所以这种缓存，如若命中缓存的话，取内存中的缓存数据返回比取磁盘中的缓存数据返回，性能要高很多。以 varnish 为例，varnish 核心配置如下：

启动命令：

6d100037e18e22f534b

参数简介：

6d000037ee413494231

default.vcl核心配置如下：

6d000037ee6dd062ae8

Varnish对.gif、.jpg、.jpeg、.png等结尾的 URL 缓存时间设置1小时。varnish设置完毕后，我们用命令行方式，通过查看网页头来查看命中情况：

6d000037ee881153360

6d100037e203342923b

　　最后，我们可以通过 varnishadm 命令来清理缓存，也可以通过 varnishstat 命令来查看 varnish 系统缓存状态。

四、Nginx 的内存缓存

以上主要以 Varnish 为例，介绍了内存缓存静态资源的方法。其实 nginx 也有内存缓存，相比 squid、varnish 而言，nginx 的内存缓存需要通过编码实现。如下配置：

6d000037ee7f70a3812

memcached_pass 指定服务器地址，使用变量 $memcache_key 为 key 查询值，去 memcache 查询对应 value 值。

如我们访问：http://***.***.***.***/image/test.jpg ,则 nginx 去 memcache 中查询key 为“ test.jpg ”的 value 值并返回。如果没有相应的值，则返回 error_page 404。介绍到这里，关键在于存储在 memcache 中的静态文件，需要通过代码写入 memcache 中。怎么样通过 php/java 等代码把静态资源的数据写入 memcache 中，关于这块的示例就不再过多介绍了。

Nginx的内存缓存因为需要通过编码实现，所以灵活性特别高。这块可以结合自身业务系统的特点，让静态缓存的灵活性和效率都能得到保障。可能唯一的缺陷就是，通过编码实现的方式，给我们维护管理带来了负担。在之前我曾参与的一个电商系统，就是把客户的订单照片通过 php 代码写入 memcache，客户访问取图的时候，从 memcache 中获取，速度效率特别高。Nginx 作为一款在七层无所不能且轻量级高性能的中间件，能够直接去 memcache 中取数据，来实现静态缓存的效果，这块相应的功能是其他软件无法相媲美的。

五、CDN

　　说起 CDN，大家都不陌生，它是静态缓存加速最典型的代表。CDN技术并不是一门新的技术，它是基于传统 nginx、squid、varnish 等 web 缓存技术，结合 DNS 智能解析的静态缓存加速技术。值得注意的是，他对动态链接访问并没有加速效果。架构原理图如下：

6d100037e2349afb0db

　　所以CDN的静态缓存技术核心主要在于两点：

　　节点缓存：对需要加速的网站应用，相应的静态资源通过内存缓存+磁盘缓存的方式缓存在服务器端。

　　精准调度：对访问的用户 ip 进行智能解析调度，实现就近缓存节点访问。比如以上图例中，北京用户访问 www.a.com。通过 dns 解析的时候，分析用户 ip，发现是北京用户。则 dns 返回对应北京缓存节点的 ip 地址给到用户，则用户 www.a.com 默认访问北京服务器上面的缓存数据，实现就近访问的策略，大大提升了访问速度。

（三）动态缓存

　　背景是这样的，在两会期间，我们参加了新华社新闻推送方面业务的运维保驾护航。在这方面我们遇到一个很棘手的问题，就是热点类新闻推送，是高并发应用场景，如同电商的秒杀应用。瞬时的热点新闻访问，高并发的场景给数据库缓存及数据库带来了极大的负荷。针对这种场景（采用nginx+php部署的后端应用，前端为手机app客户端），我们采用了动态缓存技术，单机处理能力从50tps提升到5000tps。所以对此技术场景进行了整理，就有了一种想要分享的冲动，本来主要针对动态缓存来进行分享。整理了一下相关的缓存技术，结合数据库缓存、静态缓存（使用静态缓存提升网站性能的五种方法）、动态缓存组成了缓存系列。

　　何为动态缓存？即对动态页面的缓存。如，对 .do、.jsp、.asp/.aspx、.php、.js(nodejs)等动态页面缓存。可以看出，动态页面一般都会涉及动态计算、数据库缓存、数据库操作，所以每一次访问同一个页面，所获得的数据可能都有所不同。所以如若对数据及时性要求较高的应用，可能不太适合动态缓存。比如，对一个动态页面缓存了半个小时，用户请求访问该动态页面，返回缓存中的数据。很有可能，缓存中的页面数据即半个小时前缓存的页面数据状态。所以，动态缓存，是牺牲数据的及时性换取性能的技术。具体缓存设置多长时间，这个根据业务情况而来。

一、 nginx动态缓存的原理概要

　　nginx的动态缓存主要通过反向代理（http的负载均衡）实现，所以基本上可以实现所有动态页面的缓存，当然静态页面也能缓存（在上一个系列中已分享过通过nginx实现静态缓存的方式）。
　　架构原理图如下图1：

　　　　　　　　　　　　图1

　　如上图所示，nginx做负载均衡反向代理，将用户请求转发至后端服务器。我们可以在nginx这层根据规则设置动态/静态缓存，即每次客户请求，直接由nginx将缓存数据返回，而不用再到后端获取响应数据。
　　Nginx动态缓存核心配置（以缓存jsp为例）：

#levels设置目录层次 
#keys_zone设置缓存名字和共享内存大小 
#inactive在指定时间内没人访问则被删除在这里是1天 
#max_size最大缓存空间
proxy_cache_path /alidata/www/default/cache_dir/ levels=1:2  keys_zone=cache_one:200m inactive=1d max_size=30g;
server {
    listen       80;
    server_name  _;
    location /{
           proxy_pass http://10.117.39.67:8080;
           proxy_set_header   Host             $host;
           proxy_set_header   X-Real-IP        $remote_addr;
           proxy_set_header   X-Forwarded-For  $proxy_add_x_forwarded_for;
    }

    location ~ .*.jsp$
    {
           proxy_cache cache_one;                    # keys_zone后的内容对应
           proxy_cache_valid  200 304 301 302 10d;   #哪些状态缓存多长时间  
           proxy_cache_valid  any 1d;                #其他的缓存多长时间  
           proxy_cache_key $host$uri$is_args$args;   #通过key来hash，定义KEY的值
          
           proxy_pass http://10.117.39.67:8080;
           proxy_set_header   Host             $host;  
           proxy_set_header   X-Real-IP        $remote_addr;  
           proxy_set_header   X-Forwarded-For  $proxy_add_x_forwarded_for;  
    } 
   
   access_log  /alidata/nginx/logs/default-cache.log;
}

　　以上配置在上一篇介绍静态缓存的时候，有看到类似配置。其实对于nginx而言，动态缓存和静态缓存的配置基本一致。唯一的区别就是，静态缓存的location配置中，正则匹配的是静态访问请求。而动态缓存的location配置中，正则匹配的是动态访问请求。

二、案例一：nginx对jsp的动态缓存

在MyEclipse中，新建一个test的web项目，然后在默认的index.jsp中简单输出测试文字、当前日期及一张图片。index.jsp测试代码明细：

<%@ page language="java" import="java.util.*,java.text.SimpleDateFormat,java.text.DateFormat" pageEncoding="utf-8"%>

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <title>This is test page</title>
    <meta http-equiv="pragma" content="no-cache">
    <meta http-equiv="cache-control" content="no-cache">
    <meta http-equiv="expires" content="0">    
    <meta http-equiv="keywords" content="keyword1,keyword2,keyword3">
    <meta http-equiv="description" content="This is my page">
  </head>
  <body>
    This is my JSP page. <br>
    ![](eg_tulip.jpg)<br>
    <%
      Date date = new Date(); 
      DateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss");
      out.print("Now the time is :" + df.format(date));
    %>
  </body>
</html>

然后我们部署到tomcat中，且前端用nginx做反向代理，部署结构如下图2：

图2

为了测试方便，在后端仅部署了一台test tomcat。Nginx反向代理的配置如下：

server {
    listen       80;
    server_name  _;
    location /{
           proxy_pass http://10.117.39.67:8080;
           proxy_set_header   Host             $host;
           proxy_set_header   X-Real-IP        $remote_addr;
           proxy_set_header   X-Forwarded-For  $proxy_add_x_forwarded_for;
    }
   access_log  /alidata/nginx/logs/default-cache.log;
}

每次刷新浏览器我们可以看到显示的时间都是不一样的（如下图3）：