关于页面缓存服务器的研究报告

1 前言

目前，Web缓存服务器的应用模式主要是正向代理和反向代理。正向代理(Proxy)模式是代理网络用户访问internet，客户端将本来要直接发送到internet上源服务器的连接请求发送给代理服务器处理。正向代理的目的是加速用户在使用浏览器访问Internet时的请求响应时间，并提高广域网线路的利用率。正向代理浏览器无需和该站点建立联系，只访问到Web缓存即可。通过正向代理，大大提高了后续用户的访问速度，使他们无需再穿越Internet，只要从本地Web缓存就可以获取所需要的信息，避免了带宽问题，同时可以大量减少重复请求在网络上的传输，从而降低网络流量，节省资费。

反向代理(Reverse Proxy)模式是针对Web服务器加速功能的，在该模式中，缓存服务器放置在web应用服务器的前面，当用户访问web应用服务器的时候，首先经过缓存服务器，并将用户的请求和应用服务器应答的内容写入缓存服务器中，从而为后续用户的访问提供更快的响应。

2 流行的缓存服务器

2.1 Squid缓存服务器

Squid是一种用来缓冲Internet数据的软件。它是这样实现其功能的，接受来自人们需要下载的目标（object）的请求并适当地处理这些请求。也就是说，如果一个人想下载一web页面，他请求Squid为他取得这个页面。Squid随之连接到远程服务器（比如：http：//squid.nlanr.net/）并向这个页面发出请求。然后，Squid显式地聚集数据到客户端机器，而且同时复制一份。当下一次有人需要同一页面时，Squid可以简单地从磁盘中读到它，那样数据迅即就会传输到客户机上。当前的Squid可以处理HTTP，FTP，GOPHER，SSL和WAIS等协议。但它不能处理如POP，NNTP，RealAudio以及其它类型的东西。

Squid能够实现的功能：

a． 标准的代理缓冲服务器

一个标准的代理缓冲服务被用于缓存静态的网页（例如：html文件和图片文件等）到本地网络上的一台主机上（即代理服务器）。当被缓存的页面被第二次访问的时候，浏览器将直接从本地代理服务器那里获取请求数据而不再向原web站点请求数据。这样就节省了宝贵的网络带宽，而且提高了访问速度。但是，要想实现这种方式，必须在每一个内部主机的浏览器上明确指明代理服务器的IP地址和端口号。客户端上网时，每次都把请求送给代理服务器处理，代理服务器根据请求确定是否连接到远程web服务器获取数据。如果在本地缓冲区有目标文件，则直接将文件传给用户即可。如果没有的话则先取回文件，先在本地保存一份缓冲，然后将文件发给客户端浏览器。

b． 透明代理缓冲服务器

　　透明代理缓冲服务和标准代理服务器的功能完全相同。但是，代理操作对客户端的浏览器是透明的（即不需指明代理服务器的IP和端口）。透明代理服务器阻断网络通信，并且过滤出访问外部的HTTP（80端口）流量。如果客户端的请求在本地有缓冲则将缓冲的数据直接发给用户，如果在本地没有缓冲则向远程web服务器发出请求，其余操作和标准的代理服务器完全相同。对于Linux操作系统来说，透明代理使用Iptables或者Ipchains实现。因为不需要对浏览器作任何设置，所以，透明代理对于ISP（Internet服务器提供商）特别有用。

c. 反向代理缓冲服务器

　　反向代理是和前两种代理完全不同的一种代理服务。使用它可以降低原始WEB服务器的负载。反向代理服务器承担了对原始WEB服务器的静态页面的请求，防止原始服务器过载。它位于本地WEB服务器和Internet之间，处理所有对WEB服务器的请求，组织了WEB服务器和Internet的直接通信。如果互联网用户请求的页面在代理服务器上有缓冲的话，代理服务器直接将缓冲内容发送给用户。如果没有缓冲则先向WEB服务器发出请求，取回数据，本地缓存后再发送给用户。这种方式通过降低了向WEB服务器的请求数从而降低了WEB服务器的负载。

2.2 Nginx缓存服务器

Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日，nginx 1.0.4发布。

Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器，并在一个BSD-like 协议下发行。由俄罗斯的程序设计师Igor Sysoev所开发，供俄国大型的入口网站及搜索引擎Rambler（俄文：Рамблер）使用。其特点是占有内存少，并发能力强，事实上nginx的并发能力确实在同类型的网页服务器中表现较好，中国大陆使用nginx网站用户有：百度、新浪、网易、腾讯等。

Nginx随具有缓存功能，但是对于缓存这一功能来说并不是专业的，他的主要用途还是作为web服务器来使用。

2.3 Varnish缓存服务器

Varnish 是一款高性能且开源的反向代理服务器和 HTTP 加速器，其采用全新的软件体系机构，和现在的硬件体系紧密配合，与传统的 squid 相比，varnish 具有性能更高、速度更快、管理更加方便等诸多优点，很多大型的网站都开始尝试使用 varnish 来替换 squid，这些都促进 varnish 迅速发展起来。挪威的最大的在线报纸 Verdens Gang(vg.no) 使用 3 台 Varnish 代替了原来的 12 台 Squid，性能比以前更好，这是 Varnish 最成功的应用案例。

varnish本身的技术上优势要高于squid，它采用了“Visual Page Cache”技术，在内存的利用上，Varnish比Squid具有优势，它避免了Squid频繁在内存、磁盘中交换文件，性能要比Squid高。 varnish是不能cache到本地硬盘上的。还有强大的通过Varnish管理端口，可以使用正则表达式快速、批量地清除部分缓存。

Varnish 与一般服务器软件类似，分为 master 进程和 child 进程。Master 进程读入存储配置文件，调用合适的存储类型，然后创建 / 读入相应大小的缓存文件，接着 master 初始化管理该存储空间的结构体，然后 fork 并监控 child 进程。Child 进程在主线程的初始化的过程中，将前面打开的存储文件整个 mmap 到内存中，此时创建并初始化空闲结构体，挂到存储管理结构体，以待分配。Child 进程分配若干线程进行工作，主要包括一些管理线程和很多 worker 线程。

varnish 的某个负责接收新 HTTP 连接线程开始等待用户，如果有新的 HTTP 连接过来，它总负责接收，然后唤醒某个等待中的线程，并把具体的处理过程交给它。Worker 线程读入 HTTP 请求的 URI，查找已有的 object，如果命中则直接返回并回复用户。如果没有命中，则需要将所请求的内容，从后端服务器中取过来，存到缓存中，然后再回复。

分配缓存的过程是这样的：它根据所读到 object 的大小，创建相应大小的缓存文件。为了读写方便，程序会把每个 object 的大小变为最接近其大小的内存页面倍数。然后从现有的空闲存储结构体中查找，找到最合适的大小的空闲存储块，分配给它。如果空闲块没有用完，就把多余的内存另外组成一个空闲存储块，挂到管理结构体上。如果缓存已满，就根据 LRU 机制，把最旧的 object 释放掉。

释放缓存的过程是这样的：有一个超时线程，检测缓存中所有 object 的生存期，如果超初设定的 TTL（Time To Live）没有被访问，就删除之，并且释放相应的结构体及存储内存。注意释放时会检查该存储内存块前面或后面的空闲内存块，如果前面或后面的空闲内存和该释放内存是连续的，就将它们合并成更大一块内存。

整个文件缓存的管理，没有考虑文件与内存的关系，实际上是将所有的 object 都考虑是在内存中，如果系统内存不足，系统会自动将其换到 swap 空间，而不需要 varnish 程序去控制。

3 页面缓存的最优方案

3.1 性能对比（该测试报告来自网络）

一、测试环境

1，硬件是奔腾双核，机子三年前买的。系统是archlinux

2，测试varnish和squid的时候，web服务用的apache

3，测试nginx的时候，启动了十个nginx进程，20个php-cgi进程

4，varnish，squid，nginx用的是反向代理的形势，也就是说访问图片的时候，要先透过缓存工具

二，测试

1，varnish

[root@BlackGhost bin]# /usr/local/bin/webbench -c 100 -t 20 http://127.0.0.1:8080/00/01/RwGowEtWvcQAAAAAAAAWHH0Rklg81.gif
Webbench - Simple Web Benchmark 1.5
Copyright (c) Radim Kolar 1997-2004, GPL Open Source Software.

Benchmarking: GET http://127.0.0.1:8080/00/01/RwGowEtWvcQAAAAAAAAWHH0Rklg81.gif
100 clients, running 20 sec.

Speed=476508 pages/min, 47258114 bytes/sec.
Requests: 158836 susceed, 0 failed.

2，squid

[root@BlackGhost bin]# /usr/local/bin/webbench -c 100 -t 20 http://localhost:9000/00/01/RwGowEtWvcQAAAAAAAAWHH0Rklg81.gif
Webbench - Simple Web Benchmark 1.5
Copyright (c) Radim Kolar 1997-2004, GPL Open Source Software.

Benchmarking: GET http://localhost:9000/00/01/RwGowEtWvcQAAAAAAAAWHH0Rklg81.gif
100 clients, running 20 sec.

Speed=133794 pages/min, 7475018 bytes/sec.
Requests: 44598 susceed, 0 failed.

3，nginx

[root@BlackGhost conf]# /usr/local/bin/webbench -c 100 -t 20 http://localhost:10000/00/01/RwGowEtWvcQAAAAAAAAWHH0Rklg81.gif
Webbench - Simple Web Benchmark 1.5
Copyright (c) Radim Kolar 1997-2004, GPL Open Source Software.

Benchmarking: GET http://localhost:10000/00/01/RwGowEtWvcQAAAAAAAAWHH0Rklg81.gif
100 clients, running 20 sec.

Speed=304053 pages/min, 30121517 bytes/sec.
Requests: 101351 susceed, 0 failed.

3.2 varnish是最佳的缓存服务器

从这些功能上看varnish和squid是专业的cache服务，而nginx等这些都是第三方模块完成。要做cache服务的话，我们肯定是要选择专业的cache服务，优先选择squid和varnish。经过对以上最流行的三中缓存服务进行对比发现，Varnish是实现页面缓存的最佳方案。（请参照3.1性能对比）

4 Varnish缓存服务器安装和配置

*来源网络，实际配置安装手册正在完善

4.1下载 varnish 安装包

建议下载最新稳定版本（现在最新 varnish 版本为 3.0.2），varnish 提供源代码安装包和可执行程序安装包，按照您的习惯下载适合您平台的任一安装包即可。

4.2安装 varnish

源代码安装包安装

首先安装 pcre 库，pcre 库是为兼容正则表达式，如果不安装，在安装 varnish2.0 版本以上时，会提示找不到 pcre 库。以下是 pcre 的安装过程，其代码如清单 1 所示：

清单 1. pcre 库安装代码

     tar zxvf pcre.tar.gz

     cd pcre/

     ./configure --prefix=/usr/local/pcre/

     Make && make install

安装 varnish，其代码如清单 2 所示：

清单 2. varnish 安装代码

        tar xzvf varnish-3.0.2.tar.gz

        cd varnish-3.0.2

        export PKG_CONFIG_PATH =/usr/local/pcre/lib/pkgconfig

        ./configure --prefix=/usr/local/varnish

        make

        make install

可执行程序安装包安装

RedHat 系统环境下的安装 varnish，您需要安装以下软件：automake、autoconf、libtool、ncurses-devel、libxslt、groff、pcre-devel、pkgconfig，然后进行 varnish 的安装，安装代码如清单 3 所示：

清单 3. varnish 安装代码

 rpm -i varnish-2.1.4-2.el5.x86_64.rpm

4.3 启动 varnish

清单 4. varnish 启动代码

 varnishd -f /etc/varnish/default.vcl -s file,/var/varnish_cache,1G

 -T 127.0.0.1:2000 -a 0.0.0.0:9082

各参数的含义如下：

-f 指定 varnish 的配置文件位置

-s 指定 varnish 缓存存放的方式，常用的方式有：“-s file,<dir_or_file>,<size>”。

-T address:port 设定 varnish 的 telnet 管理地址及其端口

-a address:port 表示 varnish 对 http 的监听地址及其端口

4.4 Varnish 配置

VCL 简介

VCL（varnish configuration language）是 varnish 配置语言，其用来定义 varnish 的存取策略。VCL 语法比较简单，跟 C 和 Perl 比较相似。主要有以下几点：

块是由花括号分隔，语句以分号结束，使用‘ # ’符号可以添加注释。
VCL 使用指定运算符“=”、比较运算符“==”、逻辑运算符“!,&&,!!”等形式，还支持正则表达式和用“~”进行 ACL 匹配运算。
VCL 没有用户自己定义的变量，你可以在 backend、request 或 object 上设置变量值，采用 set 关键字进行设置。例如 set req.backend = director_employeeui;
两个字符串的连接，他们之间没有任何运算符。代码如清单 5 所示：

清单 5. 字符串连接代码

 set req.http.X-hit = " hit" "it";

”字符在 VCL 里没有特别的含义，这点与其他语言略有不同。
VCL 可以使用 set 关键字设置任何 HTTP 头，可以使用 remove 或是 unset 关键字移除 HTTP 头。
VCL 有 if/else 的判断语句，但是没有循环语句。

VCL backend

声明并初始化一个后端对象，代码如清单 6 所示

清单 6. backend 声明代码

          backend www {

            .host = "www.example.com";

            .port = "9082";

后端对象的使用，代码如清单 7 所示

清单 7. backend 的使用代码

          if (req.http.host ~ "^(www.)?example.com$") {

             set req.backend = www;

VCL 后端的集合 director

VCL 可以把多个 backends 聚合成一个组，这些组被叫做 director，这样可以增强性能和弹力，当组里一个 backend 挂掉后，可以选择另一个健康的 backend。VCL 有多种 director，不同的 director 采用不同的算法选择 backend，主要有以下几种：

The random director

Random director 会根据所设置的权值（weight）来选择 backend，.retries 参数表示尝试找到一个 backend 的最大次数，.weight 参数表示权值

The round-robin director

Round-robin director 在选择 backend 时，会采用循环的方式依次选择。

The client director

Client director 根据 client.identity 来选择 backend，您可以设置 client.identity 的值为 session cookie 来标识 backend。

backend probes

VCL 可以设置 probe 来检测一个 backend 是否健康，定义一个 backend probes 代码如清单 8 所示：

清单 8. 定义 backend probes 代码

          backend www {

           .host = "www.example.com";

           .port = "9082";

           .probe = {

             .url = "/test.jpg";// 哪个 url 需要 varnish 请求

             .timeout = 1 s;// 等待多长时间超时

             .interval = 5s// 检查的时间间隔

             .window = 5;// 维持 5 个 sliding window 的结果

             .threshold = 3;// 至少有三次 window 是成功的，就宣告 backend 健康

ACL

ACL 可创建一个客户端的访问控制列表，你可以使用 ACL 控制哪些客户端可以访问，哪些客户端禁止访问。定义 ACL 代码如清单 9 所示：

清单 9. ACL 定义代码

          Acl local{

            "localhost";

            "192.0.2.0"/24;

            !"192.0.2.23";// 除去该 IP

VCL 内置函数

vcl_recv 函数

用于接收和处理请求。当请求到达并成功接收后被调用，通过判断请求的数据来决定如何处理请求。例如如何响应、怎么响应、使用哪个后端服务器等。

此函数一般以如下几个关键字结束。

pass：表示进入 pass 模式，把请求控制权交给 vcl_pass 函数。

pipe：表示进入 pipe 模式，把请求控制权交给 vcl_pipe 函数。

lookup：表示进入 lookup 模式，把请求控制权交给 lookup 指令处理，在缓存中查找被请求的对象，并且根据查找的结果把控制权交给函数 vcl_hit 或函数 vcl_miss。

error code [reason]：表示返回“code”给客户端，并放弃处理该请求。“code”是错误标识，例如 200 和 405 等。“reason”是错误提示信息。

vcl_pipe 函数

此函数在进入 pipe 模式时被调用，用于将请求直接传递至后端主机，在请求和返回的内容没有改变的情况下，将不变的内容返回给客户端，直到这个连接被关闭。

此函数一般以如下几个关键字结束。

error code [reason]。

pipe。

vcl_pass 函数

此函数在进入 pass 模式时被调用，用于将请求直接传递至后端主机。后端主机在应答数据后将应答数据发送给客户端，但不进行任何缓存，在当前连接下每次都返回最新的内容。

此函数一般以如下几个关键字结束。

error code [reason]。

pass。

restart 重新启动流程，增加启动次数，如果重新启动次数高于 max_restarts 发出一个错误警告

vcl_hash

当您想把一个数据添加到 hash 上时，调用此函数。

此函数一般以如下几个关键字结束。

Hash。

vcl_hit 函数

在执行 lookup 指令后，在缓存中找到请求的内容后将自动调用该函数。

此函数一般以如下几个关键字结束。

deliver：表示将找到的内容发送给客户端，并把控制权交给函数 vcl_deliver。

error code [reason] 。

pass。

restart 重新启动流程，增加启动次数，如果重新启动次数高于 max_restarts 发出一个错误警告

vcl_miss 函数

在执行 lookup 指令后，在缓存中没有找到请求的内容时自动调用该方法。此函数可用于判断是否需要从后端服务器获取内容。

此函数一般以如下几个关键字结束。

fetch：表示从后端获取请求的内容，并把控制权交给 vcl_fetch 函数。

error code [reason] 。

pass。

vcl_fetch 函数

在后端主机更新缓存并且获取内容后调用该方法，接着，通过判断获取的内容来决定是将内容放入缓存，还是直接返回给客户端。

此函数一般以如下几个关键字结束。

error code [reason]。

pass。

deliver。

esi。

restart 重新启动流程，增加启动次数，如果重新启动次数高于 max_restarts 发出一个错误警告

vcl_deliver 函数

将在缓存中找到请求的内容发送给客户端前调用此方法。

此函数一般以如下几个关键字结束。

error code [reason]。

deliver。

restart 重新启动流程，增加启动次数，如果重新启动次数高于 max_restarts 发出一个错误警告

vcl_error

出现错误时调用此函数。

此函数一般以如下几个关键字结束。

deliver。

restart。

VCL 处理流程

VCL 处理的流程图如图 1 所示

图 1.VCL 处理流程

Varnish 处理 HTTP 请求的过程大致分为如下几个步骤。

Receive 状态（vcl_recv）。也就是请求处理的入口状态，根据 VCL 规则判断该请求应该 pass（vcl_pass）或是 pipe（vcl_pipe），还是进入 lookup（本地查询）。
Lookup 状态。进入该状态后，会在 hash 表中查找数据，若找到，则进入 hit（vcl_hit）状态，否则进入 miss（vcl_miss）状态。
Pass（vcl_pass）状态。在此状态下，会直接进入后端请求，即进入 fetch（vcl_fetch）状态
Fetch（vcl_fetch）状态。在 fetch 状态下，对请求进行后端获取，发送请求，获得数据，并根据设置进行本地存储。
Deliver（vcl_deliver）状态。将获取到的数据发给客户端，然后完成本次请求。

VCL 内置公共变量

VCL 内置的公共变量可以用在不同的 VCL 函数中，下面根据使用的不同阶段进行介绍

当请求到达时，可以使用的公共变量表 1 所示

表 1. 请求到达时可用公共变量

公共变量名	含义
req.backend	指定对应的后端主机
server.ip	表示服务器 IP
client.ip	表示客户端 IP
req.quest	只是请求的类型，例如 GET、HEAD 等
req.url	指定请求的地址
req.proto	表示客户端发起请求的 HTTP 协议版本
req.http.header	表示对应请求中的 HTTP 头部信息
req.restarts	表示重启次数，默认最大值为 4

Varnish 在向后端主机请求时，可是用的公共变量如表 2 所示

表 2. 向后端主机请求时可用公共变量

公共变量名	含义
beresp.requset	指定请求类型，例如 GET、HEAD 等
beresp.url	表示请求地址
beresp.proto	表示客户端发起请求的 HTTP 协议版本
beresp.http.header	表示对应请求中 HTTP 头部信息
beresp.ttl	表示缓存的生存周期，cache 保留时间（s）

从 cache 或是后端主机获取内容后，可以使用的公共变量如表 3 所示

表 3. 后端主机获取内容时可使用公共变量

公共变量名	含义
obj.status	返回内容的请求状态码，例如 200、302、504 等
obj.cacheable	返回的内容是否可以缓存
obj.valid	是否有效的 HTTP 请求
obj.response	返回内容的请求状态信息
obj.proto	返回内容的 HTTP 版本
obj.ttl	返回内容的生存周期，也就是缓存时间，单位秒
obj.lastuse	返回上一次请求到现在的时间间隔，单位秒

对客户端应答时，可以使用的公共变量如表 4 所示

表 4. 对客户端相应时可使用公共变量

公共变量名称	含义
resp.status	返回给客户端的 HTTP 代码状态
resp.proto	返回给客户端的 HTTP 协议版本
resp.http.header	返回给客户端的 HTTP 头部消息
resp.response	返回给客户端的 HTTP 头部状态

VCL 调试

VCL 为配置文件语言，无法像 c/c++ 那样进行单步调试，当 VCL 运行的效果和预期效果不一样时，很难发现哪出现逻辑错误，这时除了查看代码查找错误外，我们还可以采用内置 C 语言和浏览器查看返回对象中的状态来查找逻辑的错误。

我们可以采用内置 C 语言来打印相应的信息，例如我们可以在相应的地方打印信息，来查看 VCL 流程的执行是否正确。内置 C 语言打印信息代码如清单 10 所示：

清单 10. 打印信息代码

C{

             #include<syslog.h>// 首先要包含头文件

}C

C{

             Syslog(LOG_INFO,"VCL run here in function xxx in line xxx");

}C

启动 varnish 后，我们可以采用 tail -f /var/log/messages 命令在 /var/log/messages 中查看相应的打印信息。查看的打印信息如图 2 所示：

图 2. varnish 打印信息

我们还可以将某些变量的值设置到返回给浏览器的对象上，然后在浏览器中查看该变量的值。设置变量值代码如清单 11 所示：

清单 11. varnish 变量设置代码

 set beresp.http.X-Cookie-Debug-req-cookie = req.http.Cookie;

在 chrome 浏览器中查看 beresp.http.X-Cookie-Debug-req-cookie 的值，结果如图 3 所示：

图 3. 在浏览器中查看 varnish 变量的值

5 附录_数据缓存服务器（Memcached）

Memcached 是一个高性能的分布式内存对象缓存系统，用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数，从而提高动态、数据库驱动网站的速度。Memcached基于一个存储键/值对的hashmap。其守护进程（daemon ）是用C写的，但是客户端可以用任何语言来编写，并通过memcached协议与守护进程通信。

memcached 是以LiveJournal 旗下Danga Interactive 公司的Brad Fitzpatric 为首开发的一款软件。已成为mixi、hatena、Facebook、Vox、LiveJournal等众多服务中提高Web应用扩展性的重要因素。许多Web应用都将数据保存到RDBMS中，应用服务器从中读取数据并在浏览器中显示。但随着数据量的增大、访问的集中，就会出现RDBMS的负担加重、数据库响应恶化、网站显示延迟等重大影响。

memcached是高性能的分布式内存缓存服务器。一般的使用目的是，通过缓存数据库查询结果，减少数据库访问次数，以提高动态Web应用的速度、提高可扩展性。Memcached 的守护进程（daemon ）是用C写的，但是客户端可以用任何语言来编写，并通过memcached协议与守护进程通信。但是它并不提供冗余（例如，复制其hashmap条目）；当某个服务器S停止运行或崩溃了，所有存放在S上的键/值对都将丢失。

Memcached由Danga Interactive开发，其最新版本发布于2010年，作者为Anatoly Vorobey和Brad Fitzpatrick。用于提升LiveJournal . com访问速度的。LJ每秒动态页面访问量几千次，用户700万。Memcached将数据库负载大幅度降低，更好的分配资源，更快速访问。