学习varnish随笔

Varnish是一款高性能、开源的反向代理服务器和缓存服务器。Varnish使用内存缓存文件来减少响应时间和网络带宽消耗。这个项目是由挪威的一家报纸Verdens Gang的网络分支起始的，其架构设计和开发总监Poul-Henning Kamp是FreeBSD核心的开发人员之一，最初项目的管理与基础设施及额外开发由挪威一家Linux咨询公司Linpro提供。

说到varnish，squid就不得不提及。squid算得上是古老的缓存服务器。由于varnish先进的设计理念，性能要比squid高上许多，varnish还可以通过端口进行管理，使用正则语句做到清除指定缓存的功能，这些squid都做不到。但是varnish在高并发的情况下，资源消耗较高，而且varnish服务进程一旦崩溃，重启，内存中的缓存数据将全部丢失。

1、Varnish架构

varnish是基于现代设备设计的服务项目，所以仅支持64位系统。Manager Process 负责处理请求任务，保证每个任务分配一个worker threads。所以varnish是一个重线程型服务。除此之外，manager process 包含接受CLI命令控制的功能，包括调整运行参数，vcl配置更新。初始化子进程Cacher Process，并按一定频率检测cacher在线与否。

Cacher Process 功能：

监听客户端请求
管理worker 线程
存储缓存数据
记录流量日志
根据统计更新计数器数值

varnish使用工作空间减少每个线程需要请求或者修改内存时发生的争抢。varnish具有多个工作空间，最为重要的是 session 工作空间，用来维护session 相关数据。

在日志记录方面，Cacher process 使用VSL 机制来处理，这是一个共享内存空间，可以有效减少记录阻塞。日志空间分为两个部分，分别记录格式化的请求日志，以及计数器数值。可以通过varnish自带log工具进行查看，分析或者永久存储日志。

2、varnish的缓存存储机制( Storage Types)：

2.1 malloc[,size]
调用malloc()，为缓存分配内存空间，此种方式不可避免地会产生碎片文件，额外占用内存

[,size]用于定义空间大小；重启后所有缓存项失效；

2.2 file[,path[,size[,granularity]]]
varnish创建一个文件用来存储缓存数据，然后将此文件映射到内存空间中，但是该文件并不会持久保存数据，重启后所有缓存项失效；

granularity 递增大小

2.3 persistent,path,size
持久文件存储，黑盒；重启后所有缓存项有效；但是处于实验阶段，问题较多；

2.4 MSE

Massive Storage Engine，在plus版可用，意味着收费。该模式设计的容量巨大可达100TB，磁盘性能要优于file模式。

总结：当内存空间不足以存储所有缓存数据时，应选择file 或 mse 存储。所以一般配置成file存储，当然付费的话使用mse更佳。

3、Varnish程序环境

本文主机环境为CentOS7.2，Varnish 版本 4.0

varnish的程序环境：
　　/etc/varnish/varnish.params：配置varnish服务进程的工作特性，例如监听的地址和端口，缓存机制；
　　/etc/varnish/default.vcl：配置各Child/Cache线程的工作属性；
主程序：
　　/usr/sbin/varnishd

CLI interface：
　　/usr/bin/varnishadm
Shared Memory Log交互工具：
　　/usr/bin/varnishhist
　　/usr/bin/varnishlog
　　/usr/bin/varnishncsa
　　/usr/bin/varnishstat
　　/usr/bin/varnishtop
测试工具程序：
　　/usr/bin/varnishtest
VCL配置文件重载程序：
　　/usr/sbin/varnish_reload_vcl
Systemd Unit File：
　　/usr/lib/systemd/system/varnish.service #varnish服务
　　/usr/lib/systemd/system/varnishlog.service #logger daemon
　　/usr/lib/systemd/system/varnishncsa.service #lgger daemon in apache format

3.1 varnishd 主程序的选项：

systemd方式启动varnish 服务，主程序指定的配置文件为：/etc/varnish/varnish.params
　　-a address[:port][,address[:port][...]，默认为6081端口； #对客户端开放的监听端口地址
　　-T address[:port]，默认为6082端口； #管理工具连接的端口地址
　　-s [name=]type[,options]，定义缓存存储机制； #可以多次定义此项
　　-u user
　　-g group
　　-f config：VCL配置文件；
　　-F：运行于前台；
　　...

线程相关的参数：
在线程池内部，其每一个请求由一个线程来处理；其worker线程的最大数决定了varnish的并发响应能力；

thread_pools：Number of worker thread pools. 线程池数量，默认值为2，官方介绍2个线程池已足够用，再增加该数值没有提升效果；
thread_pool_max：The maximum number of worker threads in each pool.每个线程池创建最大线程的数量；默认5000
thread_pool_min：The minimum number of worker threads in each pool. 每个线程池保持最少线程的数量；额外意义为“最大空闲线程数”；默认100

所以我们经常需要调整的参数就是thread_pool_max，thread_pool_min
计算varnish最大并发连接数=thread_pools * thread_pool_max

thread_pool_timeout：线程空闲时间，超过阈值则摧毁线程
thread_pool_add_delay：创建一个新线程的延迟时间，默认值为0s
thread_pool_destroy_delay：摧毁一个线程的延迟时间，默认值为2s；

设置方式：

运行动态修改通过varniadm接口设置
命令：param.set

永久有效的方法：
运行时参数：/etc/varnish/varnish.params文件， DEAMON_OPTS

　　-p param=value：设定运行参数及其值；可重复使用多次；
　　-r param[,param...]: 设定指定的参数为只读状态
　　例如：　DAEMON_OPTS="-p thread_pool_min=2 -p thread_pool_max=10000 -p thread_pool_timeout=300"

3.2 varnish管理工具

　　用法：varnishadm -S /etc/varnish/secret -T [ADDRESS:]PORT

　　　　指定了连接密钥，安装varnish时生成的。指明管理接口的端口地址，默认为127.0.0.1 可省略。

进入之后，输入help [command] 获取帮助

梳理常用指令

配置文件相关：
vcl.list ：查看vcl 列表
vcl.load：装载，加载并编译；
vcl.use：激活；
vcl.discard：删除；
vcl.show [-v] <configname>：查看指定的配置文件的详细信息；-v 选项查看默认vcl代码

运行时参数：
param.show -l：显示列表；
param.show <PARAM>
param.set <PARAM> <VALUE> 设定参数

缓存存储：
storage.list

后端服务器：
backend.list

4、VCL 基础

Varnish Configuration Language (VCL) 是一种动态语言，用来描述请求处理和制定缓存策略。vcl配置内容由manager process 创建的VCC子进程转换成C语言代码，再经由gcc编译成共享对象，最后装载到cacher process中生效。

想要写好vcl配置，需要了解varnish内部报文的处理流程，其核心关键词是 finite state machine——有限状态引擎。下图为简单的处理流程：

图中椭圆中代表状态引擎。这些状态引擎被概念化后成为vcl中的子函数，以vcl_前缀开头，在引擎中，可以对每个请求中的http 首部或者其他各方面的内容进行检查或者修改操作。return(action)代码表示中断一个状态，其中action是vcl关键字，用来指向下一步去向哪个状态引擎。

每个请求都被单独分开处理；状态之间存在相关性，但彼此间互相隔离。

在下一步了解vcl 配置代码之前，先了解一下vcl背后的基础概念。当varnish处理一个请求时，首先要解析这个请求。从http 首部中分析出请求的方法类型，判断是否为有效的请求方法等等，当基础解析完成之后，依据第一个策略进行检查进而做出判断。vcl就是根据由各个策略组成的规则来进行各种动作。

上图可分为两个区域：前端frontend和后端backend

前端状态可分为四个阶段：

第一阶段：

vcl_recv #接受客户端请求，进行判断

第二阶段：

vcl_hash　 #进行hash计算，不进行判读处理，计算之后送往各个第三阶段状态引擎中

第三阶段：

vcl_hit #缓存命中，到此处理

vcl_pass #缓存跳过

vcl_miss #缓存未命中

vcl_purge　 #清理缓存

vcl_pipe #对于无法识别的http首部请求直接送入管道，交由后端处理不再处理

第四阶段：

vcl_deliver: 大部分响应客户端的请求由此发送回去

vcl_synth:接受来自vcl_purge的任务，对于指定的缓存，进行删除处理

后端状态分为两阶段：

第一阶段：

　　　　vcl_backend_fetch：接受来自前端状态vcl_pass或vcl_miss 的任务，向后端主机请求

第二阶段：

　　　　vcl_backend_response：接受到后端返回正常状态报文，进行是否缓存检查，需要缓存的响应将其缓存，不需要则不缓存，最后送到vcl_deliver

　　　　vcl_backend_error：后端主机错误，返回错误响应

除此之外还有两个特殊状态引擎：

vcl_init：在处理任何请求之前要执行的vcl代码：主要用于初始化VMODs；
vcl_fini：所有的请求都已经结束，在vcl配置被丢弃时调用；主要用于清理VMODs；

5、VCL语法

一个大前提：varnish 4.0版本开始，vcl拥有自己的默认规则，它不可移除，总是追加在自定义的规则之后。

(1) vcl配置文件以 vcl 4.0 开头;
(2) C语言注释风格：//, # and /* foo */ ;
(3) 子函数使用sub关键字声明，例如sub vcl_recv { ...}；
(4) 无循环, state-limited variables（受限于引擎的内建变量）；
(5) 使用return(action)中断引擎状态，指向下一步处理，action为关键字，例如： return(pass)；
(6) 可动态装载;

5.1 三类主要语法：

sub subroutine {
...
}

if CONDITION {
...
} else {
...
}

return(), hash_data()

5.2 内建函数和关键字

函数：

hash_data()：指明哈希计算的数据；减少差异，以提升命中率；
regsub(str,regex,sub)：把str中被regex第一次匹配到字符串替换为sub；主要用于URL Rewrite
regsuball(str,regex,sub)：把str中被regex每一次匹配到字符串均替换为sub；
return()：
ban(expression)
ban_url(regex)：Bans所有的其URL可以被此处的regex匹配到的缓存对象；
synth(status,"STRING")：purge操作；

关键字:
　　call subroutine， return(action)，new，set，unset

下图为指定函数智能用于特定子函数中

操作符：
　　==, !=, ~, >, >=, <, <=
　　逻辑操作符：&&, ||, !
　　变量赋值：=

正则匹配：~

　　(?i) 表示忽略大小写

同时注意匹配的规则如果是字符串需要" " 引起

5.3 变量类型：

内建变量：

req.*：request，表示由客户端发来的请求报文相关；
req.http.*
req.http.User-Agent, req.http.Referer, ...
bereq.*：由varnish发往BE主机的httpd请求相关；
bereq.http.*
beresp.*：由BE主机响应给varnish的响应报文相关；
beresp.http.*
resp.*：由varnish响应给client相关；
obj.*：存储在缓存空间中的缓存对象的属性；只读；

常用变量：

bereq.*, req.*：
bereq.http.HEADERS
bereq.request：请求方法；
bereq.url：请求的url；
bereq.proto：请求的协议版本；
bereq.backend：指明要调用的后端主机；

req.url:请求的url
req.http.Cookie：客户端的请求报文中Cookie首部的值；
req.http.User-Agent：浏览器类型

beresp.*, resp.*：
beresp.http.HEADERS
beresp.status：响应的状态码；
reresp.proto：协议版本；
beresp.backend.name：BE主机的主机名；
beresp.ttl：BE主机响应的内容的余下的可缓存时长；

obj.*
obj.hits：此对象从缓存中命中的次数；
obj.ttl：对象的ttl值

server.*
server.ip
server.hostname
client.*
client.ip

同时注意变量是受状态限制的，下图为可用表

用户自定义：
　　set variable=value #定义变量
　　unset variable #撤销定义的变量

6、vcl 配置示例

6.1 响应首部增加一个cache是否命中的字段X-cache

~]$ vi /etc/varnish/default.vcl

sub vcl_deliver　{
　　if ( obj.hits>0 ) {
　　　　set resp.http.X-cache = " HIT via " + server.ip;
　　}
　　 else {
　　　　set resp.http.X-cache = " MISS via "+ server.ip;
　　 }

}

~]$ varnish_reload_vcl #重载vcl

或者使用varnishadm 进入管理接口，使用如下命令

~]$ vcl.load test1 default.vcl #装载vcl，并指定一个命名test1

如果返回状态码200，则语法正确，编译通过

~]$ vcl.use test1 #如下图所示vcl新配置已生效

使用curl命令测试，第一次无缓存，则未命中

第二次访问，已有缓存，则命中

6.2 强制对某类资源的请求不检查缓存：

设定访问/login 或 /admin 下的目录任何文件都不查询缓存

vcl_recv {
	if (req.url ~ "(?i)^/(login|admin/)") {
	   return(pass);
	}
}

6.3 对于特定类型的资源，例如公开的图片等，取消cookie，并强行设定其可以由varnish缓存的时长；

sub vcl_backend_response {
 if (beresp.http.cache-control !~ "s-maxage") {
	if (bereq.url ~ "(?i).(jpg|jpeg|png|gif|css|js)$") {
		unset beresp.http.Set-Cookie;
		set beresp.ttl = 3600s;
	}
 }
}

6.4 缓存对象的修剪：purge, ban

(1) 能执行purge操作
sub vcl_purge {
return (synth(200,"Purged"));
}

(2) 何时执行purge操作
sub vcl_recv {
if (req.method == "PURGE") {
return(purge);
}
...
}

上面的定义比较简单，任何人都可以对cache做清理操作，下面则根据IP地址做出限制

添加此类请求的访问控制法则：
acl purgers {
"127.0.0.0"/8;
"10.1.0.0"/16;
}

sub vcl_recv {
if (req.method == "PURGE") {
if (!client.ip ~ purgers) { #这里正则匹配的时acl列表，不需要引号
return(synth(405,"Purging not allowed for " + client.ip)); #来自不属于acl定义的purgers组的purge请求则返回错误代码
}
return(purge);
}
...
}

6.5 设定使用多个后端主机

backend default {
　　.host = "172.16.100.6";
　　.port = "80";
}

backend appsrv {
　　.host = "172.16.100.7";
　　.port = "80";
}

sub vcl_recv {
　　if (req.url ~ "(?i).php") {
　　　　set req.backend_hint = appsrv; #php资源转发至appsrv处理
　　} else {
　　　　　　set req.backend_hint = default;
　　　}
　　...
}

7、定义后端服务器组

7.1 定义后端服务器组

使用前需要在vcl配置中导入模块：
import director；

示例：
import directors; # load the directors

backend server1 {
.host =
.port =
}
backend server2 {
.host =
.port =
}

sub vcl_init {　　　　　　　　　　　　　　　　　　　　#在init 子函数中定义
new GROUP_NAME = directors.round_robin(); #创建组，并命名为GROUP_NAME，指定调度方法
GROUP_NAME.add_backend(server1); #为组添加服务器成员
GROUP_NAME.add_backend(server2);
}

sub vcl_recv {
# send all traffic to the bar director:
set req.backend_hint = GROUP_NAME.backend(); #组引用方法
}

7.2 后端主机健康检测机制

varnish可以对后端主机进行健康检测，动态进行移除或恢复后端主机调度列表

.probe：定义健康状态检测方法；
.url：检测时请求的URL，默认为"/";
.request：发出的具体请求；
.request =
"GET /.healthtest.html HTTP/1.1"
"Host: www.magedu.com"
"Connection: close"
.window：基于最近的多少次检查来判断其健康状态；
.threshhold：最近.window中定义的这么次检查中至有.threshhold定义的次数是成功的；
.interval：检测频度；
.timeout：超时时长；
.expected_response：期望的响应码，默认为200；

健康状态检测的配置方式：
(1) probe PB_NAME = { }
backend NAME = {
.probe = PB_NAME;
...
}

(2) backend NAME {
.probe = {
...
}
}

示例：
probe check { #probe 先定义好
.url = "/.healthcheck.html";
.window = 5;
.threshold = 4;
.interval = 2s;
.timeout = 1s;
}

backend default {
.host = "10.1.0.68";
.port = "80";
.probe = check;　　　　　　　　#引用检测方式
}

backend appsrv {
.host = "10.1.0.69";
.port = "80";
.probe = check;
}

在varniadm 命令接口中查看检测状况

8、varnish日志

用来查看 shared memory log 日志工具

8.1 varnishstat - Varnish 缓存统计查看

默认为动态刷新显示方式

选项

-1 打印当前统计结果
-f FILED_NAME 显示指定字段的统计
-l：可用于-f选项指定的字段名称列表；

example：
# varnishstat -1 -f MAIN.cache_hit -f MAIN.cache_miss

8.2 varnishtop - Varnish 日志字段排名

默认动态更新

选项：

-1 　打印当前排名
-i taglist　　显示指定字段排名。可以同时使用多个-i选项，也可以一个选项跟上多个标签 ","分隔；
-I <[taglist:]regex>　　基于正则显示字段
-x taglist：排除列表
-X <[taglist:]regex>　　基于正则排除字段

8.3 varnishlog - Display Varnish logs

显示share memory 中的日志记录

8.4 varnishncsa - Display Varnish logs in Apache / NCSA combined log format

显示share memory 中的日志记录，apache日志形式

本文到此结束

完