Linux_30 IO事件模型及nginx常用模块使用(1)

http服务及IO事件模型
Nginx
定义路径相关的配置

http服务及IO事件模型

engine X = Nginx
	http协议：web 服务器（类似于httpd）、http reverse proxy(类似于httpd)、imap/pop3 reverse proxy
	
	NGINX is a free,open-source,high-performance HTTP server and reverse proxy,as well as an IMAP/POP3 proxy server.
	C10K(10K Connections).
	Tengine,OpenResty.
	
http 协议：
	URL：shceme://username:password@host:port/path;params?query#frag
	params:
		key=value&key=value
	query:
		field=value,...
	
	http 事务：
        request:
            <method><URL><VERSION>
            HEADERS

            <body>

        response
        	<VERSION><STATUS><REASON-PHRASE>
        	HEADERS
        	<body>
        	
            name:value
		
		Method:GET/HEAD/POST,PUT/DELETE,TRACE,OPTIONS
		
		Status Code:
			1xx:
			2xx:成功类响应码，200
			3xx:重定向类的响应码，301，302，304
			4xx:客户端错误，403，404
			5xx:服务器端错误，502
		
		认证：
			基于ip认证
			基于用户认证：basic/digest
		
		httpd MPM:
			prefork:进程模型，两级结构，主进程master负责生成子进程，每个子进程负责响应一个请求；
			worker：线程模型，三级结构，主进程master负责生成子进程，每个子进程负责生成多个线程，每个线程响应一个请求；
			event:主进程master负责生成子进程，每个子进程响应多个请求；
			
		
	I/O模型：（服务器并发编程的5中模式）
		阻塞型、非阻塞型、复用型、信号驱动型、异步（AIO）
            阻塞型：数据从磁盘到内核，再从内核到用户空间都是阻塞的； # 同步阻塞
            
            非阻塞型：数据从磁盘拷贝到内存是非阻塞的，调用者会一直询问数据是否准备好（是否拷贝到内核内存空间），但是从内存空间到用户空间还是阻塞的，这叫做非阻塞型； # 同步非阻塞
            
            复用型：不再直接调用磁盘I/O，而是调用内核中的IO复用器，这个复用器能帮助这个进程监控多路的IO（磁盘IO、键盘IO），对进程进行响应；依然是阻塞的，但阻塞的位置不同，它阻塞在复用器上。 # 同步复用型阻塞
            
            信号驱动型：进程在接收到用户请求，向内核发起调用，在数据从磁盘拷贝到内核内存这一步不会等待，可以继续接收用户请求；在数据从磁盘拷贝到内存以后，被调用者会通过调用者留的回调接口通知调用者，数据准备完毕，从磁盘到内核内存这一步不会阻塞，从内核内存用户进程内存仍是阻塞，好在从磁盘到内核内存的拷贝过程及其耗时，这种模型已经节省了相当大的时间。 # 半异步，第一段非阻塞，第二段阻塞
            
            异步：在两个阶段中都不参与，进程可以一直接收用户请求，只有数据完成这两步（数据拷贝到进程内存），被调用者通知调用者数据已经拷贝到进程内存中了，进程直接拿数据去响应的过程。 # 完全异步型IO
            
            
		同步/异步：
			关注消息通知机制；
			
			消息通知：
				同步：等待对方返回消息；
				异步：被调用者通过状态、通知或回调机制通知调用者被调用者的运行状态；
		
		阻塞/非阻塞：
			关注调用者在等待结果返回之前所处的状态；
				阻塞：blocking，调用结果返回之前，调用者被挂起；
				非阻塞：nonblocking,调用结果返回之前，调用者不会被挂起；
		
		一次文件IO请求，都会由两个阶段组成：
			第一步：等待数据准备完成，即数据从磁盘到内核内存；
			第二步：复制数据，即数据从内核内存到进程内存；
		
		复用型IO调用：
			select():1024  # Linux模型使用的是select  1024表示能同时接收1024个网络IO请求，可以超多这个数字，但是并没有太多意义，因为性能上并没有提升  select 是加州伯克利分校的BSD设计研发的 
			poll():没有限制进程数，但是性能并不比select好  # poll 贝尔实验室研发的 ，情绪化的产物，
			
			event-driven:
				epoll(linux):libevent # 对于Linux来讲，使用epoll的系统调用，有更加强大的网络IO库
					yum info libevent

Nginx

Nginx的程序架构

master/worker
	一个master进程：
		负载加载和分析配置文件、管理worker进程、平滑升级
	一个或多个worker进程
		处理并响应用户请求
	缓存相关的进程：
		cache loader:载入缓存对象
		cache manager:管理缓存对象

特性：异步、事件驱动和非阻塞
	并发请求处理：通过kevent/epoll/select,/dev/poll
	文件IO：高级IO sendfile,异步，mmap
	
nginx高度模块化，但其模块早期不支持DSO机制；近期版本支持动态装载和卸载；
	模块分类：
		核心模块：core module
		标准模块：
			HTTP modules：(与web服务相关的模块)
				Standard HTTP modules
				Optional HTTP modules（编译时选择--with的选项编译进来的）
			Mail modules
			Stream modules :传输层负载均衡(四层代理相关的模块)
		3rd party modules   

nginx的功用：
	静态的web资源服务器；（图片服务器，或js/css/html/txt等静态资源服务器）
	结合FastCGI/SCGI等协议反代动态资源请求；
	http/https协议的反向代理；
	imap4/pop3协议的反向代理；
	tcp/udp协议的请求转发；

nginx的安装配置：
	官方的预制包：
		http://nginx.org/packages/cnetos/7/x86_64/RPMS/
		Fedora-EPEL:
	
	编译安装：
		yum groupinstall "Development Tools" "Server Platform Development"
		yum install pcre-devel openssl-devel zlib-devel
		useradd -r nginx
		./configure --prefix=/usr/local/nginx --conf.path=/etc/nginx.conf --error-log-path=/var/log/nginx/error.log --http-log-path=/var/log/nginx/access.log --pid-path=/var/run/nginx.pid --lock-path=/var/run/nginx.lock --user=nginx --group=nginx --with-http_v2_module --with-http_v2_module --with-http_dav_module --with-http_stub_status_module --with-threads --with-fule-aio
		make && make install
		
		配置文件的组成部分：
			主配置文件：nginx.conf
				include conf.d/*.conf
			fastcgi,uwsgi,scgi等协议相关的配置文件
			mime.types:支持的mime类型 # mime 多用途互联网邮件扩展
			
		主程序文件：/usr/sbin/nginx
		
		主配置文件的配置指令：
			directive value [value2 ...];
			
			注意：
				(1)指令必须以分号结尾；
				（2）支持使用配置变量；
					内建变量：由nginx模块引入，可直接引用；
					自定义变量：由用户使用set命令定义；
						set variable_name value:
							引用变量：$variable_name
		
		主配置文件结构：
			main block:主配置段，也即全局配置段；
				event{
					...
				}:事件驱动相关的配置；
			http{
				...
			}:http/https协议相关的配置段；
			mail{
				...
			}
			stream{
				...
			}
		
		http协议相关的配置结构
			http {
				...
				...:各server的公共配置
				server{
					...
				}:每个server用于定义一个虚拟主机；
				server{
					...
					listen
					server_name
					root
				}
			}

nginx(2)

配置指令：
	main配置段常见的配置指令：
		分类：
			正常运行必备的配置
			优化性能相关的配置
			用于调试及定位问题相关的配置
			事件驱动相关的配置

正常运行必备的配置

正常运行必备的配置：
	1.user:
		Syntax:user user [group];
		Detault:user nobody nobody;
		Context:main
				
		Defines user and group credentials used by worker processes.If group is omitted,a group whose name equals that of user is used.
			
	2. pid /PATH/TO/PID_FILE;
		指定存储nginx主进程进程号码的 文件路径；
		
     3.include file | mask;
		指明包含进来的其它配置文件片段；
			
	4. load_module file;
		指明要装载的动态模块；

性能优化相关的配置

性能优化相关的配置：
	1.worker_processes number | auto;
		worker 进程的数量；通常应该为当前主机的cpu物理核心数；
			
	2. worker_cpu_affinity cpumask...;
		worker_cpu_affinity auto [cpumask];
				
		CPU MASK: # 如图1
			00000001:0号CPU
			00000010：1号CPU
			... ...
	3.worker_priority number;
		指定worker进程的nice值，设定worker进程优先级；[-20,19]
		worker_priority -5;
				
	4.worker_rlimit_nofile number;
		worker_rlimit_nofile 65535;
         worker进程所能够打开的文件数量上限；

图1：

查看某个进程被分配到哪个CPU上运行：
	ps axo comm,pid,psr | grep nginx
# 动态监视进程被调度到哪个CPU上运行
watch -n .5 'ps axo comm,pid,psr | grep nginx'

使用ab 命令压测：
	yum install -y httpd-tools # 
	ab -n 100000 -c 100 http://192.168.0.10/index.html

httpd-tools:

调试、定位问题

1.daemon on | off
	是否以守护进程方式运行Nginx;
2.master_process on | off;
	是否已master/worker模型运行nginx;默认为on;
3.error_log file [level];

事件驱动相关的配置

events {
	...
}

1. worker_connections number;
	每个worker进程所能够打开的最大并发连接数数量；
	worker_processes* worker_connections

2.use method;
	指明并发连接请求的处理方法；
	
		use epoll  # select 最大1024个请求

3.accept_mutex on | off;
	处理新的连接请求的方法；on 意味着由各worker轮流处理新请求，Off意味着每个新请求的到达都会通知所有的worker进程。

http协议相关配置

http {
	... ...
	server {
	...
	server_name
	root
	location [OPERATOR] /url/ {
		...
		}
	}
	server {
		...
	}
}

与套接字相关的配置：
	1.server {...}
	配置一个虚拟主机；
		server {
			listen address [:PORT]/PORT;
			server_name SERVER_NAME;
			root /PATH/TO/DOCUMENT_ROOT;
		}
	
	2.listen PORT | address[:port]|unix:/PATH/TO/SOCKET_FILE
	listen address[:port][default_server][ssl][http2 | spdy] [backlog=number][rcvbuf=size] [sndbuf=size]
	
	default_server:设定为默认虚拟主机；
	ssl:限制仅能够通过ssl连接提供服务；
	backlog=number:后援队列提供服务；
	backlog=number:后援队列长度；
	rcvbuf=size:接收缓冲区大小；
	sndbuf=size:发送缓冲区大小；
	
	3.server_name name...;
		指明虚拟主机的主机名称；后可跟多个由空白字符分隔的字符串；
			支持*通配任意长度的任意字符；server_name*.sanzhang.com www.sili.*
			支持~起始的字符做正则表达式匹配；server_name ~^wwwd+.sanzhang.com$
		
		匹配机制：
			（1）首先是字符串精确匹配；
			（2）左侧*通配符；
			（3）右侧*通配符；
			（4）正则表达式；
		
		定义四个虚拟主机，混合使用三种类型的虚拟主机；
			仅开放给来自于本地网络中的主机访问；
		
	4.tcp_nodelay on | off;
		在keepalived 模式下的连接是否启用TCP_NODELAY选项；
		
		tcp_nopush on | off;
		在sendfile模式下，是否启用TCP_CORK选项
	
	5.sendfile on | off;
		是否启用sendfile功能；

定义路径相关的配置

6.root path;
	设置web资源路径映射；用于指明用户请求的url所对应的本地文件系统上的文档所在目录路径；可用的位置：http,server,location,if in location;
		
7.location [=|~|~*|^~] url {...}
	Sets configuration depending on a request URL.
			
	在一个server中location配置段可存在多个，用于实现从uri到文件系统的路径映射；nginx会根据用户请求的URI来检查定义的所有location，并找出一个最佳匹配，而后应用其配置；
			
	=：对URI做精确匹配；例如，http://www.sanzhang.com/,http://www.sanzhang.com/index.html
        location * / { 
        	...
        }
    ~:对URI做正则表达式模式匹配，区分字符大小写；
    ~*：对URL做正则表达式模式匹配，不区分字符大小写；
    ^~：对URI的左半部分做匹配检查,不区分字符大小写；
    不带符号：匹配起始于此uri的所有的url;
        
    匹配优先级：=，^~,~/~*,不带符号；
        
    root /vhosts/www/htdocs/
    http://www.sanzhang.com/index.html --> /vhosts/www/htdocs/index.html
        
    server {
    	root /vhosts/www/htdocs/
        location /admin/ {
        root /webapps/app1/data/
        }
    }

8. alias path;  # 如图1
	定义路径别名，文档映射的另一种机制；仅能用于location上下文；
	
    注意：location中使用root指令和alias指令的意义不同；
    	（a）root,给定的路径对应于location中的/uri/左侧的/;
    	（b）alias，给定的路径对应于location中的/uri右侧的/;

9、index file ...
	默认资源;http,server,location;
	
10. error_page code ... [=[response]] uri;  # 如下图2
	Defines the URI that will be shown for the specified errors.

11. try_files file ... uri;

图1：

vim /etc/nginx/conf.d/vhost1.conf

图2：

定义客户端请求的相关配置

12. keepalive_timeout timeout [header_timeout];
	设定保持连接的超时时长，0表示禁止长连接；默认为75s;
13. keepalive_requests number;
	在一次长连接上所允许请求资源的最大数量，默认为100；
14. keepalive_disable none | browser ...;
	对那种浏览器禁用长连接；
15. send_timeout time;
	向客户端发送响应报文的超时时长，此处，是指两次写操作之间的间隔时长；
16. client_body_buffer_size size;
	用于接收客户端请求报文的body部分的缓冲区大小；默认为16k；超出此大小时，将其被暂存到磁盘上的由client_body_temp_path指令所定义的位置；
17.client_body_temp_path path [level1 [level2 [le vel3]]];
	设定用于存储客户端请求报文的body部分的临时存储路径及子目录结构和数量；
		16进制的数字；
		
		client_body_temp_path /var/tmp/client_body 2 1 1
			1:表示用一位16禁止数字表示一级子目录；0-f
			2:表示用2位16进制数字表示二级子目录：00-ff
			2:表示用2位16进制数字表示三级子目录：00-ff

对客户端进行限制的相关配置

18. limit_rate rate;
	限制响应给客户端的传输速率，单位是bytes/second,0表示无限制；

19. limit_except method... {...}
	限制客户端对指定的请求方法之外的其它方法的使用；
	
	limit_except GET {
		allow 192.168.1.0/24;
		deny all;
	} # 表示GET方法以外的其它方法只允许在192.168.1.0这个网段的用户使用

文件操作优化的配置

20.aio on | off | threads[=pool];
	是否启用aio功能；
21.direcio size | off;
	在Linux主机启用O_DIRECT标记，此处意味文件大于等于给定的大小时使用，例如directio 4m;
	
22. open_file_cache off;
	open_file_cache  max=N [inactive=time];
		nginx可以缓存以下三种信息：
			(1)文件的描述符、文件大小和最近一次的修改时间；
			（2）打开的目录结构；
			（3）没有找到的或者没有权限访问的文件的相关信息；
		
		max=N:可缓存的缓存项上限；达到上限后会使用LRU算法实现缓存管理；
		
		inactive=time:缓存项的非活动时长，在此处指定的时长内未被命中的或命中的次数少于open_file_cache_min_uses指令所指定的次数的缓存项即为非活动项；

23. open_file_cache_valid time;
	缓存项有效性的检查频率；默认为60s；

24. open_file_cache_min_uses number;
	在open_file_cache指令的inactive参数指定的时长内，至少应该被命中多少次方可被归类为活动项；

25. open_file_cache_errors on | off;
	是否缓存查找时发生错误的文件一类的信息；

核心功能：https://nginx.org/en/docs/ngx_core_module.html

以上为核心功能，以下为常用的模块。。。。

常用模块：https://nginx.org/en/docs/

ngx_http_access_module 模块：
	实现基于ip的访问控制功能
	
	26. allow address | CIDR | unix: | all;
	27. deny address | CIDR | unix: | all;
		http,server,location,limit_except

ngx_http_auth_basic_module模块
	实现基于用户的访问控制，使用basic机制进行用户认证；
	
	28. auth_basic string | off;
	29. auth _basic_user_file file;
		location /admin/ {
			alias /webapps/app1/data/;
			auth_basic "Admin Area.";
			auth_basic_user_file /etc/nginx/.ngxpasswd;
		}
		注意：htpasswd命令由httpd-tools所提供；

ngx_http_stub_status_module
	用于输出nginx的基本状态信息；
		Active connections:291
		server accepts handled requests
			16630948 16630948 31070465
		Reading:6 Writing: 179 Waiting:106
		
		Active connections:活动状态的连接数；
		accepts：已经接受的客户端请求的总数；
		handled:已经处理完成的客户端请求的总数；
		requests：客户端发来的总的请求数；
		Reading:处于读取客户端请求报文首部的连接的连接数；
		Writing:处于向客户端发送响应报文过程中的连接数；
		Waiting：处于等待客户端发出请求的空闲连接数；
		
		30. stub_status;
		
		配置示例：
			location /basic_status {
				stub_status;
			}
	
ngx_http_log_module模块
	he ngx_http_log_module module writes request logs in the specified format.
		
	31. log_format name string...;
		string 可以使用nginx核心模块及其它模块内嵌的变量；
			
		可尝试为nginx定义使用类似于httpd的combined格式的访问日志；
		
	32. access_log path [romat [buffer=size][gzip[=level]][flush=time][if=condition]];
		access_log off;
			
		访问日志文件路径，格式及相关的缓冲的配置；
			buffer=size
			flush=time
	33. open_log_file_cache max=N [inactive=time][min_uses=N][valid=time];
		open_log_file_cache off;
			缓存各日志文件相关的元数据信息；
				
			max:缓存的最大文件描述符数量；
			min_uses:在inactive指定的时长内访问大于等于此值方可被当作活动项；
			inactive:非活动时长；
			valid:验证缓存中各缓存项是否为活动项的时间间隔；
	
	ngx_http_gzip_module: # 如图1
		The ngx_http_gzip_module module is a filter that compresses respinses using the "gzip" method. This often helps to reduce the size of transmitted data by half or even more.
		1. gzip on | off;
			Enables or disables gzipping of responses.
		2.gzip_comp_level level;
			Sets a gzip compression level of a response. Acceptable values are in the range from 1 to 9.
		3. gzip_disable regex ...;
			Disables gzipping of responses for requests with "User-Agent" header fields matching any of the specified regular expressions.
		4. gzip_min_length length;
			启用压缩功能的响应报文大小阈值；
		5.gzip_buffers number size;
			支持实现压缩功能时为其配置的缓冲区数量及每个缓存区的大小；
		6.gzip_proxied off | expired | no-cache | no-store | private | no_last_modified | no_etag | auth | any ...;
			nginx作为代理服务器接收到从被代理服务器发送的响应报文后，在何种条件下启用压缩功能的；
			off:对代理的请求不启用
			no-cache,no-store,private:表示从被代理服务器收到的响应报文首部的Cache-Control的值为此三者中任何一个，则启用压缩功能；	
		7.gzip_types mime-type...;
			压缩过滤器，仅对此处设定的MIME类型的内容启用压缩功能；
		
		示例：
			gzip on;
			gzip_proxied any;
			gzip_types text/xml text/css application/javascript;

ngx_http_ssl+module模块：
	1.ssl on | off;
		Enables the HTTPS protocol for the given virtual server.
	2.ssl_certificate file;
		当前虚拟主机使用PEM格式的证书文件；
	3.ssl_certificate_key file;
		当前虚拟主机上与其证书匹配的私钥文件；
	4. ssl_protocols [SSLv2][SSLv3][TLSv2][TLSv1.1][TLSv1.2];
		支持ssl协议版本，默认为后三个；
	5.ssl_session_cache off | none | [builtin[:size]][shared:name:size];
		builtin[:size]:使用OpenSSL内建的缓存，此缓存为每worker进程私有；
		
		[shared:name:size]:在各worker之间使用一个共享的缓存；
	
	6.ssl_session_timeout:time;
		客户端一侧的连接可以复用ssl session cache中缓存的ssl参数的有效时长；
	
	配置示例：
		server {
			listen 443 ssl;
			server_name www.sanzhang.com;
			root /vhosts/ssl/htdocs;
			ssl on; # 1.15版本以后此参数被废弃，直接 listen 443 ssl;就行了 
			ssl_certificate /etc/nginx/ssl/nginx.crt;
			ssl_certificate_key /etc/nginx/ssl/nginx.key;
			ssl_session_cache shared:sslcache:20m;
		}
		
		
		cp /etc/nginx/conf.d/centos7.conf /etc/nginx/conf.d/centos7_ssl.conf
		vim /etc/nginx/conf.d/centos7_ssl.conf  # 如下图2
		nginx -t 
		nginx -s reload
		
		浏览器访问 ：https://www.ilinux.com # 如图3

图1：

图2：

图3：

ngx_http_rewrite_module模块
	The ngx_http_rewrite_module module is used to change request URI using PCRE regular expressions, return redirects, and conditionally select configurations.
	bbs.sanzhang.com/-->www.sanzhang.com/bbs/,http://www.sanzhang.com/-->https://www.sanzhang.com/
	http://www.sanzhang.com/login.php;username=tom-->http://www.sanzhang.com/tom/

	将用户请求的URI基于regex所描述的模式进行检查，而后完成替换；
	
	1.rewrite regex replacement [flag] # 如图1
		将用户请求的URL基于regex所描述的模式进行检查，匹配到时将其替换为replacement指定的新的URL；
		注意：如果在同一级配置块中存在多个rewrite规则，那么会自上而下逐个检查；被某条件规则替换完成后，会重新一轮的替换检查，因此，隐含有循环机制;[flag]所表示的标志位用于控制此循环机制；
		
		如果replacement是以http://或https://开头，则替换结果会直接以重定向返回给客户端；
			301：永久重定向；
		
		[flag]:
			last:重写完成后停止对当前URL在当前location中后续的其它重写操作，而后对新的URL启动新一轮重写检查；提前重启新一轮循环；# 不会对location中当前rewrite下的其它rewrite进行重写，而是类似于continue的操作，使用重写后的url再次进行一次rewrite循环，直到所有的rewrite都检查完。
			break：重写完成后停止对当前URI在当前location中后续的其它重写操作，而后直接跳转至重写规则配置块之后的其它配置：结束循环；# 跳出当前配置块（比如location，）直接进入下个配置块
			redirect：重写完成后以临时重定向方式直接返回重写后的新UTI给客户端，由客户端重新发起请求；不能以http://或https://开头
			permanent:重写完成后以永久重定向方式直接返回重写后生成的新URI给客户端，由客户端重新发起请求；
			
			last,break是在服务器端直接修改，找到匹配的数据，直接返回给客户端，客户端无从感知，而且也不会修改原请求的URL；
			redirect：临时从定向（status code：302）服务器端修改URL之后返回给客户端做二次请求，会修改URL，不过包括last,break在内，都不需要用户的参与。
			permanent:永久从定向（status code：301），也需要客户端重新发请求；
	
	2.return
		return code [text];
		return code URL;
		return URL;
		
		Stops processing and returns the specified code to a client.
	
	3. rewrite_log on | off;
		是否开启重写日志； # 如果发生重写，是否要记录到日志中，on记录，off不记录；
	
	4. if [condition] {...}
		引入一个新的配置上下文；条件满足时，执行配置块中的配置指令；server,location;
		
		condition:
			比较操作符：
				==
				!=
				~:模式匹配，区分字符大小写；
				~*：模式匹配，不区分字符大小写；
                 !~:模式不匹配，区分字符大小写；
                 !~*:模式不匹配，不区分字符大小写；
			文件及目录存在性判断：
				-e,!-e
				-f,!-f
				-d,!-d
				-x,!-x
			
	5. set $variable value;
		用户自定义变量；

如图1：

rewrite /(.*)$ https://www.ilinux.io/$1   # http请求重定向到https请求

ngx_http_referer_module模块：
	The ngx_http_referer_module module is used to block access to a site for requests with invalid values in the "Referer" header field.
	
	1. valid_referers nome | blocked | server_names | string...;
		定义referer首部的合法可用值；
			none:请求报文首部没有referer首部；
			blocked:请求报文的referer首部没有值；
			server_names:参数，其可以有值作为主机或主机名模式；
				arbitrary_string:直接字符串，但可使用*作为通配符；
				regular expression:被指定的正则表达式模式匹配到的字符串；要使用~大头，例如~.*.sanzhang.com;

		配置示例：
			valid_referers none block server_names *.sanzhang.com *.sanzhangedu.com sanzhangedu.* ~
			.sanzhangedu.;
			
			if ($invalid_referer) {
				return http://www.sanzhang.com/invalid.jpg;
			}