WEB服务-基础理论和HTTP

前言

使用web服务，首先我们必须先了解以下相关基础理论：

跨网络的主机间通讯

在建立通信连接的每一端，进程间的传输要有两个标志：
- IP地址和端口号，合称为套接字地址 socket address
- 客户机套接字地址定义了一个唯一的客户机进程
- 服务器套接字地址定义了一个唯一的服务器进程

Socket套接字

Socket:套接字，进程间通信IPC的一种实现，允许位于不同主机（或同一主机）上不同进程之间进行通信和数据交换，SocketAPI出现于1983年，4.2 BSD实现
Socket API：封装了内核中所提供的socket通信相关的系统调用
Socket Domain：根据其所使用的地址
AF_INET：Address Family，IPv4
AF_INET6：IPv6
AF_UNIX：同一主机上不同进程之间通信时使用
Socket Type：根据使用的传输层协议
SOCK_STREAM：流，tcp套接字，可靠地传递、面向连接
SOCK_DGRAM：数据报，udp套接字，不可靠地传递、无连接
SOCK_RAW: 裸套接字,无须tcp或udp,APP直接通过IP包通信

客户/服务器程序的套接字函数

系统调用

套接字相关的系统调用：

socket(): 创建一个套接字
bind()：绑定IP和端口
listen()：监听
accept()：接收请求
connect()：请求连接建立
write()：发送
read()：接收
close(): 关闭连接

HTTP相关术语

http: Hyper Text Transfer Protocol, 80/tcp
html: Hyper Text Markup Language 超文本标记语言，编程语言，示例：

<html>
<head>
       <title>html语言</title>
</head>
<body>
       <img src="http://www.magedu.com/wp-content/uploads/2017/09/logo.png" >
       <h1>你好</h1>
       <p><a href=http://www.magedu.com>马哥教育</a>欢迎你</p>
</body>
</html>

CSS: Cascading Style Sheet 层叠样式表
js: javascript
MIME： Multipurpose Internet Mail Extensions 多用途互联网邮件扩展 /etc/mime.types

格式：major/minor
     text/plain
     text/html
     text/css
     image/jpeg
     image/png
     video/mp4
     application/javascript

参考：http://www.w3school.com.cn/media/media_mimeref.asp

web resource：Web资源
一个网页由多个资源构成，打开一个页面，会有多个资源展示出来，但是每个资源都要单独请求。因此，一个“Web 页面”通常并不是单个资源，而是一组资源的集合
- 静态文件：无需服务端做出额外处理
  文件后缀：.html, .txt, .jpg, .js, .css, .mp3, .avi
- 动态文件：服务端执行程序，返回执行的结果
  文件后缀：.php, .jsp ,.asp

SOA松耦合架构

面向服务的架构（SOA）是一个组件模型，它将应用程序的不同功能单元（称为服务）进行拆分，并通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的，它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种各样的系统中的服务可以以一种统一和通用的方式进行交互。

URI

URI: Uniform Resource Identifier 统一资源标识，分为URL和URN

URN: Uniform Resource Naming，统一资源命名
示例： P2P下载使用的磁力链接是URN的一种实现
magnet:?xt=urn:btih:660557A6890EF888666
URL: Uniform Resorce Locator，统一资源定位符，用于描述某服务器某特定资源位置
两者区别：URN如同一个人的名称，而URL代表一个人的住址。换言之，URN定义某事物的身份，而URL提供查找该事物的方法。URN仅用于命名，而不指定地址

URL

<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

scheme:方案，访问服务器以获取资源时要使用哪种协议
user:用户，某些方案访问资源时需要的用户名
password:密码，用户对应的密码，中间用：分隔
Host:主机，资源宿主服务器的主机名或IP地址
port:端口,资源宿主服务器正在监听的端口号，很多方案有默认端口号
path:路径,服务器资源的本地名，由一个/将其与前面的URL组件分隔
params:参数，指定输入的参数，参数为名/值对，多个参数，用;分隔
query:查询，传递参数给程序，如数据库，用？分隔,多个查询用&分隔
frag:片段,一小片或一部分资源的名字，此组件在客户端使用，用#分隔

网站访问量

IP(独立IP)：即Internet Protocol

指1天内使用不同IP地址的用户访问网站的数量，同一IP无论访问了几个页面，独立IP数均为1。一般统计公网IP。
PV(访问量)：即Page View, 页面浏览量或点击量

用户每次刷新即被计算一次。一个请求是一个PV，一个页面有多个请求。PV反映的是浏览某网站的页面数，PV与来访者的数量成正比，PV并不是页面的来访者数量，而是网站被访问的页面数量。从浏览器发出一个对网络服务器的请（Request），网络服务器接到这个请求后，会将该请求对应的一个网页（Page）发送给浏览器，从而产生了一个PV。那么在这里只要是这个请求发送给了浏览器，无论这个页面是否完全打开（下载完成），那么都是应当计为1个PV。
UV(独立访客)：即Unique Visitor

指一天内访问某站点的人数，以cookie为依据。1天内同一访客的多次访问只记录为一个访客。一个设备是一个UV。如果更换了IP后但不清除cookies，再访问相同网站，该网站的统计中UV数是不变的
VV即Visit View，访客的访问次数

用以记录所有访客1天内访问了您的网站多少次。当访客完成所有的浏览并最终关掉该网站的所有页面时便完成了一次访问，同一访客1天内可能有多次访问行为，访问次数累计。

网站统计：http://www.alexa.cn/rank/

假设公司有一座大厦，大厦有100人，每个人有一台电脑和一部手机，上网都是通过nat转换出口，每个人每台设备点击网站2次，请问对应的pv,uv,ip分别是多少？

pv=400，uv=200，ip=1

（1）QPS：request per second，每秒请求数

（2）PV，QPS,并发连接数换算公式

QPS= PV* 页⾯衍⽣连接次数/ 统计时间（86400）
并发连接数 =QPS * http平均响应时间

（3）峰值时间：每天80%的访问集中在20%的时间里，这20%时间为峰值时间

（4）峰值时间每秒请求数(QPS)=( 总PV数 *页⾯衍⽣连接次数）*80% ) / ( 每天秒数 * 20% )

HTTP工作机制

工作机制：
http请求：http request
http响应：http response
一次http事务：请求<-->响应
提高HTTP连接性能
- 并行连接：通过多条TCP连接发起并发的HTTP请求
- 持久连接：keep-alive,长连接，重用TCP连接，以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
- 管道化连接：通过共享TCP连接发起并发的HTTP请求
- 复用的连接：交替传送请求和响应报文（实验阶段）

（1）串行连接

（2）并行连接

（3）持久连接

（4）管道化连接

HTTP服务通信过程

HTTP 请求报文

　　HTTP 请求报文由请求行、请求头部、空行和请求包体 4 个部分组成，如下图所示：

请求行：请求行由方法字段、URL 字段和HTTP 协议版本字段 3 个部分组成，他们之间使用空格隔开。

方法(Method)是对所请求对象所进行的操作,也就是一些命令。常用的 HTTP 请求方法有 GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT;请求报文中的操作有:

方法(操作)	含义	方法(操作)	含义
GET	请求读取一个Web页面	HEAD	请求读取一个Web页面的首部
POST	附加一个命名资源(如Web页面)	PUT	请求存储一个Web页面
DELETE	删除Web页面	TRACE	用于测试，要求服务器送回收到的请求
CONNECT	用于代理服务器	OPTION	查询特定选项

　　● GET：当客户端要从服务器中读取某个资源时，使用GET 方法。GET 方法要求服务器将URL 定位的资源放在响应报文的数据部分，回送给客户端，即向服务器请求某个资源。使用GET 方法时，请求参数和对应的值附加在 URL 后面，利用一个问号(“?”)代表URL 的结尾与请求参数的开始，传递参数长度受限制。例如，/index.jsp?id=100&op=bind。

　　● POST：当客户端给服务器提供信息较多时可以使用POST 方法，POST 方法向服务器提交数据，比如完成表单数据的提交，将数据提交给服务器处理。GET 一般用于获取/查询资源信息，POST 会附带用户数据，一般用于更新资源信息。POST 方法将请求参数封装在HTTP 请求数据中，以名称/值的形式出现，可以传输大量数据;

　 请求头部：请求头部由关键字/值对组成，每行一对，关键字和值用英文冒号“:”分隔。请求头部通知服务器有关于客户端请求的信息，典型的请求头有：

　　● User-Agent：产生请求的浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识版本信息

　　● Accept：客户端可识别的响应内容类型列表;星号 “ * ” 用于按范围将类型分组，用 “ / ” 指示可接受全部类型，用“ type/* ”指示可接受 type 类型的所有子类型;

　　● Accept-Language：客户端可接受的自然语言;

　　● Accept-Encoding：客户端可接受的编码压缩格式;

　　● Accept-Charset：可接受的应答的字符集;

　　● Host：请求的主机名，允许多个域名同处一个IP 地址，即虚拟主机;

　　● connection：连接方式(close 或 keepalive);

　　● Cookie：存储于客户端扩展字段，向同一域名的服务端发送属于该域的cookie;

　　● Referer：浏览器向 WEB 服务器表明自己是从哪个网页/URL 获得/点击当前请求中的网址/URL。

　　空行：最后一个请求头之后是一个空行，发送回车符和换行符，通知服务器以下不再有请求头;

　　请求包体：请求包体不在 GET 方法中使用，而是在POST 方法中使用。POST 方法适用于需要客户填写表单的场合。与请求包体相关的最常使用的是包体类型 Content-Type 和包体长度 Content-Length;

HTTP 响应报文

HTTP 响应报文由状态行、响应头部、空行和响应包体 4 个部分组成，如下图所示：

状态行：状态行由 HTTP 协议版本字段、状态码和状态码的描述文本 3 个部分组成，他们之间使用空格隔开;

　　● 状态码(Status-Code)是响应报文状态行中包含的一个3位数字，第一位数字表示响应的类型，指明特定的请求是否被满足，如果没有满足，原因是什么。状态码分为以下五类：

状态码	含义	例子
1xx	表示服务器已接收了客户端请求，客户端可继续发送请求	100=服务器正在处理客户请求
2xx	服务器已成功接收到请求并进行处理	200=请求成功(OK)
3xx	服务器要求客户端重定向	301=页面改变了位置
4xx	客户端的请求有非法内容	403=禁止的页面；404=页面未找到
5xx	服务器未能正常处理客户端的请求而出现意外错误	500=服务器内部错误；503=以后再试

　　● 常见状态码：

200 # 请求成功
301 # 永久重定向
302 # 临时重定向
400 # 错误请求，请求中有语法问题，或不能满足请求。
401 # 表示请求未经授权，该状态代码必须与 WWW-Authenticate 报头域一起使用
403 # 服务器收到请求，但是拒绝提供服务，通常会在响应正文中给出不提供服务的原因，一般是权限不足
404 # 服务器找不到请求的资源，例如，输入了错误的URL
500 # 服务器内部错误，大部分是服务器的设置或内部程序出现问题
501 # 没有将正在访问的网站设置为浏览器所请求的内容
502 # 网关问题，是代理服务器请求后端服务器时，后端服务器不可用或没有完成 相应网关服务器，这通常是反向代理服务器下面的节点出问题导致的。
503 # 服务当前不可用，可能是服务器超载或停机导致的，或者是反向代理服务器后面没有可以提供服务的节点。
504 # 网关超时，一般是网关代理服务器请求后端服务器时，后端服务器没有在指定的时间内完成处理请求，多数是服务器过载导致没有在特定的时间内返回数据给前端代理服务器。
505 # 该网站不支持浏览器用于请求网页的HTTP协议版本（最为常见的协议版本是HTTP/1.1）

响应头部：响应头可能包括：

　　Location：Location响应报头域用于重定向接受者到一个新的位置。例如：客户端所请求的页面已不存在原先的位置，为了让客户端重定向到这个页面新的位置，服务器端可以发回Location响应报头后使用重定向语句，让客户端去访问新的域名所对应的服务器上的资源;

　　Server：Server 响应报头域包含了服务器用来处理请求的软件信息及其版本。它和 User-Agent 请求报头域是相对应的，前者发送服务器端软件的信息，后者发送客户端软件(浏览器)和操作系统的信息。

　　Vary：指示不可缓存的请求头列表;

　　Connection：连接方式;

　　对于请求来说：

close(告诉WEB 服务器或者代理服务器，在完成本次请求的响应后，断开连接，不等待本次连接的后续请求了)。

keepalive(告诉WEB服务器或者代理服务器，在完成本次请求的响应后，保持连接，等待本次连接的后续请求);

　　对于响应来说：

close(连接已经关闭);

keepalive(连接保持着，在等待本次连接的后续请求);

Keep-Alive：如果浏览器请求保持连接，则该头部表明希望WEB 服务器保持连接多长时间(秒);例如：Keep-Alive：300;

　　空行：最后一个响应头部之后是一个空行，发送回车符和换行符，通知服务器以下不再有响应头部。

　　响应包体：服务器返回给客户端的文本信息;

HTTP 头部

头(header)	类型	说明
User-Agent	请求	关于浏览器和它平台的信息，如Mozilla5.0
Accept	请求	客户能处理的页面的类型，如text/html
Accept-Charset	请求	客户可以接受的字符集，如Unicode-1-1
Accept-Encoding	请求	客户能处理的页面编码方法，如gzip
Accept-Language	请求	客户能处理的自然语言，如en(英语)，zh-cn(简体中文）
Host	请求	服务器的DNS名称。从URL中提取出来，必需。
Referer	请求	用户从该URL代表的页面出发访问当前请求的页面
Cookie	请求	将以前设置的Cookie送回服务器，可用来作为会话信息
Date	双向	消息被发送时的日期和时间
Server	响应	关于服务器的信息，如Microsoft-IIS/6.0
Content-Encoding	响应	内容是如何被编码的（如gzip)
Content-Language	响应	页面所使用的自然语言
Content-Length	响应	以字节计算的页面长度
Content-Type	响应	页面的MIME类型
Last-Modified	响应	页面最后被修改的时间和日期，在页面缓存机制中意义重大
Location	响应	指示客户将请求发送给别处，即重定向到另一个URL
Set-Cookie	响应	服务器希望客户保存一个Cookie

General                                        # 常规的
Request URL: https://fanyi.baidu.com/          # 请求URL
Request Method: GET                            # 请求方法
Status Code: 200                               # 状态码
Remote Address: 112.25.90.202:443              # 远程地址
Referrer Policy: no-referrer-when-downgrade    # 推荐策略:降级时没有推荐

Response Headers                               # 响应头
Accept-Ranges: bytes                           # 接受范围:比特
Connection: Keep-Alive                         # 连接:保持活着
Content-Length: 2633                           # 内容长度
Content-Type: text/html; charset=UTF-8         # 内容类型
Date: Tue, 08 Sep 2020 00:52:39 GMT            # 时间
ETag: "a49-56b5ce607fe00"                      # 电子标签
Keep-Alive: timeout=5, max=100                 # 保持活着:超时
Last-Modified: Fri, 04 May 2018 08:13:44 GMT   # 最后一次修改时间
Server: Apache/2.4.6 (CentOS) PHP/5.4.16       # 服务器

Request Headers                                # 请求头
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9              # 接受类型
Accept-Encoding: gzip, deflate                 # 接受编码
Accept-Language: zh-CN,zh;q=0.9,ja;q=0.8       # 接受语言
Cache-Control: no-cache                        # 缓存控制:没有缓存
Connection: keep-alive                         # 连接:保持活着
Host: 10.0.0.7                                 # 主机:IP
Pragma: no-cache                               # 特殊指令:没有缓存
Upgrade-Insecure-Requests: 1                   # 升级不安全的请求
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36      # 用户代理

HTTP访问网站流程

Web服务请求处理步骤

一次完整的http请求处理过程

建立连接：接收或拒绝连接请求
接收请求：接收客户端请求报文中对某资源的一次请求的过程

Web访问响应模型（Web I/O）

单进程I/O模型：启动一个进程处理用户请求，而且一次只处理一个，多个请求被串行响应

多进程I/O模型：并行启动多个进程,每个进程响应一个连接请求

复用I/O结构：启动一个进程，同时响应N个连接请求

实现方法：多线程模型和事件驱动

多线程模型：一个进程生成N个线程，每线程响应一个连接请求

事件驱动：一个进程处理N个请求

复用的多进程I/O模型：启动M个进程，每个进程响应N个连接请求，同时接收M*N个请求

Web访问响应模型

处理请求：

服务器对请求报文进行解析，并获取请求的资源及请求方法等相关信息，根据方法，资源，首部和可选的主体部分对请求进行处理

元数据：请求报文首部

<method> <URL> <VERSION>
HEADERS   格式  name:value
<request body>

HTTP常用请求方式，Method

GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS

访问资源：

服务器获取请求报文中请求的资源web服务器，即存放了web资源的服务器，负责向请求者提供对方请求的静态资源，或动态运行后生成的资源

资源放置于本地文件系统特定的路径：DocRoot

DocRoot --> /var/www/html

http://www.magedu.com/images/logo.jpg --> /var/www/html/images/logo.jpg

web服务器资源路径映射方式：

(a) docroot
(b) alias
(c) 虚拟主机docroot
(d) 用户家目录docroot

构建响应报文：

一旦Web服务器识别除了资源，就执行请求方法中描述的动作，并返回响应报文。响应报文中包含有响应状态码、响应首部，如果生成了响应主体的话，还包括响应主体

1）响应实体：如果事务处理产生了响应主体，就将内容放在响应报文中回送过去。响应报文中通常包括：

描述了响应主体MIME类型的Content-Type首部
描述了响应主体长度的Content-Length
实际报文的主体内容

2）URL重定向：web服务构建的响应并非客户端请求的资源，而是资源另外一个访问路径

永久重定向：http://www.360buy.com
临时重定向：http://www.taobao.com

3）MIME类型：

Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来
魔法分类：Apache web服务器可以扫描每个资源的内容，并将其与一个已知模式表(被称为魔法文件)进行匹配，以决定每个文件的MIME类型。这样做可能比较慢，但很方便，尤其是文件没有标准扩展名时
显式分类：可以对Web服务器进行配置，使其不考虑文件的扩展名或内容，强制特定文件或目录内容拥有某个MIME类型
类型协商：有些Web服务器经过配置，可以以多种文档格式来存储资源。在这种情况下，可以配置Web服务器，使其可以通过与用户的协商来决定使用哪种格式(及相关的MIME类型)"最好"

发送响应报文

Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接，有些是空闲的，有些在向服务器发送数据，还有一些在向客户端回送响应数据。服务器要记录连接的状态，还要特别注意对持久连接的处理。对非持久连接而言，服务器应该在发送了整条报文之后，关闭自己这一端的连接。对持久连接来说，连接可能仍保持打开状态，在这种情况下，服务器要正确地计算Content-Length首部，不然客户端就无法知道响应什么时候结束了。

记录日志

最后，当事务结束时，Web服务器会在日志文件中添加一个条目，来描述已执行的事务

访问日志：现在愈发重要，大数据的时代

错误日志：排错使用

访问网站分析

第一步：浏览器分析超链接中的URL

第二步：DNS请求

PC向DNS服务器222.246.129.80发出DNS QUERY请求，请求www.qq.com的A记录

第三步：DNS回复

DNS服务器222.246.129.80回复DNS response,解析出www.qq.com域名对应的三条A记录59.37.96.63、14.17.42.40/14.17.32.211

DNS的A记录：将主机名解析成对应的IP

第四步：PC向解析出的www.qq.com服务器地址发起tcp三次握手

第五步：PC向www.qq.com 服务器发出GET请求，请求主页

第六步：www.qq.com 服务器回应HTTP/1.1 200 OK，返回主页数据包

第七步：完成数据交互过程，四次挥手断开连接

总结

1.输入域名 - > 浏览器跳转 - > 浏览器缓存 - > Hosts文件 - > DNS解析（递归查询|迭代查询）

客户端向服务端发起查询 - > 递归查询

服务端向服务端发起查询 - > 迭代查询

2.浏览器向服务器发起TCP连接（三次握手）

客户端 -->请求包连接 SYN=1, seq=x 服务端

服务端 -->响应客户端 SYN=1, ACK=1, ack=x+1, seq=y 客户端

客户端 -->建立连接 ACK=1, ack=y+1, seq=x+1 服务端

3.客户端发起http请求：

1）请求的方法: GET

2）请求的Host: www.oldboyedu.com

3）请求的资源: /index.html

4）请求的端口: 默认http是80 https是443

5）请求的携带参数: 属性（请求类型、压缩、认证、浏览器信息、等等）

6）请求最后的空行: 发送回车符和换行符，通知服务器以下不再有请求头;

4.服务端返回的响应：

1）响应提供WEB服务的软件信息

2）响应请求文件类型

3）响应请求的文件是否进行压缩

4）响应请求的主机是否进行长连接

5.客户端向服务端发起TCP断开（四次挥手）

客户端 --> 断开请求 FIN=1, seq=x --> 服务端

服务端 --> 响应断开 FIN=1, ACK=1, ack=x+1, seq=y --> 客户端

服务端 --> 断开连接 FIN=1, ACK=1, ack=x+1, seq=z --> 客户端

客户端 --> 确认断开 ACK=1, ack=z+1, seq=x+1 --> 服务端

用户访问网站集群架构流程

客户端发起http请求，请求会先抵达前端的防火墙
防火墙识别用户身份，正常的请求通过内部交换机通过tcp连接后端的负载均衡，传递用户的http请求
负载接收到请求，会根据请求的内容进行下发任务，通过tcp连接后端的web，转发发用户的http请求
web接收到用户的http请求后，会根据用户请求的内容进行解析，解析分为如下：
- 静态请求:web直接返回给负载均衡->防火墙->用户
- 动态请求:web向后端的动态程序建立TCP连接，将用户的动态http请求传递至动态程序->由动态程序进行解析
动态程序在解析的过程中，如果碰到查询数据库请求，则优先与缓存建立tcp连接，并发起数据查询操作。
如果缓存没有对应的数据，动态程序再次向数据库建立tcp连接，并发起查询操作。
最后数据从数据库->动态程序->缓存->web服务->负载均衡->防火墙->用户。