理解HTTP协议

　基础概念

　　HTTP协议是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。

　　HTTP协议的主要特点可概括如下：

　　1、支持客户/服务器模式。

　　2、简单快速：客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。

　　3、灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

　　4、无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。

　　5、无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。> HTTP事务: 一次HTTP请求与HTTP响应对。HTTP事务是独立的，不存在上下文关系。

　　每次HTTP请求都是由两部分组成：

　　●发送请求 HTTP请求报文

　　●回送响应 HTTP响应报文

　　HTTP版本：HTTP/0.9 -- HTTP/1.0 -- HTTP/1.1 -- HTTP/2.0

　　HTTP/1.0：短连接

　　HTTP/1.1：持久连接

　HTTP报文

　　请求报文

　　HTTP请求报文：由三部分组成，分别是：请求行、消息报头、请求正文

　　HTTP请求报文格式:

　　请求行起始行(报文的第一行) 必选对报文进行说明文本

　　消息报头 (从第二行开始) 可选报文属性文本

　　[CRLF]

　　请求正文 (上面是一个空行) 可选报文携带的数据文本二进制

　　请求行: 向服务器请求一个动作.

　　method request_URL HTTP_version

　　请求方法请求URL HTTP版本号

　　请求方法（所有方法全为大写）有多种，各个方法的解释如下：

　　GET 请求获取Request-URI所标识的资源（查）

　　POST 在Request-URI所标识的资源后附加新的数据（改）

　　HEAD 请求获取由Request-URI所标识的资源的响应消息报头

　　PUT 请求服务器存储一个资源，并用Request-URI作为其标识（增）

　　DELETE 请求服务器删除Request-URI所标识的资源（删）

　　TRACE 请求服务器回送收到的请求信息，主要用于测试或诊断

　　CONNECT 保留将来使用

　　OPTIONS 请求查询服务器的性能，或者查询与资源相关的选项和需求

　　响应报文

　　HTTP响应报文也是由三个部分组成，分别是：状态行、消息报头、响应正文

　　状态行: 告诉浏览器请求被处理的结果怎样.

HTTP_version	status_code	reason_phrase
HTTP版本	状态码	原因短语

其中，HTTP_Version表示服务器HTTP协议的版本；Status_Code表示服务器发回的响应状态代码；Reason_Phrase表示状态代码的文本描述。

　　状态代码有三位数字组成，第一个数字定义了响应的类别，且有五种可能取值：

　　1xx：指示信息--表示请求已接收，继续处理

　　2xx：成功--表示请求已被成功接收、理解、接受

　　3xx：重定向--要完成请求必须进行更进一步的操作

　　4xx：客户端错误--请求有语法错误或请求无法实现

　　5xx：服务器端错误--服务器未能实现合法的请求

　　常见状态代码、状态描述、说明：

　　200 OK //客户端请求成功

　　400 Bad Request //客户端请求有语法错误，不能被服务器所理解

　　401 Unauthorized //请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用

　　403 Forbidden //服务器收到请求，但是拒绝提供服务

　　404 Not Found //请求资源不存在，eg：输入了错误的URL

　　500 Internal Server Error //服务器发生不可预期的错误

　　503 Server Unavailable //服务器当前不能处理客户端的请求，一段时间后可能恢复正常

　　消息报头：

　　HTTP消息由客户端到服务器的请求和服务器到客户端的响应组成。请求消息和响应消息都是由开始行（对于请求消息，开始行就是请求行，对于响应消息，开始行就是状态行），消息报头（可选），空行（只有CRLF的行），消息正文（可选）组成。

　　可以看成浏览器与服务器在通信过程中携带的指令与暗号。

　　给对方提供某种信息或向对方下达某种指令。

　　每一个报头域都是由名字+“：”+ 空格 + 值组成，消息报头域的名字是大小写无关的。

　　消息报头格式:

　　消息报头名: 值1, 值2, 值3, ...

　　Accept-Encoding: gzip, deflate

　　消息报头的第一个字母一般大写.

　　消息报头的顺序无关紧要.

　　消息报头一行只能写一个.

　　消息报头类型:

　　1.通用消息报头：既可以在请求报文中使用也可以在响应报文中使用的消息报头.

　　2.请求消息报头：只能在请求报文中使用.

　　3.响应消息报头：只能在响应报文中使用.

　　4.实体消息报头：对实体主体的属性的描述.

　　5.扩展消息报头：不在rfc2616中定义.

　　通用消息报头

　　在通用消息报头中，有少数报头域用于所有的请求和响应消息，但并不用于被传输的实体，只用于传输的消息。

　　Cache-Control：用于指定缓存指令，缓存指令是单向的（响应中出现的缓存指令在请求中未必会出现），且是独立的（一个消息的缓存指令不会影响另一个消息处理的缓存机制），HTTP1.0使用的类似的报头域为Pragma。

　　请求时的缓存指令包括：no-cache（用于指示请求或响应消息不能缓存）、no-store、max-age、max-stale、min-fresh、only-if-cached;

　　响应时的缓存指令包括：public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage.

　　Date：通用消息报头域表示消息产生的日期和时间

　　Connection：通用消息报头域允许发送指定连接的选项。例如指定连接是连续，或者指定“close”选项，通知服务器，在响应完成后，关闭连接

　　请求报头

　　请求报头允许客户端向服务器端传递请求的附加信息以及客户端自身的信息。

　　常用的请求报头

　　Accept：请求报头域用于指定客户端接受哪些类型的信息。

　　Accept:image/gif，表明客户端希望接受GIF图象格式的资源；

　　Accept:text/html，表明客户端希望接受html文本。

　　Accept-Charset：请求报头域用于指定客户端接受的字符集。

　　Accept-Charset:iso-8859-1,gb2312。如果在请求消息中没有设置这个域，缺省是任何字符集都可以接受。

　　Accept-Encoding：请求报头域类似于Accept，但是它是用于指定可接受的内容编码。eg：Accept-Encoding:gzip.deflate.如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。

　　Accept-Language：请求报头域类似于Accept，但是它是用于指定一种自然语言。

　　Accept-Language:zh-cn.如果请求消息中没有设置这个报头域，服务器假定客户端对各种语言都可以接受。

　　Authorization：请求报头域主要用于证明客户端有权查看某个资源。当浏览器访问一个页面时，如果收到服务器的响应代码为401（未授权），可以发送一个包含Authorization请求报头域的请求，要求服务器对其进行验证。

　　Host（发送请求时，该报头域是必需的）

　　Host请求报头域主要用于指定被请求资源的Internet主机和端口号，它通常从HTTP URL中提取出来的，

　　eg：

　　我们在浏览器中输入：https://www.baidu.com

　　浏览器发送的请求消息中，就会包含Host请求报头域，如下：

　　Host：www.baidu.com

　　此处使用缺省端口号443，若指定了端口号，则变成：Host：www.baidu.com:指定端口号

　　User-Agent

　　我们上网登陆论坛的时候，往往会看到一些欢迎信息，其中列出了你的操作系统的名称和版本，你所使用的浏览器的名称和版本，这往往让很多人感到很神奇，实际上，服务器应用程序就是从User-Agent这个请求报头域中获取到这些信息。User-Agent请求报头域允许客户端将它的操作系统、浏览器和其它属性告诉服务器。不过，这个报头域不是必需的，如果我们自己编写一个浏览器，不使用User-Agent请求报头域，那么服务器端就无法得知我们的信息了。

　　请求报头举例：

　　GET /extGuetWeb HTTP/1.1

　　Host: www.guet.edu.cn

　　User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; rv:42.0) Gecko/20100101 Firefox/42.0

　　Accept: text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

　　Accept-Language: en-US,en;q=0.5

　　Accept-Encoding: gzip, deflate

　　Cookie: SERVERID=RealServer2

　　Connection: keep-alive

　　响应报头

　　响应报头允许服务器传递不能放在状态行中的附加响应信息，以及关于服务器的信息和对Request-URI所标识的资源进行下一步访问的信息。

　　常用的响应报头

　　Location：响应报头域用于重定向接受者到一个新的位置。Location响应报头域常用在更换域名的时候。

　　Server：响应报头域包含了服务器用来处理请求的软件信息。与User-Agent请求报头域是相对应的。下面是

　　Server响应报头域的一个例子：

　　Server:Apache-Coyote/1.1

　　WWW-Authenticate

　　WWW-Authenticate响应报头域必须被包含在401（未授权的）响应消息中，客户端收到401响应消息时候，并发送Authorization报头域请求服务器对其进行验证时，服务端响应报头就包含该报头域。

　　响应报头举例：

　　HTTP/1.1 200 OK

　　Cache-Control: private

　　Content-Type: text/html; charset=utf-8

　　Server: Microsoft-IIS/7.5

　　X-AspNetMvc-Version: 4.0

　　X-AspNet-Version: 4.0.30319

　　X-Powered-By: ASP.NET

　　Date: Fri, 04 Dec 2015 10:08:41 GMT

　　Connection: close

　　Content-Length: 40919

　　实体报头

　　请求和响应消息都可以传送一个实体。一个实体由实体报头域和实体正文组成，但并不是说实体报头域和实体正文要在一起发送，可以只发送实体报头域。实体报头定义了关于实体正文（eg：有无实体正文）和请求所标识的资源的元信息。

　　常用的实体报头

　　Content-Encoding：实体报头域被用作媒体类型的修饰符，它的值指示了已经被应用到实体正文的附加内容的编码，因而要获得Content-Type报头域中所引用的媒体类型，必须采用相应的解码机制。Content-Encoding这样用于记录文档的压缩方法，

　　Content-Encoding:gzip

　　Content-Language：实体报头域描述了资源所用的自然语言。没有设置该域则认为实体内容将提供给所有的语言阅读者。

　　Content-Language:da

　　Content-Length：实体报头域用于指明实体正文的长度，以字节方式存储的十进制数字来表示。

　　Content-Type：实体报头域用语指明发送给接收者的实体正文的媒体类型。

　　Content-Type:text/html;charset=ISO-8859-1

　　Content-Type:text/html;charset=GB2312

　　Last-Modified：实体报头域用于指示资源的最后修改日期和时间。

　　Expires：实体报头域给出响应过期的日期和时间。为了让代理服务器或浏览器在一段时间以后更新缓存中(再次访问曾访问过的页面时，直接从缓存中加载，缩短响应时间和降低服务器负载)的页面，我们可以使用Expires实体报头域指定页面过期的时间。

　　Expires:Thu，15 Sep 2006 16:23:12 GMT

　　HTTP1.1的客户端和缓存必须将其他非法的日期格式（包括0）看作已经过期。为了让浏览器不要缓存页面，我们也可以利用Expires实体报头域，设置为0。

　　用telnet模拟发送HTTP请求.

　　telnet domain/IP port

　　打开本地回显: ctrl + ]

　POST/GET请求

　　GET请求:

　　GET方式：是以实体的方式得到由请求URI所指定资源的信息，如果请求URI只是一个数据产生过程，那么最终要在响应实体中返回的是处理过程的结果所指向的资源，而不是处理过程的描述。

　　GET request_URL HTTP_version

　　[Host: domain:port]

　　Header1: v1, v2,...

　　Header2: v1, v2,...

　　CRLF

　　POST请求:

　　用来向目的服务器发出请求，要求它接受被附在请求后的实体，并把它当作请求队列中请求URI所指定资源的附加新子项，Post被设计成用统一的方法实现下列功能：

　　1：对现有资源的解释；

　　2：向电子公告栏、新闻组、邮件列表或类似讨论组发信息；

　　3：提交数据块；

　　4：通过附加操作来扩展数据库。

　　从上面描述可以看出，Get是向服务器发索取数据的一种请求；而Post是向服务器提交数据的一种请求，要提交的数据位于信息头后面的实体中。

　POST request_URL HTTP_version

　　[Host: domain:port]

　　Header1: v1, v2,...

　　Header2: v1, v2,...

　　Content-Type: type/sub_type

　　Content-Length: size

　　CRLF

　　p1=v1&p2=v2&...

　　GET与POST发送请求的区别?

　　1.参数附件的位置不同

　　POST: 将参数附加到请求报文的实体主体之中。p1=v1&p2=v2&...&pn=vn

　　GET: 将参数附加到请求报文的请求行的请求URL之后。GET URL?p1=v1&p2=v2&...&pn=vn

　　2.发送数据的大小限制不同

　　POST: HTTP协议没有对实体主体的大小进行控制，一般可以看作无限制。应用程序可以控制发送数据的大小。

　　GET: HTTP协议本身没有对请求行的长度进行控制，但是浏览器和操作系统对其进行了控制。一般不能发送很大的数据.

　　3.从安全性的角度考虑

　　GET请求不会修改服务器上的数据，仅仅用于获取服务器的文档，相对更安全。但是GET附件的参数会显示在URL中，这点不安全。

　　4.从收藏页面的角度考虑

　　GET请求可以将请求参数与请求URL一起保存，有利于收藏