爬虫基本原理

一、基本流程

　　1.发起请求：通过HTTP库向目标站点发起请求，即发送一个request，请求可以包含额外的headers等信息，等待服务器响应

　　2.解析内容：得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析；可能是Json，可以直接转换为Json对象解析；可能是二进制数据，可以保存或者进一步处理

　　3.获取响应内容：如果服务器能正常响应，会得到一个response，response的内容可能有HTML,Json字符串，二进制数据（图片、视频）等类型

　　4.保存数据：可以保存为文本，也可以保存在数据库

二、Request

　　1.请求方式：

　　　　（1）GET：请求的参数都在网址内

　　　　（2）POST：不在网址内

　　2.URL

　　3.请求头：包含请求时的头部信息，如User-Agent、Host、Cookies等信息

　　4.请求时额外携带的数据，如表单提交时的表单数据

三、Response