requests模块

爬虫究竟是合法的还是违法的？
　　1. 在法律中是不被禁止的!
　　2. 具有违法风险的！
　　　　1.干扰了被访问网站的正常运营（恶意爬虫）
　　　　2. 抓取了受到法律保护的特定类型的数据或信息
避免进局子？
　　时常的优化自己的程序，避免干扰被访问网站的正常运行
　　审查爬取到的内容若有设计到用户信息（商业机密）停止爬取或传播

使用场景分类：
　　1. 通用爬虫：搜索引擎抓取系统的重要组成部分抓取的是一整张的页面数据
　　2. 聚焦爬虫：是建立在通用爬虫的基础之上！抓取的是页面中特定的局部内容　　
　　3. 增量式爬虫：检测网站中更新的情况只会抓取网站中最新更新出来的数据

反爬机制：
　　相关的门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取
反反爬策略：
　　爬虫程序，通过相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而获取相关的数据

robots.txt 协议：
　　君子协议规定网站中哪些数据可以被爬虫爬取

http协议：
　　服务器和客户端进行数据交互的一种形式

请求头信息：
　　User-Agent : 请求载体的的身份标识
　　Connection : 请求完毕后是否断开连接
　　　　值： close ：断开
响应头信息：
　　Content-Type: 服务器响应回客户端的数据类型
https协议：
　　安全的超文本传输协议：

加密方式：
　　1.对称秘钥加密：客户端自己制定秘钥和密文发送给客户端（传输过程中可能会被三方机构拦截）
　　2.非对称秘钥加密：服务器端制定加密方式（公钥）发送给客户端 ——>客户端发送密文(服务端)
　　　　效率低：
　　　　中间机构拦截公钥篡改
　　3.证书秘钥加密客户端公钥 -》证书认证机构数字签名（防伪）
　　　　保证客户端拿到的公钥一定是证书认证机构认证的

---------------------------------------------------------------------------------
requests模块：
　　作用：模拟浏览器发请求
python 中原生的一款基于网络请求的模块功能非常强大简单便捷效率极高
　　使用：（requests模块的编码流程）
　　1. 指定url
　　　　1.UA伪装
　　　　2.请求参数的处理
　　2. 发起请求
　　3. 获取响应数据
　　4. 持久化存储响应数据
环境的安装：
　　pip install requests

UA检测：

　　门户网站的服务器检测对应请求的载体身份标识，如果是某一浏览器就是正常的请求
　　不是某浏览器就不是正常的请求（载体），就可能拒绝该次请求
UA伪装：

　　将请求载体伪装成某一浏览器