爬虫

编码方式和解码方式必须保持一致
HTTPS=HTTP(超文本传输协议)+SSL(安全套接字层)，port：443
爬虫模拟浏览器发送请求，获取响应，一种按照一定的规则，自动的抓取互联网信息的程序---只要是浏览器能做的事情，原则上，爬虫都可以做
聚焦爬虫，url-->发送请求，获取响应-->提取url-->提取数据-->保存
q 权重
HTTP常见请求头
post--图片，表单，登录注册。一般情况下都会用get
200：成功
302/307：临时转移至新的url
404：not found
500：服务器内部错误
浏览器发送HTTP请求的过程
DNS 域名解析
爬虫的分类
1.通用爬虫：指搜索引擎的爬虫
2.聚焦爬虫：针对特定的几个网站
ROBOTS协议
爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不一样
页面上的数据在哪里
1.当前url地址对应的响应中
2.其他的url地址对应的响应中
　　ajax请求的
3.js生成
　　部分数据在响应中
　　全部通过js生成
发送简单的请求
通过requests发送请求
response = request.get(url)
常用方法
response.text
response.content ==> 获取请求头
response.status_code ==> 获取状态码
response.request.headers ==> 获取请求头
response.request.url==> 获取请求的url地址
response.headers ==> 获取响应头
assert (断言)+布尔类型的判断
发送带参数的请求
kw = {"wd":"长城"}
url = “http://www.baidu.com”
hearders = {字典形式，请求头}
requests.get(url,params=kw，hearders = hearders)