爬虫

  1. 编码方式和解码方式必须保持一致
  2. HTTPS=HTTP(超文本传输协议)+SSL(安全套接字层),port:443
  3. 爬虫模拟浏览器发送请求,获取响应,一种按照一定的规则,自动的抓取互联网信息的程序---只要是浏览器能做的事情,原则上,爬虫都可以做
  4. 聚焦爬虫,url-->发送请求,获取响应-->提取url-->提取数据-->保存
  5. q 权重
  6. HTTP常见请求头
  7. post--图片,表单,登录注册。一般情况下都会用get 

  8. 200:成功
    302/307:临时转移至新的url
    404:not found
    500:服务器内部错误
  9. 浏览器发送HTTP请求的过程
  10. DNS 域名解析 
  11.  爬虫的分类
    1.通用爬虫:指搜索引擎的爬虫
    2.聚焦爬虫:针对特定的几个网站

  12. ROBOTS协议
  13. 爬虫要根据当前url地址对应的响应为准,当前url地址的elements的内容和url的响应不一样
  14. 页面上的数据在哪里
    1.当前url地址对应的响应中
    2.其他的url地址对应的响应中
      ajax请求的
    3.js生成
      部分数据在响应中
      全部通过js生成
  15. 发送简单的请求
    通过requests发送请求
    response = request.get(url)
    常用方法
    response.text
    response.content ==>  获取 请求头
    response.status_code  ==>  获取状态码
    response.request.headers  ==>  获取 请求头
    response.request.url==>  获取 请求的url地址
    response.headers  ==>  获取响应头

  16. assert (断言)+布尔类型的判断
  17. 发送带参数的请求
    kw = {"wd":"长城"}
    url = “http://www.baidu.com”
    hearders = {字典形式,请求头}
    requests.get(url,params=kw,hearders = hearders)
原文地址:https://www.cnblogs.com/mujun95/p/11875432.html