python爬虫零散知识点

1.HTTP的请求方式:

  1)get请求:

    优点:便捷

    缺点:不安全,明文;参数的长度有限制

  2)post请求

    优点:比较安全;数据整体没有限制;上传文件

  3)put请求

  4)delete请求

  5)head请求

2.请求头的内容:

  1)Accept:文本的格式

  2)Accept-Encoding:编码格式

  3)Connection:长/短链接

  4)   cookie:验证用的

  5)Host:域名

  6)Referer:标志从哪个页面跳转过来的

  7)User-Agent:浏览器和用户信息  

3.请求过程

  1)浏览器:本机ip、目标网址(eg:http://baidu.com)

  2)将目标网址发送给dns(域名解析服务商),解析成ip地址返回

  3)目标服务器ip

  4)目标服务器根据请求,从数据库取出数据返回给浏览器

4.HTTP和HTTPS的区别

  端口号不同。HTTP端口号是80;https端口号是443

5.ip代理

  免费的ip;付费的ip

  ip分类:

    1)透明:对方知道我们的真实ip

    2)匿名:对方不知道我们真实的ip,但知道你用了代理

    3)高匿:对方不知道我们的真实ip,也不知道我们用了代理  

6.自定义handler和opener

  1)urllib.request.urlopen(url)能访问页面是因为有opener和handler,系统已经定义好了,但是不支持代理、cookie等其他高级功能,需要自定义handler实现
  2)步骤
  1.获得handler
  urllib.request.XXXXHandler()
  2.创建opener
  urllib.request.build_opener(handler)
  3.通过opener.open访问,得到response
  opener.open(html)
  3)系统的urlopen不支持代理的添加
  创建对应的处理器(handler)
  1.创建ProxyHandle
  2.创建opener:bulid_open(handler)
  3.opener.open(url)

   

原文地址:https://www.cnblogs.com/yejiang/p/10642270.html