爬虫---03.反爬机制

  • 反扒机制:
    • 1.robots

    • 2.UA监测:网站后台会监测请求对应的User-Agent,以判定当前请求是为异常请求

      • 反反扒策略:UA伪装
      • 伪装流程:从抓包工具中捕获一个基于浏览器请求的User-Agent的值,将其伪装作用到一个字典中,将该字典作用到请求方法get,post等请求中
    • 3.动态加载数据的捕获

    • 4.图片懒加载 广泛应用在一些图片网站中

      • 只有当图片被显示在浏览器可视范围之内才会将img的伪属性编程真正的属性。
        如果是requests发起的请求,它没有可视化范围,因此一定要解析的img的伪属性值
    • 5.cookie 有时如果请求过程不携带cookie的话 无法请求到正确页面数据 cookie是爬虫中典型的反爬机制

原文地址:https://www.cnblogs.com/FGdeHB/p/15491852.html