小爬爬4.回顾

1.美团抓取回顾id是处理的核心问题!!!

2.回顾重点内容

(1)模拟登陆:

  --有时我们需要爬取基于当前用户的用户信息(需要登录后才可查看)

  --实现流程:

    --借助于珠宝工具,抓取点击登录按钮发起的post请求(url,参数(动态参数))

    --携带cookie对其他子页面进行请求发送

    注意:cookie不止用于登录,有些网站也是需要借助于cookie的比如:雪球网

  --cookie:

    手动处理:不建议

    自动处理:session (和request一样也可以用get和post)

  --问题:以后所有的需求都是用session进行请求发送呢?

    session模块比requests模块更大,耗费资源大,涉及到cookie用session就行,不涉及到我们就用requests

  --代理:就是代理服务器,代理就是利用代理服务器发送请求

  --反爬机制有哪些(一般是一下六种):

    robots

    UA检测

    验证码

    cookie

    禁ip

    动态请求参数

原文地址:https://www.cnblogs.com/studybrother/p/10951092.html