【学习】06 爬虫使用代理地址爬取搜狗微信文章

【学习】06 爬虫使用代理地址爬取搜狗微信文章

参考：静觅丨崔庆才的个人博客

项目地址：copywang/spiders_collection

实现功能

根据登陆后的cookie制作header，请求搜索微信文章
url需要使用urlencode拼接
使用代理避免IP被封
使用pyquery解析得到需要的字段信息
爬取文章详情页并存储到MongoDB

步骤

制作cookie，拼接URL
获取每一页的html代码
从每一页的html代码解析得到具体文章的url
获取具体文章的url，解析得到需要的信息

收获

使用pyquery
使用代理IP
异常处理

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/copywang/p/7894522.html