毕业设计5

  昨天开始学习了爬虫的一些方法,有urliib,request和Scrapy,在爬取定位时用正则和xpath,综合比较,决定采用request和xpath的方法再次爬取图片和评论等相关的信息,也学习了代理池,在爬取时也用了代理池,防止被封ip。爬取的数据也会有些不规范,有多余空格等内容,对数据进行了初步的清理。

原文地址:https://www.cnblogs.com/wmy-666/p/12294594.html