爬虫实例(二)——爬取某宝评论

其实爬取某宝评论和上一篇爬取新浪微博是一个思路。这次把思路讲得更清楚,更全面一些。

我们需要爬取的评论界面是:

爬取之前需要知道的知识点:页面的部分内容是动态加载的,是通过ajax来进行异步加载的。比如说,首页有一个版块,它并不是一开始就包含在首页的文件里,而是之后随着浏览者的需要才加载进来的。

而我们要爬取的评论也就是这样一个东西,我们只需要通过浏览器的抓包工具,分析出我们需要数据的url就可以了,那么如何从众多的url中找到它呢,是有一定的技巧的。

我们可以利用它是加载的特点来看,一,它是在我们点击评论后才会被请求,我们可以在打开该页面后再启用抓包工具,这样就只会出现与评论有关的请求了。二,我们在众多的请求中如何找到它呢,很明显,它是一个由js触发的请求,知道 了上述两点无疑会让我们更容易找到它。我也很轻松地就找到了。

该请求的url是:https://rate.tmall.com/list_detail_rate.htm?itemId=567215748459&spuId=953127307&sellerId=1678007656&order=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&ua=098

我们可以将它在浏览器中先打开看一下。

之后要做的事就是如何从这一堆数据中获取评论的内容了。

原文地址:https://www.cnblogs.com/goforwards/p/8991044.html