使用Python批量下载CNZZ的关键词数据

在前面的文章中,我们已经说过,通过更改cookie可以突破CNZZ的最多90条关键词数据下载。但是突破不了的是CNZZ最多支持下载的数据是1000条,而最小维度是天。

那么,我们只需要按天下载数据,一天下载1000条数据。即可下载接近全部的数据。

做SEO的人知道,关键词数据非常重要,而获取关键词数据的来源,除了统计工具统计的,几乎没有什么好的途径。

别人的站数据很难拿到,当然也可以利用爬虫爬取,但是你爬取的同时别人已经发了。

百度官方和Google的推荐关键词是整个行业的不一定利于你所在的团队。

而其他的工具相对于搜索引擎提供的数据更不靠谱。

所以CNZZ,百度统计这种渠道的数据是必须拿到的。

这里我不展示代码,只说原理。

首先,通过伪装session,利用chromedrive之类的框架,让你的爬虫可以正常访问CNZZ。

然后写个多线程的爬虫,批量下载:
https://web.umeng.com/main.php?c=traf&a=keyword&ajax=module=report&siteid=xxx&st=xxx&et=xxx&tabIndex=1&keywordCondType=&keyword=&itemName=&itemNameType=&itemVal=&engin=all&orderBy=pv&orderType=-1&currentPage=1&pageType=1000&downloadType=xls

批量下载的链接,通过excel或者其他的工具批量生成这种类型的下载链接,更改当中的siteid和starttime,stoptime即可下载你想要的数据。

原文地址:https://www.cnblogs.com/huxiaoyi/p/9917369.html