使用Python批量下载CNZZ的关键词数据

在前面的文章中，我们已经说过，通过更改cookie可以突破CNZZ的最多90条关键词数据下载。但是突破不了的是CNZZ最多支持下载的数据是1000条，而最小维度是天。

那么，我们只需要按天下载数据，一天下载1000条数据。即可下载接近全部的数据。

做SEO的人知道，关键词数据非常重要，而获取关键词数据的来源，除了统计工具统计的，几乎没有什么好的途径。

别人的站数据很难拿到，当然也可以利用爬虫爬取，但是你爬取的同时别人已经发了。

百度官方和Google的推荐关键词是整个行业的不一定利于你所在的团队。

而其他的工具相对于搜索引擎提供的数据更不靠谱。

所以CNZZ，百度统计这种渠道的数据是必须拿到的。

这里我不展示代码，只说原理。

首先，通过伪装session,利用chromedrive之类的框架，让你的爬虫可以正常访问CNZZ。

然后写个多线程的爬虫，批量下载：
https://web.umeng.com/main.php?c=traf&a=keyword&ajax=module=report&siteid=xxx&st=xxx&et=xxx&tabIndex=1&keywordCondType=&keyword=&itemName=&itemNameType=&itemVal=&engin=all&orderBy=pv&orderType=-1&currentPage=1&pageType=1000&downloadType=xls

批量下载的链接，通过excel或者其他的工具批量生成这种类型的下载链接，更改当中的siteid和starttime，stoptime即可下载你想要的数据。