Python 爬虫知识点

一、抓包基础

　　在淘宝上搜索“Python机器学习”之后，试图抓取书名、作者、图片、价格、地址、出版社、书店等信息，查看源码发现html-body中没有这些信息，分析脚本发现，数据存储在了g_page_config变量之中，初步分析需要采用抓包技术来获取其他页的数据。以前使用Fiddler非常方便，今天出奇的怪，总是挂掉。经度娘得知还有WireShark神器，可安装后发现太过底层。最后使用浏览器自带的开发者工具，先前仅用到了调试前端页面。如下图：

数据存储区域：

开发者工具抓包界面：

二、抓包分析

　　1、在搜索结果页，切换页，跟踪页面元素的加载时间，如果时长最长，则有可能是获取数据的链接，连续切换两页之后，发现search地址数据量最大，加载时间最长，初步判断此处有可能是后台获取数据的请求地址。

　　2、点击链接后出现几个选项卡，有助于分析返回的数据，如下图：

　　3、点击Response，搜索某书店名称，发现确实能搜索到该书店，则可以确认，通过构建此地址，应该是能够获得查询结果数据。

　　4、连续切换页码，得到连续的Url，将这些Url拷贝到文件中加以分析。S有可能是当前页显示的数量，data-value表示在上一页的基础之上，增加S个，如44+44=88，88+44=132，132+44=176，基于上述规则构建的URL，在浏览器中查询测试。

　　未完待续......