爬虫八之爬取京东商品信息

爬取京东关键字商品的title, image以及price.

注：代码放在github上，这里只讨论出现的问题和解决办法。

本来是爬取淘宝的，但是淘宝在搜索关键词时要登陆；使用selenium我还不会添加cookies, 因此比较麻烦，所以转而爬取不需要登陆的京东。

爬取时，应安装好需要的包，以及需要有一个Chrome浏览器，以及配置好Chromedriver.

京东网页有个问题就是，如果你不下拉，那么商品图片将不会加载。

解决办法：

在读取每一个商品前，加入以下代码：

browser.maximize_window()
time.sleep(0.05)
    for i in range(0, 100):
        time.sleep(0.07)
        js = "window.scrollTo(0,%s)" % (i*100)
        browser.execute_script(js)

该代码可实现自动向下滚动窗口。循环里的sleep time 要根据自己网速来调整，如果网速略慢则需要将时间调大点；

我只是将图片url保存在了本地，并没有读取及下载，因为我担心大量下载也会被京东反爬，目前我还没有防止反爬比较好的技巧。

在运行程序时，会跳出Chrome浏览器运行。如果不想让其跳出，可使用PhantomJS; 我没有尝试，仅提一下有该方法。

代码链接：

https://github.com/GhostSteven/Crawler/tree/master/JD