Python爬取淘宝店家信息项目

Python语言爬虫的基本路程架构：

1Python语言爬虫本质就是访问网页抓取网页数据字段的过程，Python自带的模块urllib2是最常用的网页打开连接的方法。

（1）、使用URLib2 简单的访问语句,初级的访问语句：

import urllib2

html = urllib2.urlopen(url).read()

（2）浏览器伪装python爬虫浏览器伪装

这里就需要使用request进行设置

#导入urllib.request模块
import urllib.request

#设置请求头
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
#创建一个opener
opener=urllib.request.build_opener()
#将headers添加到opener中
opener.addheaders=[headers]
#将opener安装为全局
urllib.request.install_opener(opener)
#用urlopen打开网页
data=urllib.request.urlopen(url).read().decode('utf-8','ignore')

（3）设置代理，主要设置代理的ip地址，防止网站对本机地址封锁访问。

（4）cookies使用模拟登陆获取登陆信息，访问需要登陆才能获取到的信息