Python语言爬虫的基本路程架构:
1Python语言爬虫本质就是访问网页抓取网页数据字段的过程,Python自带的模块urllib2是最常用的网页打开连接的方法。
(1)、使用URLib2 简单的访问语句,初级的访问语句:
import urllib2
html = urllib2.urlopen(url).read()
(2)浏览器伪装python爬虫浏览器伪装
这里就需要使用request进行设置
#导入urllib.request模块 import urllib.request #设置请求头 headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0") #创建一个opener opener=urllib.request.build_opener() #将headers添加到opener中 opener.addheaders=[headers] #将opener安装为全局 urllib.request.install_opener(opener) #用urlopen打开网页 data=urllib.request.urlopen(url).read().decode('utf-8','ignore')
(3)设置代理,主要设置代理的ip地址,防止网站对本机地址封锁访问。
(4)cookies使用模拟登陆获取登陆信息,访问需要登陆才能获取到的信息