Python爬取淘宝店家信息项目

Python语言爬虫的基本路程架构:

1Python语言爬虫本质就是访问网页抓取网页数据字段的过程,Python自带的模块urllib2是最常用的网页打开连接的方法。

(1)、使用URLib2 简单的访问语句,初级的访问语句:

            import urllib2

            html = urllib2.urlopen(url).read()

(2)浏览器伪装python爬虫浏览器伪装

          这里就需要使用request进行设置

#导入urllib.request模块
import urllib.request

#设置请求头
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
#创建一个opener
opener=urllib.request.build_opener()
#将headers添加到opener中
opener.addheaders=[headers]
#将opener安装为全局
urllib.request.install_opener(opener)
#用urlopen打开网页
data=urllib.request.urlopen(url).read().decode('utf-8','ignore')

(3)设置代理,主要设置代理的ip地址,防止网站对本机地址封锁访问。

(4)cookies使用模拟登陆获取登陆信息,访问需要登陆才能获取到的信息

原文地址:https://www.cnblogs.com/xinghaiyige/p/7374696.html