爬虫

爬虫：

什么是爬虫：

爬虫就是写一个程序，从互联网上抓取数据的过程

Url模块：

1:urlretrieve(url,filename):urlretrieve()模块有两个参数，url = 要爬取的网址

filename = 本地的目录(本地的存储地址)

2：urlcleanup() :将urlretrieve()产生的缓存清除

3：info():将一些基本的环境展现出来（urllib.request.urlopen(url)）

此时调用info()可展现当前的环境

4:getcode()，geturl():返回当前网页的状态码，getcode显示当前的状态码，200表示网页正常

403表示网页有错

5:超时设置：由于网速和对方服务器的问题，爬取网页时。都需要时间,

有时间该网页长时间未响应，就判断为超时。file = urllib.request.urlopen('url',timeout = ?)