Python网络数据爬取网络爬虫基础（一）

The website is the API......(未来的数据都是通过网络来提供的，website本身对爬虫来讲就是自动获取数据的API)。掌握定向网络数据爬取和网页解析的基本能力。

##Requests 库的使用，此库是Python公认的优秀的第三方网络爬虫库。能够自动的爬取HTML页面；自动的生成网络请求提交。

##robots.tex 协议网络爬虫排除标准（网络爬虫的盗亦有道）

1.安装Requests库以管理员权限进入cmd控制台，通过" pip install requests "命令安装Requests库

#测试安装Requests库的效果，以爬取百度主页为例
>>> import requests
>>> r = requests.get("http://www.baidu.com")##一行代码就可以获取任何对应的URL的资源
>>> r.status_code() #状态码
200
>>> r.encoding = "utf-8" #将编码更改为UTF-8编码
>>> r.text #打印网页内容
......百度主页的内容......

2. requests 的主要方法：

##2.1 r = requests.get(url) : get 方法为获得一个网页最常用的方法，此方法构建一个向服务器发送请求的Request（requests库内部生产的）对象；返回一个包含服务器资源的Response（包含了网络爬虫返回的内容）对象。

requests.get(url,params=None,**kwargs)

url :获取URL页面的链接

parmas:url 中额外的参数，可以是字典或字节流格式，可选

**kwargs:12个控制访问参数

其实get 方法采用request方法进行封装，其他的方法也通过调用request方法来实现的。可以理解为requests库只有一种request方法，为了编程方便才提供额外的6种方法。

3.Response对象包含了服务器返回的所有信息，同时也包含了向服务器发送请求的信息

##Response 对象的5个属性

3.1. r.status_code HTTP请求的返回状态，200表示连接成功，404表示连接失败；（有可能返回的是其他的值，只要不是200，都表示连接是失败的）

3.2.r.text HTTP响应内容的所有字符串形式，即URL对应的网页内容

3.3. r.encoding 从 HTTP header中猜测响应内容的编码方式(如果header中不存在charst字段，则默认的是ISO--8859--1编码)

3.４.r.apparent_encoding 从内容中分析出响应内容编码方式（根据网页内容分析出编码方式，更加准确）

3.5.r.content 表示响应内容的二进制形式

############################################################################################################

##爬取网页的通用代码框架

##爬取网页有风险，有可能有些网站不允许爬或者因为其他的原因无法爬取

理解requests库的异常：

# requests.ConnectionError 网络连接错误异常，如查询DNS失败或者服务器的防火墙拒绝连接等

# requests.HTTPError :HTTP错误异常

# requests.URLRequirde: URL缺失异常

# requests.TooManyRediecrts :重定向异常，超过最大重定向次数（对一些复杂的连接访问的时候，容易产生这样的错误）

# requests.ConnectTimeout :连接远程服务器超时异常（与服务器连接超过一个预定的时间而产生的异常）

# requests.Timeout :发起URL请求到获取URL内容，产生的超时异常

##Response 作为一个返回的对象，它提供了一个方法

r.raise_for_status() --->与异常打交道的方法，能够判定返回的状态码是不是200，如果返回的不是200，将产生一个requests.HTTPError 异常

##爬取网页的通用代码框架
import requests
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
    
if _name_ == "_main_":
    url ="http://www.baidu.com"
    print(getHTMLText(url))
####通用代码框架可以有效的处理，在访问或者爬取网页的时候产生的异常、错误，以及由于网络不稳定等因素产生的异常。用户在使用通用代码框架后可以使得爬取网页变得更加有效、稳定可靠###

####requests库的7个主要方法：

1. requests.request()

2.requests.get()

3.requests.head()

4.requests.post()

5.requests.put()

6.requests.patch()

7.requests.delete()

HTTP 协议，超文本传输协议，是一种基于“”请求与响应“”模式的，无状态的应用层协议。（无状态指的是第一次请求与第二次请求并无关联）

HTTP协议采用URL作为定位网络资源的标识

ＵＲＬ的格式　http://host[:port][path]（URL是通过HTTP协议存取网络资源的Internet路径，一个URL对应一个数据资源）

host: 合法的主机域名和IP地址

port:端口号，缺省的端口号为80

path:请求的资源在服务器上的路径

HTTP协议对资源的操作(其实这6个方法也是requests库6个函数对应的功能)：

GET ：请求获取URL位置资源　与　requests.get() 方法一致

POST ：请求向ＵＲＬ的资源后增加新的信息，不改变现有的内容　与 requests.post()方法一致

HEAD ：请求获取URL资源的响应消息报告，即获取该资源的头部信息与 requsts.head()方法一致

PUT ：请求向ＵＲＬ的位置存取一个资源，原来的资源将被覆盖与 requests.put()方法一致

PATCH：请求向ＵＲＬ位置处的资源进行局部更新，改变该出资源的部分信息与 requests.patch()方法一致

DELETE：请求删除ＵＲＬ位置处的相关资源与 requests.delete()方法一致

＃＃理解ＰＡＴＣＨ和ＰＵＴ的区别
假设ＵＲＬ位置有一组数据ＵｓｅｒＩｎｆｏ，包括ＵｓｅｒＩＤ，ＵｓｅｒＮａｍｅ等２０个字段；
需求：用户修改ＵｓｅｒＮａｍｅ其他不变
＊使用ＰＡＴＣＨ，仅向URL提交UserName的局部更新请求（主要好处：节省网络带宽）

＊采用PUT，必须将所以的20个字段一并提交到ＵＲＬ，未提交的文字段将被删除（覆盖）

####requests库的head() 方法

#requests库的head（）方法
import requests
r = requests.head("http://httpbin.org/get")#用很少的网络流量获取网络资源的概要信息
print(r.headers) 
>>>
{'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Date': 'Thu, 01 Nov 2018 14:33:19 GMT', 'Content-Type': 'application/json', 'Content-Length': '265', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true', 'Via': '1.1 vegur'}
>>>r.text
..........(无)