爬虫

爬虫的原理

先利用requests的get或者post从网页上获取请求，返回一个response对象，通过contents或text读取response文本内容形成html文档，然后利用beautifulsoup对html文档进行解析。

Reuqests库

requests支持两种网页获取方式，一种是requests.get()，一种是requests.post()，重要的是表头和其他参数，尤其表单数据。

获取网页

r = requests.get('https://api.github.com/events')
r = requests.post('http://httpbin.org/post', data = {'key':'value'})

传递URL参数

像搜索引擎中搜索关键字可以通过传递URL参数关键字实现，以键值字符串来提供

payload = {'key1':'value1','key2':'value2'}
r = requests.get("http://httpbin.org/get",params = payload)
print(r.url)

http://httpbin.org/get?key2=value2&key1=value1

响应内容

获取网页后会得到一个response的对象，可以获取response对象的内容，大多数unicode字符集都能被无缝解码，如果出现中文乱码，则可以通过response.encoding查看文档编码，编码方式可以改变

1 import requests
2 r = requests.get('https://api.github.com/events')
3 r.text 
4 print(r.encoding)
5 'utf-8' 
6 r.encoding = 'ISO-8859-1' #更改文档编码方式

除了获取response.text（unicode型数据）还可以获取response.content 二进制数据

定制表头

定制表头是为了模拟浏览器进行操作可以防止反爬虫，表头传入的是字典

1 url = 'https://api.github.com/some/endpoint'
2 headers = {'user-agent': 'my-app/0.0.1'}
3 r = requests.get(url, headers=headers)

定制表单

对于动态网址经常会遇到翻页或URL不变的情况，通常影响因素就是表单，form_data

form_data={'D1':'008'}
page=requests.post(url,headers=headers,data=form_data)

Beautifulsoup库

主要是对html或者xml文档进行解析，支持两种文档解析方式，一种是利用find_all，一种是CSS解析，最关键的是里面属性的应用，包括tag，attrs，string，text，子节点和父节点的应用

soup = beautifulsoup(html)

beautifulsoup对象

利用beautifulsoup()接口解析文档可以生成一个beautifulsoup对象，利用prettify()可以格式化输出

四大对象种类

Tag

Tag 是html文档中的标签，可以直接使用soup.a获取第一个a标签。Tag有两个属性，一个是name，一个是attrs，其中attrs可以帮助我们定位tag，属于经常会用到的对象

print soup.a
#<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>

NavigableString

naviablestring可以获取tag中的内部文字，soup.a.string，同时text函数也可以获取，二者的主要区别是string可以获取注释里的内部文字，但是text则不行

1 test = '<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>'
2 test1 = bs(test)
3 test1.a.string #' Elsie '
4 test1.a.text # ' '

Comment

comment是一种特殊的NavigableString对象，输出内容不包括注释符号，但是它的内部文字实际上是注释而不是直接的文字，注意navigablestring，text的区别

遍历文档树

解析完html文档生成文档树后，要对文档树进行遍历获取所需要的内容，常用的属性有Tag，Attrs，children，parents，contents，next_sibling，previous_sibling，next_element

所搜文档树

find_all(name,attrs,recursive,text,**kwargs)，其中name通常指tag，可以传入列表['a','p']指满足任何一个tag即可，attrs是tag的属性通常和正则表达式或True结合使用，除此之外还可以传方法tag.has_attr(' ')表示tag是否有某个属性

def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

soup.find_all(has_class_but_no_id)

**keyword参数：如果一个指定名字的参数不是搜索内置的参数名，搜索时会把该参数当作指定名字tag的属性来搜索

soup.find_all(id='link2')
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
soup.find_all(href=re.compile("elsie"))
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

网页类型

网页分为静态网页和动态网页，动态网页(ajax异步加载)要比静态网页复杂，主要提现在需要前后端交互，前端需要发送JS数据到服务器，服务器返回相应内容后由前端进行加载渲染成相应的页面，其地址栏中URL并不包含实际的html文档，可以通过XHR判断一个网页是不是ajax异步加载。通过network中的preview查看返回的相应URL。Ajax网页URL后通常会有"？"表示需要查询的内容，利用urlencode可以将网页和查询内容通过键值对的形式结合在一起。还有一种既不是AJAX异步加载，也不是静态网页，因为没有XHR，翻页或选择时URL不变，这时主要是通过表单数据控制，可以通过html中form查看。

URL 中文编码

URL只允许一部分ASCII字符（数字字母和部分符号），其他的字符（汉字）是不符合URL标准的，所以要对URL中特殊字符尤其汉字进行编码。在Python3.x中可以利用urllib.parse.quote(text,safe=string.printable)进行编码，safe表示哪些字符不会被编码，string.printable显示的一些字符。

1 url = "http://www.ischoolbar.com/index.php/School/schools.html?province=1&provincename=北京"
2 
3 url_new = parse.quote(url,safe=string.printable)
4 
5 http://www.ischoolbar.com/index.php/School/schools.html?province=1&provincename=%E5%8C%97%E4%BA%AC

Session和Cookie

有的时候在不同的页面会出现request url相同的情况，通常情况下是通过cookie控制的，不同的Session会有不同的cookie，根据不同的cookie解析相同URL，返回的内容也会不同

url_t = "http://www.ischoolbar.com/index.php/School/selectSchool.html?id=920&name=%E6%B5%99%E6%B1%9F%E5%A4%A7%E5%AD%A6"
s = requests.Session()
r = s.get(url_t)
r_1 = s.get("http://www.ischoolbar.com/index.php/Goods/getGoods.html?pn=1")
r_1.json()