python_爬虫_requests

复现之前学过的爬虫！

原因：之前学习的爬虫是在七月上旬，好几个月没有学关于这边的知识了，忘得可能差不多了，所以需要复现一下之前学的知识，其次就是之前学的那个爬虫使用的库，是很早之前的库，比较老，而且比较麻烦，人嘛，总得去接收一些新知识，而且那个教程的视频教的爬虫还比较浅，我也无法进阶了，所以我必须去学点新鲜玩意！简单的爬爬起来套路都一样，难的又搞不了，玩个屁哦！

之前使用的是urllib库中的urllib.request，接下来带的是网址。直接获取整个网站上的源代码，其次在通过re表达式来进行过滤出自己想要的内容。

然后就没啥东西了。只要就是要分析出网页的构造，添加代理，需要出创建一个容器，现在可以说是一个对象了。学了一点关于面向对象的内容，可以解释很多了。

新知识

requests库

同样是爬虫库，更方便，舒服

对象 = requests.get(url,headers)

返回的这个对象是报文和一个状态码，如果需要获取里面的源码则需要通过调用.text方法展示出源代码同时也等于.content.decode("编码"),在使用抓包软件时，则需要添加一个参数，verif=False

添加请求头

直接定义一个字典，在里面添加请求头信息，就轻轻松松的添加了

使用post打开网站:

跟.get类型差不多，但是需要多加一个data，便于要提交的数据

在少数情况下，打开的网站中文会被进行Unicode编码，所有解决的办法是

先对内容进行编码，在进行解码

如

n = data.encode('utf-8').decode('unicode_escape')

在data里面中文则是Unicode编码，对他直接进行解码则不行，需先进行编码，再解码