2020.2.9

今天以爬取一个六间房直播的视频联系使用python的爬虫

爬虫的思路
通过控制台确定出来爬取的数据包的地址
发送请求---通过requests模块模拟浏览器发送的数据请求获取响应数据
解析数据---json字符串转化成python可以进行交互的数据类型
将数据保存在目标文件夹中

这里用到的数据包就是常见的两个requests还有json

requests是python最简单实用的HTTP库，这力爬虫使用的就是requests库

json主要是用来转化爬取到的数据包的格式为字典

#练习通过爬取数据包的形式爬取数据
#@Time 2020.2.10
#xzy
#爬虫的思路
#通过控制台确定出来爬取的数据包的地址
#发送请求---通过requests模块 模拟浏览器发送的数据请求获取响应数据
#解析数据---json字符串转化成python可以进行交互的数据类型
#将数据保存在目标文件夹中
import requests
import json
#定义一个函数
def video_spider():

    #确定了爬取的URL地址 确定请求头headers
    base_url = 'https://v.6.cn/minivideo/getlist.php?act=recommend&page=1&pagesize=20'
    headers = {'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0'}
    #发送请求模拟浏览器获取该网址的数据
    #定义了一个相应对象
    response = requests.get(base_url,headers = headers)
    data = response.text
    #接下来就进行解析数据
    #转化数据的类型
    dict_data = json.loads(data)#转化成为字典的格式 方便之后使用键值对的方式去获取到数据的
    #解析数据
    data_list = dict_data['content']['list']
    #print (data_list)
    #接下来遍历一下list下面的字典
    for data_dict in data_list :
        video_title = data_dict['title'] + '.mp4'
        video_url = data_dict['playurl']

        #print(video_title,video_url)
        #需要在title后缀添加.mp4后缀，才可以变成视频
        video_data = requests.get(video_url,headers=headers).content
        #保存到文件当中
        with open('video\' + video_title, 'wb') as f:
            f.write(video_data)



#定义main 调用这个函数
if __name__ == '__main__':
    video_spider()

在爬取视频的时候遇到一个错误,需要在requests.get方法后面加上.content才可以得到视频

requests对象的get和post方法都会返回一个Response对象，这个对象里面存的是服务器返回的所有信息，包括响应头，响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。两者区别在于，content中间存的是字节码，而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。直接输出content，会发现前面存在b'这样的标志，这是字节字符串的标志，而text是'，没有前面的b,对于纯ascii码，这两个可以说一模一样，对于其他的文字，需要正确编码才能正常显示。大部分情况建议使用.text，因为显示的是汉字，但有时会显示乱码，这时需要用.content.decode('utf-8')，中文常用utf-8和GBK，GB2312等。这样可以手工选择文字编码方式。所以简而言之，.text是现成的字符串，.content还要编码，但是.text不是所有时候显示都正常，这是就需要用.content进行手动编码。