python爬虫练手--糗事百科图片获取

啥也不说了，直接上代码吧，原先我就比较喜欢糗事百科，工作累了，或者遇到烦心难受的事情，总喜欢来着看看的，用它做练习，就当是给它做个推广了。

（ps：这个爬虫代码简单易懂，小白练手够用了，里面有些地方写的比较繁琐，效率不高，但是参考练手一下，还是可以的）

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request
import http.client
import ssl
import gzip
import zlib
import re
import urllib.error as error
import os

# 取消全局的ssl认证
ssl._create_default_https_context = ssl._create_unverified_context


def gzip_decompress(data):
    try:  # 尝试解压
        print('正在使用gzip解压.....')
        data = gzip.decompress(data)
        print('gzip解压完毕!')
    except:
        print('未经gzip压缩, 无需解压')
    return data


# deflate压缩算法
def deflate_decompress(data):
    try:
        print('正在使用deflate解压.....')
        return zlib.decompress(data, -zlib.MAX_WBITS)
        print('deflate解压完毕!')
    except zlib.error:
        return zlib.decompress(data)

###获取糗事百科所有图片网页的url，并存入函数
###如果知道多少页，可以修改这个函数为对应的页数，已经知道糗事百科有13页图片

def url_all():
    result = []
　　 #图片网页数量共13页，利用循环获取
    for i in range(1, 14):
        result.append('https://www.qiushibaike.com/imgrank/page/%u' %i)
    return result

##创建目录页的文件夹
def dirpath_all():
    base = 'E:/爬虫数据/1.糗百图片/'
    #对应网页数量，创建存放目录
    for i in range(1,14):
        dirpathmkdir = base + str(i)
        if os.path.exists(dirpathmkdir):
            print('%s'"已经存在" % dirpathmkdir)
        else:
            os.makedirs(dirpathmkdir)
            print('%s'"不存在！刚刚已经创建" %dirpathmkdir)



# 封装头信息，伪装成浏览器
header = {
    'Connection': 'Keep-Alive',
    'Accept-Language': 'zh-CN,zh;q=0.8',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    #'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
    'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
    'Accept-Encoding': 'gzip, deflate',
    'X-Requested-With': 'XMLHttpRequest',
}
#网页地址list取出是从0开始的，一共13个地址元素
for i in range(0,13):
    #获取网页地址
    url = url_all()[i]
    #进入目录结构参数的默认值为a=1，默认从"E:/爬虫数据/1.糗百图片/1/"开始
    a = 1
    try:
        # 使用包含header的信息，进行请求
        request = urllib.request.Request(url, headers=header)
        # 通过urlopen打开包含header的url链接，用来获取数据
        response = urllib.request.urlopen(request)
    except urllib.error.HTTPError as e:
        print(e.code)
    except urllib.error.URLError as e:
        print(e.reason)
    except http.client.error as e:
        print(e)
    else:
        # 读取返回的结果
        content = response.read()
        # 用于判断是何种压缩算法，如果是gzip则调用gzip算法
        encoding = response.info().get('Content-Encoding')
        # 判断使用的是不是gzip压缩算法
        if encoding == 'gzip':
            content = gzip_decompress(content).decode(encoding='utf-8', errors='strict')
        # deflate很少有人在用了，老网站可能用，这里也判断一下
        elif encoding == 'deflate':
            content = deflate_decompress(content)
        # 这里获取了所有的img链接，包括头像什么的。
        imgre = re.compile('<img src="(.+?)"')
        imglist = imgre.findall(content)  # re.findall() 方法读取html 中包含 imgre（正则表达式）的    数据
        print(imglist)

        # 把筛选的图片地址通过for循环遍历并保存到本地
        # 核心是urllib.urlretrieve()方法,直接将远程数据下载到本地，图片通过x依次递增命名
        x = 0
　　　　　#确认是否创建对应网页的存放图片的目录，如果有则跳过忽略，没有则创建
        dirpath_all()
　　　　　#配合list的取值参数i，使得a对应的值发生变化，并进入到相应的目录中，开始下载
        a += i
　　　　　#确定目录地址
        dirpath = 'E:/爬虫数据/1.糗百图片/%s/' %a

    for imgurl in imglist:
        # 将正则表达式编译 成pattern对象
        pattern = re.compile('w?//pic.qiushibaike.com/.*.jpg')
        # 进行匹配查找
        if pattern.match(imgurl):
            # 如果匹配成功则进行下载，保存到本地文件夹
            try:
                # 糗百的html代码 中 关于图片的代码，没有http，需要手动加上
                image_data = urllib.request.urlopen("https:" + imgurl).read()
                image_path = dirpath + str(x) + '.jpeg'
                x += 1
                print(image_path)
                with open(image_path, 'wb') as image_file:
                    image_file.write(image_data)
                image_file.close()
            except error.URLError as e:
                print('Download failed')