20181235实验四《Python程序设计》实验报告

# 20181235 2019-2020-2 《Python程序设计》实验四报告

课程：《Python程序设计》
班级： 1812
姓名：周昱涵
学号：20181235　
实验教师：王志强
实验日期：2020年6月3日
必修/选修：公选课

## 1.实验内容
爬虫实验，通过爬虫技术爬取头像网站的头像图片并将链接保存到txt文档中
## 2. 实验过程及结果

利用爬虫技术进行爬虫练习，调用random，requerts，bs4(BeautifulSoup)，lxml(etree),re函数库进行实验，我这次爬取的网站是https://www.woyaogexing.com/

输出结果为抓取的数量和一个创建的txt文档，利用di_url = 'https://www.woyaogexing.com'+str(x)获取最底层url,从最底层url里提取img_url

利用html=requests.get(di_url).content.decode('utf8')从这里找到照片链接

结果如下：

代码

import random
import requests
from bs4 import BeautifulSoup
from lxml import etree
import re
zhong_url = []#所有中层链接,还没有添加前缀url
for page_num in range(2,25):
    gao_url = 'https://www.woyaogexing.com/touxiang/index_'+str(page_num)+'.html'
    html = requests.get(gao_url).content.decode('utf8')
    pat = r'href="(.*?)" class="imgTitle" '#提取链接表达式
    link = re.findall(pat,html)
    zhong_url.append(link)
img_url=[]#列表套列表
for link_list in zhong_url:
    for x in link_list:
        di_url = 'https://www.woyaogexing.com'+str(x)#最底层url,从最底层url里提取img_url
        html=requests.get(di_url).content.decode('utf8')#从这里找到照片链接
        pat_href = '<a href="(.*?)" class="swipebox">'
        href = re.findall(pat_href,html)
        img_url.append(href)
all_img_url=[]
for i in img_url:
    for p in i:
        all_img_url.append(p)
print(len(all_img_url))
iiii= ",".join(all_img_url)
with open('头像url.text','w') as f:
    f.write(iiii)

## 其他（感悟、思考等）
爬虫技术十分的高端，还有很多值得我们去学习，这次做的是一个十分简陋的爬虫，希望在暑假可以能够有很大的涨进，还有多学会利用各种函数库进行练习

## 参考资料
码云：https://gitee.com/python_programming/zhouyuhan20181235/blob/master/20181235%E5%91%A8%E6%98%B1%E6%B6%B520200603.py