python网络爬虫&&爬取图片


爬取学院官网数据
from urllib.request import * #导入所有request   urllib文件夹，request只是里面的一个模块
from lxml import etree  #导入lxml包
import time
url="http://www.llhc.edu.cn/"  #爬取的地址
# print(url)
with urlopen(url) as html:
    text= html.read().decode('utf-8')# 对html读取、解码
doc=etree.HTML(text)   #解析html文档
links=doc.xpath("//div[contains(@class,'pic')]/ul/li/div/img/@src")#获取数据
# print(len(links))
#下载资源 可以是视频音频
for i in range(len(links)):
    # print(i)
    time.sleep(2)
    print('正在下载第%s个'%i)
    urlretrieve('http://www.llhc.edu.cn/'+links[i],'imgs/%s.jpg'%i) #将图片地址下载到指定目录