14.python案例：爬取电影天堂中所有电视剧信息

1.python案例：爬取电影天堂中所有电视剧信息
  1 #!/usr/bin/env python3
  2 # -*- coding: UTF-8 -*-
  3 '''=================================================
  4 @Project -> File   ：pywork -> day10_test04
  5 @IDE    ：PyCharm
  6 @Author ：xwl
  7 @Date   ：2019/10/10 14:35
  8 @Desc   ：
  9 =================================================='''
 10 import requests,pyperclip,time,sys,os,pymysql
 11 from lxml import etree
 12 
 13 HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}
 14 URL = 'https://www.dytt8.net'  # 电影天堂的主页（由于网站设置有问题，所以加了一个URL全局变量）
 15 ALL_DATA=[]
 16 
 17 # 清除剪切板中的内容
 18 def clean_up():
 19     # 利用os模块中的popen方法调用电脑cmd.exe清除剪切板内容
 20     # 用popen新建一个管道，然后用read()读取执行命令
 21     result=os.popen('C:WindowsSystem32cmd.exe /c "echo off | clip"')
 22     result.read()
 23 
 24 # 倒计时程序
 25 def countdown(num_time):
 26     for i in range(num_time,-1,-1):
 27         mystr = '倒计时' + str(i) + '秒开始!'
 28         print(mystr, end='')
 29         time.sleep(1)
 30         print('' * len(mystr), end='')
 31     print('倒计时结束！')
 32 
 33 # 复制网址
 34 def copy_url():
 35     clean_up()  # 调用clean_up函数清除剪切板中内容
 36     print('请从浏览器复制电影天堂网址！')
 37     time.sleep(10)
 38     print('*' * 50)
 39     url = pyperclip.paste()  # 将剪切板中的内容保存到变量中
 40     if url == '':
 41         print('未从浏览器获取到网址,请重新复制！')
 42         time.sleep(1)
 43         print('*' * 50)
 44         num = 20  # 倒计时时间设定
 45         print('请在{}内复制完成，否则程序将结束！'.format(num))
 46         time.sleep(1)
 47         print('*' * 50)
 48         countdown(num)  # 调用countdown倒计时函数
 49         url = pyperclip.paste()  # 将剪切板中的内容保存到变量中
 50         if url == '':  # 如果仍旧未复制，则退出程序
 51             sys.exit()
 52     return url
 53 
 54 # 解析网页工具
 55 def parse_tool(url):
 56     try:
 57         response = requests.get(url, headers=HEADERS)
 58         text = response.content.decode('gbk', errors='ignore')
 59     except Exception as a:
 60         print('网站无响应')
 61     html = etree.HTML(text)
 62     return html
 63 
 64 # 获取需要爬取的网址
 65 def get_url():
 66     url=copy_url()    # 为了调试程序方便，临时将此处复制网址程序禁用掉
 67     # url='https://www.dytt8.net/index.htm'   # 正式运行程序时，此处代码需要禁用掉，而应该用上面的代码调用函数
 68     return url
 69 
 70 # 解析网页信息
 71 def parse_url():
 72 
 73     # 解析电视剧网页信息
 74     def parse_tvUrl(title,url):
 75         print(title,url)    # 输出结果：华语电视剧 https://www.dytt8.net/html/tv/hytv/
 76         print('-'*30)
 77         # 提取华语电视剧网页共有几页的信息
 78         html1=parse_tool(url)
 79         option=html1.xpath('//div[@class="bd3r"]//div[@class="co_content8"]//select[@name="sldd"]/option[last()]/text()')[0]
 80         for i in range(1,int(option)+1):
 81             tv_list = []  # 将所有电视信息存入列表
 82             # 遍历网页底部每页的网址
 83             option_url='https://www.dytt8.net/html/tv/hytv/list_71_{}.html'.format(i)
 84             html2=parse_tool(option_url)
 85             href1s=html2.xpath('//div[@class="co_area2"]/div[@class="co_content8"]//table//td//a/@href')
 86             # print('数量：',len(href1s))  # 调试用
 87             print('第{}页'.format(i), '*' * 50)
 88             for index,j in enumerate(href1s,1): # 用enumerate按顺序遍历，并带序号
 89                 tv_dict = {}  # 将提取的电视名与下载地址保存在字典中
 90                 href1='https://www.dytt8.net'+j
 91                 html3=parse_tool(href1)
 92                 error=html3.xpath('//div[@align="center"]/div/text()')
 93                 if error!=[]:
 94                     print('网址有问题！')
 95                     continue
 96                 try:
 97                     tv_title=html3.xpath('//div[@class="co_area2"]/div[@class="title_all"]/h1/font[@color="#07519a"]/text()')[0]
 98                     # print(tv_title)  # 调试用
 99                     tv_dict['tv_title']=tv_title
100                     # 用contains进行模糊匹配
101                     tv_download=html3.xpath('//div[@id="Zoom"]//table//td//a/@*')
102                     # print(tv_download)  # 调试用
103                     tv_dict['tv_download']=tv_download
104                 except Exception as a:
105                     continue
106                 tv_list.append(tv_dict)
107                 # 添加数据爬取时的提示信息
108                 str = '数据正在写入中'
109                 for y in range(1,6):
110                     print(str, end='')
111                     str = '数据正在写入中'+'.'*y
112                     time.sleep(0.1)
113                     print(''*(len(str)),end='')
114                 # print('计数',index) # 调试用
115                 # print(tv_list) # 调试用
116             for index,info in enumerate(tv_list,1):
117                 tv_title=info['tv_title']
118                 tv_download=info['tv_download']
119                 for k,j in enumerate(tv_download,1):
120                     m = '第{}集'.format(k)
121                     download=j
122                     save_data(i,index,tv_title,m,download)
123             print('电视剧信息已写入数据库{}.'.format(i))
124 
125     # 解析电影网页信息
126     def parse_movieUrl(title,url):
127         print(title,url)    # 输出结果：2019新片精品 https://www.dytt8.net/html/gndy/dyzz/index.html
128         print('-' * 30)
129         print('爬取电影信息代码未完成，等待后续开发。')
130 
131     url=get_url()
132     html = parse_tool(url)
133     # response=requests.get(url,headers=HEADERS)
134     # text=response.content.decode('gbk',errors='ignore')
135     # html=etree.HTML(text)
136     # 因为源代码中按下面的路径查找divs1列表中有两个元素，而我们只是需要爬取第一个元素中
137     # 的内容，所以用list[0]，然后在对该元素进行xpath查找
138     divs1=html.xpath('//div[@class="bd3r"]//div[@class="bd3rl"]')[0]
139     divs=divs1.xpath('./div[@class="co_area2"]')
140     tv_url={}
141     movie_url={}
142     for div in divs:
143         # -------------提取电视剧分类--------------#
144         # 将列表中的每一个元素提取出来，存入变量title
145         main_title = div.xpath('./div[@class="title_all"]/p/strong/text()')[0]
146         main_url=div.xpath('./div[@class="title_all"]/p/em/a/@href')[0]
147         # 由于电影天堂网站有个问题，即日韩电视剧后面跟的是完整的网址，而其
148         # 它的不是，所以需要进行一个判断操作
149         if main_title=='华语电视剧':
150             tv_url['main_title'] = main_title
151             tv_url['main_url']=URL + main_url
152         # -------------提取电影网址--------------#
153         elif main_title=='2019新片精品':
154             movie_url['movie_title']=main_title
155             movie_url['main_url'] = URL + main_url
156         else:
157             continue
158     # 调用电视剧解析函数解析网页信息
159     parse_tvUrl(tv_url['main_title'],tv_url['main_url'])
160     # 调用电影解析函数解析网页信息
161     parse_movieUrl(movie_url['movie_title'],movie_url['main_url'])
162 
163 # 数据写入数据库
164 def save_data(i,n,data1,m,data2):
165     table_name = 'xwl_{}'.format(i) # 变量类型的数据库表名
166     conn=pymysql.connect(host='localhost',user='root',
167                          password='root',charset='utf8',port=3306)
168     cursor=conn.cursor()
169     try:
170         # 创建一个名为xwl_test的数据库
171         cursor.execute('create database if not exists xwl_test character set utf8;')
172         cursor.execute('use xwl_test;')
173         # 创建一个变量类型的数据库表名
174         sql1="create table if not exists `%s`(序号 int,电视剧名称 char(255),集数 char(20),下载地址 char(255)) character set utf8" %(table_name)
175         cursor.execute(sql1)
176         # 向变量类型的数据库表名中写入数据
177         sql2="insert into `%s`(序号,电视剧名称,集数,下载地址)" %(table_name) +" values(%s,%s,%s,%s)"
178         cursor.execute(sql2,(n,data1,m,data2))
179         conn.commit()
180     except Exception as e:
181         print('有部分数据写入出错')  # 这样就可以在数据写入出错时自动跳过，从而使代码可以继续跑下去
182     finally:
183         conn.close()
184 
185 #--------------代码调用主模块---------------#
186 if __name__=='__main__':
187     parse_url()
出现以下情况，说明已经成功写入：