爬虫案例-爬运维工单

源代码：
# coding=utf-8
import requests
from lxml import etree


class ChaxunSpdier:
    def __init__(self):
        self.start_url = 'http://111.40.232.237:9000/eoms35/sheet/complaint/complaint.do?method=performQuery'
        self.part_url = 'http://111.40.232.237:9000/eoms35/sheet/complaint/'
        self.headers = {
            'Connection': 'keep-alive',
            'Cookie': 'TSJSESSIONID=0000YvxNFfPYx8EBo8lsKNrKIl6:1bkt8lo7d',#每次都得换一下
            'Host': '111.40.232.237:9000',
            'Referer': 'http://111.40.232.237:9000/eoms35/sheet/complaint/complaint.do?method=showQueryPage&type=interface&urlType=complaint&userName=liuhaoce&workSerial=0&isDutyMaster=false&workSerialTime=&startDuty=&endDuty=',
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'}

    def parse_url(self, url):
        formdata = {
            'sheetIdStringExpression': 'like',
            'main.sheetId': '',  # 工单流水号
            'titleStringExpression': 'like',
            'main.title': '',
            'main.status': '',
            'statusChoiceExpression': '0',
            'task.taskName': '',
            'sendRoleIdStringExpression': 'in',
            'main.sendRoleId': '',
            'sendDeptIdStringExpression': 'in',
            'main.sendDeptId': '',
            'sendUserIdStringExpression': 'in',
            'main.sendUserId': '',
            'operateRoleIdStringExpression': 'in',
            'link.operateRoleId': '',
            'operateDeptIdStringExpression': 'in',
            'link.operateDeptId': '',
            'operateUserIdStringExpression': 'in',
            'link.operateUserId': '',
            'toDeptIdStringExpression': 'in',
            'showArea': '大庆, 铁通',  # 投诉受理省份
            'main.toDeptId': '1005, 1021',
            'main.complaintType1': '',
            'complaintType1ChoiceExpression': '1010615100202',  # 投诉类型一：家宽业务
            'main.complaintType2': '',
            'complaintType2ChoiceExpression': '',
            'main.complaintType': '',
            'main.complaintType4': '',
            'main.complaintType5': '',
            'main.complaintType6': '',
            'main.complaintType7': '',
            'complaintNumStringExpression': '',
            'main.complaintNum': '',
            'parentCorrelationStringExpression': '',
            'main.parentCorrelation': '',
            'customAttributionStringExpression': 'like',
            'main.customAttribution': '',
            'repeatComplaintTimesStringExpression': '>=',
            'main.repeatComplaintTimes': '',
            'complaintDescStringExpression': 'like',
            'main.complaintDesc': '',
            'main.sendTime': '',
            'sendTimeStartDateExpression': '>=',
            'sendTimeStartDate': '2020-02-02 20:13:35',  # 开始时间
            'sendTimeLogicExpression': 'and',
            'sendTimeEndDateExpression': '<=',
            'sendTimeEndDate': '2020-02-23 20:13:35',  # 结束时间
            'queryType': 'record'
        }
        response = requests.post(url, data=formdata, headers=self.headers)
        return response.content

    def get_content_list(self, html_raw):
        html = etree.HTML(html_raw)
        tr_list = html.xpath('//tbody/tr')  # 每一个tr里放了一行投诉
        content_list = []
        for content in tr_list:
            item = {}
            zineirong = content.xpath('./td')  # 每行投诉都封装在n个td标签下
            item['工单主题'] = zineirong[0].xpath('.//text()')[0]
            item['工单流水号'] = zineirong[1].xpath('./a/text()')[0]
            # item['处理时限'] = zineirong[3].xpath('./text()')[0]
            detail_link = self.part_url + zineirong[1].xpath('./a/@href')[0]
            detail_dict = self.get_gongdan_detail(detail_link)
            item['xiangqing'] = detail_dict
            content_list.append(item)
        next_gongdan_url = self.part_url + html.xpath("//a[text()='下一页']/@href")[0] if len(html.xpath("//a[text()='下一页']/@href")) > 0 else None  # 下一页工单列表明细
        return content_list, next_gongdan_url

    def get_gongdan_detail(self, url):
        html_raw = self.parse_url(url)
        html = etree.HTML(html_raw)
        xiangqing_dict = {}
        xiangqing_dict['投诉内容'] = html.xpath('//*[@id="complainttext"]/text()')
        xiangqing_dict['派往对象'] = html.xpath('//div[@id="ext-gen47"]/table/tbody/tr[4]/td[4]/text()')#ifram里了，查不到
        xiangqing_dict['qita'] = html.xpath('//*[@id="ext-gen47"]/text()')

        return xiangqing_dict

    def save_content_list(self, content_list):
        for i, v in enumerate(content_list, start=1):
            print(i, v)

    def run(self):
        next_url = self.start_url#工单查询主界面
        content_total_list = []
        while next_url is not None:
            html_raw = self.parse_url(next_url)  # 获取访问每一页工单源数据
            content_list, next_url = self.get_content_list(html_raw)  # 提取url具体内容放在里列表里，获取下一页链接
            content_total_list = content_total_list + content_list  #将提取每一页内容加载到列表中
        self.save_content_list(content_total_list)  # 每一条工单内容打印一下

if __name__ == '__main__':
    Spdier = ChaxunSpdier()
    Spdier.run()