python(七):python记录日志

Python日志采集(详细)

 

通常在前期调试代码的时候,我们会使用print在IDE控制台打印一些信息,判断运行情况。但在运行整个自动化测试项目的过程中,通过print打印信息的方式获取运行情况显然行不通。
这时就需要收集日志,每次运行后通过查看日志来获取项目运行情况。那么我们该如何获取日志?

一,日志概述

1,日志作用

在项目开发或测试过程中,项目运行一旦出现问题,记录日志信息就显得尤为重要。主要通过日志来定位问题,就好比侦探人员要根据现场留下的线索来推断案情。

2,日志级别

  • 代码在运行的过程中会出现不同的情况,如调试信息、警告信息、报错等,那么采集日志时就需要对这些日志区分级别管理,这样才能更精确地定位问题。日志级别一般分类如下(以严重程度递增排序):

    级别
    何时使用
    DEBUG 调试信息,也是最详细的日志信息
    INFO 证明事情按预期工作
    WARNING 表明发生了一些意外,或不久的将来会发生问题(如 磁盘满了),软件还是正常工作
    ERROR 由于更严重的问题,软件已经不能执行一些工作了
    CRITICAL 严重错误,表明软件已经不能继续运行了
  • 日志级别排序为:CRITICAL > ERROR > WARNING > INFO > DEBUG

    日志采集时设置低级别的日志,能采集到更高级别的日志,但不能采集到更低级别的日志。

    例如:设置的日志级别为info级别,就只能采集到info、warning、error、critical级别的日志,不能采集到debug级别的日志。设置的日志级别为debug级别的话则能采集到所有级别的日志。默认设置级别为WARNING

  • 在自动化测试项目中,通常在一般情况时使用info日志,预计报错则使用error日志。

3,日志格式

将日志格式化是为了提高日志的可阅读性,比如:时间+模块+行数+日志级别+日志具体信息 的日志格式。如果输出的日志信息杂乱无章,就不利于问题的定位。如下所示就是日志格式化输出,非常便于阅读查看。

2020-09-30 10:45:05,119 logging_test.py[line:7] DEBUG this is debug message.
2020-09-30 10:45:05,119 logging_test.py[line:9] INFO this is info message.
2020-09-30 10:45:05,119 logging_test.py[line:11] WARNING this is warning message.
2020-09-30 10:45:05,120 logging_test.py[line:13] ERROR this is error message.
2020-09-30 10:45:05,120 logging_test.py[line:15] CRITICAL this is critical message.

4,日志位置

通常,在一个项目中会有很多的日志采集点,日志采集点的设置必须结合业务来确定。

比如在执行修改登录密码用例前插入“开始执行修改登录密码用例...”的日志信息。再比如在登录代码执行前可以插入“准备登录...”日志信息。

如果在登录完成后,再设置登录的提示日志就会给人造成误解,无法判断到底是登录之前的问题还是登录之后的问题,因此日志采集点的位置很重要。

二,logging模块

1,简介

logging为python自带的日志模块,提供了通用的日志系统,包括不同的日志级别。logging可使用不同的方式记录日志,如使用文件,HTTP GET/POST,SMTP,Socket等方式记录。通常情况下,我们使用文件记录日志信息,文件格式一般为.txt或.log文件。

2,文档

详细内容可查看logging模块官方文档,使用时需要导入:

import logging

三,logging第一种使用方法:简单配置使用

1,使用方法

logging.basicConfig(**kwargs)

2,basicConfig()部分参数说明

filename 指定日志名称或完整路径,如:E:/app-ui-autotest/log/log.txt

filemode 指定打开文件的模式(如果文件打开模式未指定,则默认为'a')

常见的文件读写方式:

  • w 以写的方式打开
  • W 清空后写入(文件已存在)
  • r 以读的方式打开
  • a 以追加模式打开(即在文件原有的数据后面添加)

format 指定日志输出格式

level 将根记录器级别设置为指定级别

3,示例1:日志打印至控制台

# -*- coding:utf-8 -*-
# @author: 给你一页白纸

import logging

logging.basicConfig(filename='./log.txt', level=logging.DEBUG,
                  format='%(asctime)s %(filename)s[line:%(lineno)d]
                   %(levelname)s %(message)s')

logging.debug('This is debug message')
logging.info('This is info message')
logging.warning('This is warning message')
logging.error('This is error message')
logging.critical('This is critical message')

控制台输出结果:

2020-09-30 10:45:05,119 logging_test.py[line:7] DEBUG This is debug message.
2020-09-30 10:45:05,119 logging_test.py[line:9] INFO This is info message.
2020-09-30 10:45:05,119 logging_test.py[line:11] WARNING This is warning message.
2020-09-30 10:45:05,120 logging_test.py[line:13] ERROR This is error message.
2020-09-30 10:45:05,120 logging_test.py[line:15] CRITICAL This is critical message.

4,示例2:日志保存至文件

logging.basicConfig(filename='log.txt', level=logging.INFO, 
format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s')

logging.debug('This is debug message')
logging.info('This is info message')
logging.warning('This is warning message')
logging.error('This is error message')
logging.critical('This is critical message')

输出格式:

2020-09-30 10:45:05,119 logging_test.py[line:9] INFO This is info message.
2020-09-30 10:45:05,119 logging_test.py[line:11] WARNING This is warning message.
2020-09-30 10:45:05,120 logging_test.py[line:13] ERROR This is error message.
2020-09-30 10:45:05,120 logging_test.py[line:15] CRITICAL This is critical message.

注意:

  • 相较于控制台打印日志,文件保存日志的区别在于basicConfig()方法中加入了filename参数(即文件的完整路径)。

  • 保存日志至文件示例中,因为参数level=logging.INFO,所以DEBUG级别的日志未输出

四,logging的第二种使用方式:日志流处理流程

1,logging四大组件介绍

logging模块包括Logger,Handler,Filter,Formatter四个部分。

  • Logger 记录器,用于设置日志采集。
  • Handler 处理器,将日志记录发送至合适的路径。
  • Filter 过滤器,提供了更好的粒度控制,它可以决定输出哪些日志记录。
  • Formatter 格式化器,指明了最终输出中日志的格式。

2,Logger 记录器

使用日志流采集日志时,须先创建Logger实例,即创建一个记录器(如果没有显式的进行创建,则默认创建一个root logger,并应用默认的日志级别WARNING,Handler和Formatter),然后做以下三件事:

  • 为程序提供记录日志的接口
  • 根据过滤器设置的级别对日志进行过滤
  • 将过滤后的日志根据级别分发给不同handler

3,Handler 处理器

Handler处理器作用是,将日志记录发送至合适的路径。如发送至文件或控制台,此时需要使用两个处理器,用于输出控制台的处理器,另一个是用于输出文件的处理器。通过 addHandler() 方法添加处理器 。常用的处理器类型有以下两种:

3.1,StreamHandler

  • 将日志信息发送至sys.stdout、sys.stderr或任何类似文件流对象,如在Pycharm IDE上显示的日志信息。

  • 构造函数为:StreamHandler(strm)。参数strm是一个文件对象,默认是sys.stderr。

3.2,FileHandler

  • 将日志记录输出发送至磁盘文件。 它继承了StreamHandler的输出功能,不过FileHandler会帮你打开这个文件,用于向一个文件输出日志信息。

  • 构造函数为:FileHandler(filename, mode)。参数filename为文件名(文件完整路径),参数mode为文件打开方式,默认为'a'即在文末追加。

自动化测试使用这两种类型就够了,其他还有RotatingFileHandler、TimedRotatingFileHandler、NullHandler等处理器,有兴趣可以查找资料了解。

4,Filter 过滤器

顾名思义是用于过滤,Handlers 与 Loggers 使用 Filters 可以完成比级别更复杂的过滤。不多做介绍,有兴趣可以查找资料了解。

5,Formatter 格式化器

Formatter用于设置日志的格式与内容,默认的时间格式为%Y-%m-%d %H:%M:%S,更多格式如下:

格式
描述
%(levelno)s 打印日志级别的数值
%(levelname)s 打印日志级别的名称
%(pathname)s 打印当前执行程序的路径
%(filename)s 打印当前执行程序的名称
%(funcName)s 打印日志的当前函数
%(lineno)d 打印日志的当前行号
%(asctime)s 打印日志的时间
%(thread)d 打印线程ID
%(threadName)s 打印线程名称
%(process)d 打印进程ID
%(message)s 打印日志信息

6,使用示例:将日志输出至控制台,同时保存至文件

根据logging的模块化来编写代码,思路参考如下。

目录结构

logging_test.py

# -*- coding:utf-8 -*-
# @author: 给你一页白纸

import logging

# 第一步,创建日志记录器
# 1,创建一个日志记录器logger
logger = logging.getLogger()
# 2,设置日志记录器的日志级别,这里的日志级别是日志记录器能记录到的最低级别,区别于后面Handler里setLevel的日志级别
logger.setLevel(logging.DEBUG)

# 第二步,创建日志处理器Handler。这里创建一个Handler,用于将日志写入文件
# 3,创建一个Handler,用于写入日志文件,日志文件的路径自行定义
logFile = './log.txt'
fh = logging.FileHandler(logFile, mode='a', encoding='utf-8')
# 4,设置保存至文件的日志等级
fh.setLevel(logging.INFO)

# 第三步,定义Handler的输出格式
# 5,日志输出格式定义如下
format= logging.Formatter('%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s')
# 6,设置 写入日志文件的Handler 的日志格式
fh.setFormatter(format)

# 第四步,将Handler添加至日志记录器logger里
logger.addHandler(fh)

# 同样的,创建一个Handler用于控制台输出日志
ch = logging.StreamHandler()
ch.setLevel(logging.INFO)
ch.setFormatter(format)
logger.addHandler(ch)

# 输出日志
logger.info("This is info message")
logger.warning("This is warning message")
logger.error("This is error message")
logger.critical("This is critical message")

Pycharm运行logging_test.py模块,log.txt以及Pycharm控制台得到如下结果:

2020-10-07 15:54:04,752 test.py[line:3] INFO This is info message
2020-10-07 15:54:04,752 test.py[line:4] WARNING This is warning message
2020-10-07 15:54:04,752 test.py[line:5] ERROR This is error message
2020-10-07 15:54:04,752 test.py[line:6] CRITICAL This is critical message

五,logging 实战

1,测试场景

给登录今日头条app的操作添加日志采集。

2,简单配置代码示例

# -*- coding:utf-8 -*-
# @author: 给你一页白纸

import logging
from appium import webdriver

logging.basicConfig(filename='./testLog.log', level=logging.INFO, 
                    format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s')

def android_driver():
    desired_caps = {
        "platformName": "Android",
        "platformVersion": "10",
        "deviceName": "PCT_AL10",
        "appPackage": "com.ss.android.article.news",
        "appActivity": ".activity.MainActivity",
        "unicodeKeyboard": True,
        "resetKeyboard": True,
        "noReset": True,
    }
    logging.info("启动今日头条APP...")
    driver = webdriver.Remote('http://127.0.0.1:4723/wd/hub', desired_caps)
    return driver

def login_opera(driver):
    '''登录今日头条操作'''
    logging.info("开始登陆今日头条APP...")
    try:
        driver.find_element_by_id("com.ss.android.article.news:id/cji").click() # 点击【我知道了】
        driver.find_element_by_id("android:id/button1").click() # 点击权限管理-确定按钮
        driver.find_element_by_xpath("//android.widget.TabWidget/android.widget.RelativeLayout[@index=3]").click() # 点击未登录
        driver.find_element_by_id("com.ss.android.article.news:id/a10").click() # 未登录页点击登录按钮
        driver.find_element_by_id("com.ss.android.article.news:id/bgh").click() # 登录页点击“。。。”
        driver.find_element_by_xpath("//android.widget.LinearLayout[@index=4]").click() # 选择密码登录
        driver.find_element_by_id("com.ss.android.article.news:id/bu").send_keys("18768124236")   # 输入账号
        driver.find_element_by_id("com.ss.android.article.news:id/c5").send_keys("xiaoqq3915172")   # 输入密码
        driver.find_element_by_id("com.ss.android.article.news:id/a2o").click() # 点击登录
    except Exception as e:
        logging.error("登录错误,原因为:{}".format(e))
    else:
        logging.info("登陆成功...")

driver = android_driver()
login_opera(driver)

登录成功则日志输出如下:

2020-09-30 18:20:05,119 logging_test.py[line:21] INFO 启动今日头条APP...
2020-09-30 18:20:10,119 logging_test.py[line:27] INFO 开始登陆今日头条APP...
2020-09-30 18:21:07,120 logging_test.py[line:41] INFO 登陆成功...

3,抛出问题

上面示例代码成功地获取了日志信息,但这种写法只能作用于当前模块。而一个自动化测试项目往往有多个模块,如果在每个需要获取日志的模块都使用这样的方式,显然是不方便维护的。那么我们需要怎么解决呢?

4,解决思路

使用日志流处理流程。提供以下两种思路:

思路1:使用python代码实现日志配置。先创建日志记录器,并设置好Handler与日志格式,如上面的logging_test.py模块构造logger,其他模块采集日志时直接调用。

思路2:将日志的格式、输出路径等参数抽离出来放置在专门的配置文件里,如logging.conf,使用专门的模块处理,使用时直接在模块调用即可。

5,思路1:使用python代码实现日志配置示例

目录结构

test.py中需要采集日志时,从logging_test.py导入logger即可。也可以将logging_test.py里的代码进行进一步的封装,再调用,这里仅仅只是示例。
logging_test.py

# -*- coding:utf-8 -*-
# @author: 给你一页白纸

import logging

# 创建日志记录器
logger = logging.getLogger()
logger.setLevel(logging.DEBUG)

# 设置日志输出格式
format= logging.Formatter('%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s')

# 创建一个Handler用于将日志写入文件
logFile = './log.txt'
fh = logging.FileHandler(logFile, mode='a', encoding='utf-8')
fh.setLevel(logging.INFO)
fh.setFormatter(format)
logger.addHandler(fh)

# 同样的,创建一个Handler用于控制台输出日志
ch = logging.StreamHandler()
ch.setLevel(logging.INFO)
ch.setFormatter(format)
logger.addHandler(ch)

test.py

# -*- coding:utf-8 -*-
# @author: 给你一页白纸

from appium import webdriver
from log.logging_test import logger

def android_driver():
    desired_caps = {
        "platformName": "Android",
        "platformVersion": "10",
        "deviceName": "PCT_AL10",
        "appPackage": "com.ss.android.article.news",
        "appActivity": ".activity.MainActivity",
        "unicodeKeyboard": True,
        "resetKeyboard": True,
        "noReset": True,
    }
    logger.info("启动今日头条APP...")
    driver = webdriver.Remote('http://127.0.0.1:4723/wd/hub', desired_caps)
    return driver

def login_opera(driver):
    '''登录今日头条操作'''
    logger.info("开始登陆今日头条APP...")
    try:
        driver.find_element_by_id("com.ss.android.article.news:id/cji").click() # 点击【我知道了】
        driver.find_element_by_id("android:id/button1").click() # 点击权限管理-确定按钮
        driver.find_element_by_xpath("//android.widget.TabWidget/android.widget.RelativeLayout[@index=3]").click() # 点击未登录
        driver.find_element_by_id("com.ss.android.article.news:id/a10").click() # 未登录页点击登录按钮
        driver.find_element_by_id("com.ss.android.article.news:id/bgh").click() # 登录页点击“。。。”
        driver.find_element_by_xpath("//android.widget.LinearLayout[@index=4]").click() # 选择密码登录
        driver.find_element_by_id("com.ss.android.article.news:id/bu").send_keys("18768124236")   # 输入账号
        driver.find_element_by_id("com.ss.android.article.news:id/c5").send_keys("xiaoqq3915172")   # 输入密码
        driver.find_element_by_id("com.ss.android.article.news:id/a2o").click() # 点击登录
    except Exception as e:
        logger.error("登录错误,原因为:{}".format(e))
    else:
        logger.info("登陆成功...")

driver = android_driver()
login_opera(driver)

运行test.py,结果如下:

2020-10-07 18:45:05,119 logging_test.py[line:21] INFO 启动今日头条APP...
2020-10-07 18:45:11,119 logging_test.py[line:27] INFO 开始登陆今日头条APP...
2020-10-07 18:45:20,120 logging_test.py[line:41] INFO 登陆成功...

6,思路2:日志格式配置示例

6.1,logger.conf文件

[loggers]   # loggers日志器对象列表,必须包含
keys=root, exampleLogger    # 一定要包含root这个值,当使用无参函数logging.getLogger()时,默认返回root这个logger,其他自定义logger可以通过logging.getLogger("exampleLogger")方式进行调用

[handlers] # handlers处理器对象列表,必须包含
keys=consoleHandler, fileHandler    # 定义声明handlers信息

[formatters] # formatters格式对象列表,必须包含
keys=form01,form02

[logger_root] # 对loggers中声明的logger进行逐个配置,且要一一对应,在所有的logger中,必须制定lebel和handlers这两个选项。对于非roothandler,还需要添加一些额外的option,如qualname、propagate等。handlers可以指定多个,中间用逗号隔开,比如handlers=fileHandler,consoleHandler,同时制定使用控制台和文件输出日志
level=DEBUG
handlers=consoleHandler, fileHandler

[logger_exampleLogger]  # 配置日志处理器exampleLogger:设置日志级别、日志输出指定的处理器配置文件,如consoleHandler,fileHandler
level=DEBUG
handlers=consoleHandler, fileHandler
qualname=exampleLogger  # qualname 表示它在logger层级中的名字,在应用代码中通过这个名字制定所使用的handler
propagate=0 # 可选项,其默认是为1,表示消息将会传递给高层次logger的handler

[handler_consoleHandler]    # 日志处理器consoleHandler的配置文件
class=StreamHandler   # 定控制台输出。将日志消息发送到输出到Stream,如std.out, std.err或任何file-like对象
level=DEBUG   # 日志级别
formatter=form01    # 输出格式
args=(sys.stdout,)

[handler_fileHandler]   # 日志处理器fileHandler的配置文件
class=FileHandler    # 将日志输出至磁盘文件
level=DEBUG # 日志级别
formatter=form02    # 输出格式
args=('./log.txt', 'a', 'UTF-8') # 参数如未设置绝对路径,则默认生成在执行文件log.py的工作目录。指定日志文件的打开模式,默认为’a’

[formatter_form01]  # 格式配置1
format=%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s

[formatter_form02]  # 格式配置2
format=%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s

注意:

  • 为了说明配置结构,这里的配置文件 logger.conf 里加了中文注释,实际使用时需要将注释去掉或改写成英文注释,否则会报编码错误。

  • 配置文件中包含三大主要模块:loggers,handlers,formatters。这三个主要模块包含的内容都是通过keys进行指定,然后通过logger_key、handler_key、formatter_key对里面的key进行具体的设置。

  • 配置handlers中的handler_consoleHandler的参数:指定日志输出到控制台、级别、输出格式、参数。

  • 配置handlers中的handler_fileHandlers的参数:指定将日志输出至磁盘文件、设置日志级别、输出格式、参数等。

  • 配置日志输出格式formatter_xxx,可配置多个,如:form01,form02。

6.2,读取配置文件,创建日志记录器logger

baseLog.py

# -*- coding:utf-8 -*-
# @author: 给你一页白纸

import logging.config

CON_LOG='./logger.conf' # 配置文件路径
logging.config.fileConfig(CON_LOG)  # '读取日志配置文件'
logger = logging.getLogger('exampleLogger') # 创建一个日志器logger

6.3,调用示例

目录结构如下

test.py

# -*- coding:utf-8 -*-
# @author: 给你一页白纸

from appium import webdriver
from log.baseLog import logger

def android_driver():
    desired_caps = {
        "platformName": "Android",
        "platformVersion": "10",
        "deviceName": "PCT_AL10",
        "appPackage": "com.ss.android.article.news",
        "appActivity": ".activity.MainActivity",
        "unicodeKeyboard": True,
        "resetKeyboard": True,
        "noReset": True,
    }
    logger.info("启动今日头条APP...")
    driver = webdriver.Remote('http://127.0.0.1:4723/wd/hub', desired_caps)
    return driver

def login_opera(driver):
    '''登录今日头条操作'''
    logger.info("开始登陆今日头条APP...")
    try:
        driver.find_element_by_id("com.ss.android.article.news:id/cji").click() # 点击【我知道了】
        driver.find_element_by_id("android:id/button1").click() # 点击权限管理-确定按钮
        driver.find_element_by_xpath("//android.widget.TabWidget/android.widget.RelativeLayout[@index=3]").click() # 点击未登录
        driver.find_element_by_id("com.ss.android.article.news:id/a10").click() # 未登录页点击登录按钮
        driver.find_element_by_id("com.ss.android.article.news:id/bgh").click() # 登录页点击“。。。”
        driver.find_element_by_xpath("//android.widget.LinearLayout[@index=4]").click() # 选择密码登录
        driver.find_element_by_id("com.ss.android.article.news:id/bu").send_keys("18768124236")   # 输入账号
        driver.find_element_by_id("com.ss.android.article.news:id/c5").send_keys("xiaoqq3915172")   # 输入密码
        driver.find_element_by_id("com.ss.android.article.news:id/a2o").click() # 点击登录
    except Exception as e:
        logger.error("登录错误,原因为:{}".format(e))
    else:
        logger.info("登陆成功...")

driver = android_driver()
login_opera(driver)

控制台、log.txt输出结果如下:

2020-10-07 19:30:35,119 logging_test.py[line:21] INFO 启动今日头条APP...
2020-10-07 19:30:40,119 logging_test.py[line:27] INFO 开始登陆今日头条APP...
2020-10-07 19:31:12,120 logging_test.py[line:41] INFO 登陆成功...

7,总结

在实际使用python做自动化测试过程中两种解决思路都可以使用,且都挺方便。其中对于思路1,还可以将代码进行更进一步的封装。

六、项目实战(多线程)

1、日志类

#-*-coding:utf-8-*-
"""
This is to get loggrr
"""
import os
import logging
import time

class Logger(object):
    """
    This is get log class
    """
    def __init__(self, path, name, Flevel=logging.DEBUG):
        self.time = time.strftime("%Y-%m-%d")
        self.fileName = path + name + "-" + self.time + ".log"
        self.logger = logging.getLogger(self.fileName)
        self.logger.setLevel(Flevel) 
        fmt = logging.Formatter('[%(asctime)s %(threadName)s]
                [%(levelname)s] %(message)s', '%Y-%m-%d %H:%M:%S')
        fh = logging.FileHandler(self.fileName)
        fh.setFormatter(fmt)
        fh.setLevel(Flevel)
        self.logger.addHandler(fh)
    
    def debug(self, message):
        """
        This is debug
        """
        self.logger.debug(message)

    def info(self, message):
        """
        This is info
        """
        self.logger.info(message)
    
    def warn(self, message):
        """
        This is warn
        """
        self.logger.warn(message)

    def error(self, message):
        """
        This is error
        """
        self.logger.error(message)

    def critical(self, message):
        """
        This is critical
        """
        self.logger.critical(message)

    
if __name__ == '__main__':
    logyyx = Logger("/home/map/workspace/
            zhangxianrong/crawl-brand/lib/", "meizu")
    logyyx.debug('一个debug信息')
    logyyx.info('一个info信息')
    logyyx.warn('一个warning信息')
    logyyx.error('一个error信息')
    logyyx.critical('一个致命critical信息')

2、使用

#-*-coding:utf-8-*-
import urllib2
import json
import sys
from thePath import rootPath
sys.path.append(rootPath + "lib")
from superCrawl import SUPERCRAWL
import re
from StarBuck_conf import poi
from superLogger import Logger

class StarBucks(SUPERCRAWL):
    """
    This is StarBucks
    """
    def __init__(self):
        super(StarBucks, self).__init__()
        self.tokenurl = "https://www.starbucks.com.cn/TRIGGER/"
                          "starbucks/getStoreLocator"
        dir = rootPath + "data/PrimaryData/HeadBrand/"
        name = "StarBucks.json"
        self.directory = self.getDirectory(dir)
        self.outName = self.getPath(self.directory, name)
        self.token = ""
        self.logyyx = Logger(rootPath, "starBucks")

    def getUrlDetail(self, point_x, point_y, token):
        """
        Get Url Detail
        """
        url = "https://openapi.starbucks.com/v1/"
              "stores/nearby?limit=10&radius=10&latlng="
              + str(point_y) + "," +str(point_x) + 
              "&access_token=" + token + 
              "&locale=zh&callback=jQuery19109599463"
              "73590788_1512705345611&_=1512705345613"
        return url

    def washData(self, html):
        """
        Wash data from page
        """
        result = re.findall("(([dD]*))", html)
        try:
            data = result[0]
            data_json = json.loads(data)
            items = []
            for dataItem in data_json["stores"]:
                dataItem = dataItem["store"]
                item = {}
                item["name"] = dataItem["name"]
                address = dataItem["address"]
                item["address"] = ""
                if address["streetAddressLine1"]:
                    item["address"] = item["address"] + address["streetAddressLine1"]
                if address["streetAddressLine3"]:
                    item["address"] = item["address"] + address["streetAddressLine3"]
                if address["streetAddressLine2"]:
                    item["address"] = item["address"] + address["streetAddressLine2"]
                item["address1"] = address["streetAddressLine1"]
                item["address3"] = address["streetAddressLine3"]
                item["address2"] = address["streetAddressLine2"]
                item["lat"] = dataItem["coordinates"]["latitude"]
                item["lng"] = dataItem["coordinates"]["longitude"]
                item["city"] = dataItem["address"]["city"]
                item["county"] = dataItem["address"]["streetAddressLine1"]
                time = dataItem["regularHours"]["monday"]
                item["oprntime"] = time["openTime"]
                item["closetime"] = time["closeTime"]
                items.append(item)
            return items
        except Exception as e:
            print e
            self.logyyx.warn(e)
            return None
            
    def getData(self, wFileName):
        """
        This is to get data
        """
        fp = open(wFileName, "w")
        self.token = self.getHtml(self.tokenurl)
        for pro, pointList in poi.items():       
            print pro
            for point in pointList:
                try:
                    xys = point.split(",")
                    point_x = xys[0]
                    point_y = xys[1]
                    try:
                        dataList = self.getDataList(point_x, point_y, self.token)
                    except Exception as e:
                        dataList = self.getDataList(point_x, point_y)
                    for data in dataList:
                        li = json.dumps(data, ensure_ascii = False) + "
"
                        fp.write(li.encode("utf8").replace("\t", "").
                                replace("\n", "").replace("\r", ""))
                except Exception as e:
                    print e
                    continue    
        fp.close()

    def getDetailData(self, rFileName, wFileName):
        """
        This is get detail data
        """
        fp = open(rFileName, "r")
        fpNew = open(wFileName, "w")
        self.token = self.getHtml(self.tokenurl)
        for fpLine in fp:
            try:
                jsonData = json.loads(fpLine)
                point_x = jsonData["lng"]
                point_y = jsonData["lat"]
                try:
                    dataList = self.getDataList(point_x, point_y, self.token)
                except Exception as e:
                    dataList = self.getDataList(point_x, point_y)
                for data in dataList:
                    li = json.dumps(data, ensure_ascii = False) + "
"
                    fpNew.write(li.encode("utf8").replace("\t", "").
                       replace("\n", "").replace("\r", ""))
            except Exception as e:
                print e
                continue
        fpNew.close()
        fp.close()
            
    def getDataList(self, point_x, point_y, token = "0"):
        """
        update token to get data list
        if token == "0", this is want to update
        else: token don,t to update
        """
        if token == "0":
            self.token = self.getHtml(self.tokenurl)
        url = self.getUrlDetail(point_x, point_y, self.token)
        page = self.getHtml(url)
        dataList = self.washData(page)
        return dataList

    def divSameData(self, rfile, wfile):
        fp = open(rfile, "r")
        fp1 = open(wfile, "w")
        items = []
        for fpLine in fp:
            try:
                data = json.loads(fpLine)
                name = data["name"]
                address = data["address"]
                item = name + address
                if item in items:
                    continue
                else:
                    items.append(item)
                    fp1.write(fpLine)
            except Exception as e:
                print e
                continue

   
    def mainSpider(self):
        """
        This is main spider
        """
        name1 =  self.getPath(self.directory, "1.json")
        name2 = self.getPath(self.directory, "2.json")
        name2new = self.getPath(self.directory, "2new.json")
        name3 = self.getPath(self.directory, "3.json")
        name3new = self.getPath(self.directory, "3new.json")
        name4 = self.getPath(self.directory, "4.json")
        name4new = self.getPath(self.directory, "4new.json")
        name5 = self.getPath(self.directory, "5.json")
        name5new = self.getPath(self.directory, "5new.json")
        name6 =  self.getPath(self.directory, "6.json")
        name6new = self.getPath(self.directory, "6new.json")
        name7 = self.getPath(self.directory, "7.json")
        name7new = self.getPath(self.directory, "7new.json")
        name8 = self.getPath(self.directory, "8.json")
        name8new = self.getPath(self.directory, "8new.json")
        name9 = self.getPath(self.directory, "9.json")
        name9new = self.getPath(self.directory, "9new.json")
        name10 = self.getPath(self.directory, "10.json")
        print name1
        print name2 
        print name2new
        print name3
        print name3new
        print name4
        print name4new
        self.getData(name1)
        self.getDetailData(name1, name2)
        self.divSameData(name2, name2new)
        self.getDetailData(name2new, name3)
        self.getDetailData(name3, name3new)
        self.getDetailData(name3new, name4)
        self.divSameData(name4, name4new)
        self.getDetailData(name4new, name5)
        self.divSameData(name5, name5new) 
        self.getDetailData(name5new, name6)
        self.divSameData(name6, name6new)
        self.getDetailData(name6new, name7)
        self.divSameData(name7, name7new)
        self.getDetailData(name7new, name8)
        self.divSameData(name8, name8new)
        self.getDetailData(name8new, name9)
        self.divSameData(name9, name9new)
        self.getDetailData(name9new, name10)
        self.divSameData(name10, self.outName)
        print self.outName
        
if __name__ == '__main__':
    StarBucks().mainSpider()

参考:

https://www.cnblogs.com/lfr0123/p/13781152.html

原文地址:https://www.cnblogs.com/zhangxianrong/p/14818415.html