二模块 logging json pickle re

1 logging 日志模块

1.1 函数式简单配置

import logging  
logging.debug('debug message')  
logging.info('info message')  
logging.warning('warning message')  
logging.error('error message')  
logging.critical('critical message')

默认情况下Python的logging模块将日志打印到了标准输出中，且只显示了大于等于WARNING级别的日志，这说明默认的日志级别设置为WARNING（日志级别等级CRITICAL > ERROR > WARNING > INFO > DEBUG），默认的日志格式为日志级别：Logger名称：用户输出消息。

灵活配置日志级别，日志格式，输出位置:

import logging  
logging.basicConfig(level=logging.DEBUG,  
                    format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',  
                    datefmt='%a, %d %b %Y %H:%M:%S',  
                    filename='/tmp/test.log',  
                    filemode='w')  
  
logging.debug('debug message')  
logging.info('info message')  
logging.warning('warning message')  
logging.error('error message')  
logging.critical('critical message')

配置参数：

logging.basicConfig()函数中可通过具体参数来更改logging模块默认行为，可用参数有：

filename：用指定的文件名创建FiledHandler，这样日志会被存储在指定的文件中。
filemode：文件打开方式，在指定了filename时使用这个参数，默认值为“a”还可指定为“w”。
format：指定handler使用的日志显示格式。
datefmt：指定日期时间格式。
level：设置rootlogger（后边会讲解具体概念）的日志级别
stream：用指定的stream创建StreamHandler。可以指定输出到sys.stderr,sys.stdout或者文件(f=open(‘test.log’,’w’))，默认为sys.stderr。若同时列出了filename和stream两个参数，则stream参数会被忽略。

format参数中可能用到的格式化串：
%(name)s Logger的名字
%(levelno)s 数字形式的日志级别
%(levelname)s 文本形式的日志级别
%(pathname)s 调用日志输出函数的模块的完整路径名，可能没有
%(filename)s 调用日志输出函数的模块的文件名
%(module)s 调用日志输出函数的模块名
%(funcName)s 调用日志输出函数的函数名
%(lineno)d 调用日志输出函数的语句所在的代码行
%(created)f 当前时间，用UNIX标准的表示时间的浮 点数表示
%(relativeCreated)d 输出日志信息时的，自Logger创建以 来的毫秒数
%(asctime)s 字符串形式的当前时间。默认格式是 “2003-07-08 16:49:45,896”。逗号后面的是毫秒
%(thread)d 线程ID。可能没有
%(threadName)s 线程名。可能没有
%(process)d 进程ID。可能没有
%(message)s用户输出的消息

2.2 logger对象配置

import logging

logger = logging.getLogger()
# 创建一个handler，用于写入日志文件
fh = logging.FileHandler('test.log')

# 再创建一个handler，用于输出到控制台
ch = logging.StreamHandler()

formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

fh.setFormatter(formatter)
ch.setFormatter(formatter)

logger.addHandler(fh) #logger对象可以添加多个fh和ch对象
logger.addHandler(ch)

logger.debug('logger debug message')
logger.info('logger info message')
logger.warning('logger warning message')
logger.error('logger error message')
logger.critical('logger critical message')

logging库提供了多个组件：Logger、Handler、Filter、Formatter。Logger对象提供应用程序可直接使用的接口，Handler发送日志到适当的目的地，Filter提供了过滤日志信息的方法，Formatter指定日志显示格式。另外，可以通过：logger.setLevel(logging.Debug)设置级别。

#日志模块
#配置方式   1.config   2.logger
#config
import logging
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s [%(lineno)s] %(message)s %(module)s",
    datefmt="%Y-%m-%d %X",
    filename="logger.log",
    filemode="w",
)
logging.debug("debug message")
logging.info("info message")
logging.warning("warning message")
logging.error("error message")
logging.critical("critical message")

#logger
# def logger():
#     logger=logging.getLogger()
#
#     fh=logging.FileHandler("logger2.log")
#     sh=logging.StreamHandler()
#
#     Fm=logging.Formatter("%(asctime)s")
#     logger.setLevel(logging.DEBUG)
#
#     logger.addHandler(fh)
#     logger.addHandler(sh)
#
#     return logger
#
# logger=logger()
#
# logger.debug("debug message")
# logger.info("info message")
# logger.warning("warning message")
# logger.error("error message")
# logger.critical("critical message")

2 json /pickle序列化

#序列化：把一个数据类型的数据转化成一个json字符串类型的数据    dumps
#反序列化：把一个josn字符串类型的数据转化成数据类型           loads
import json

d={"name":"egon","age":16}

# #dumps方式
# s=json.dumps(d)
# with open("new","w") as f:
#     f.write(s)
# with open("new",) as f:
#     date=f.read()
# s1=json.loads(date)      #date是读取文件的内容


#dump 方式
# with open("new","w") as f:
#     json.dump(d,f)     #多了一个文件句柄的参数，不需要在做写的操作
with open("new","r") as f:
    date=json.load(f)  #不需要在做读的操作
print(date)

之前我们学习过用eval内置方法可以将一个字符串转成python对象，不过，eval方法是有局限性的，对于普通的数据类型，json.loads和eval都能用，但遇到特殊类型的时候，eval就不管用了,所以eval的重点还是通常用来执行一个字符串表达式，并返回表达式的值。

import json
x="[null,true,false,1]"
print(eval(x))
print(json.loads(x))

什么是序列化？

我们把对象(变量)从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling，在其他语言中也被称之为serialization，marshalling，flattening等等，都是一个意思。

序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。

反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。

json

如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。

JSON表示的对象就是标准的JavaScript语言的对象，JSON和Python内置的数据类型对应如下：

#----------------------------序列化
import json
 
dic={'name':'alvin','age':23,'sex':'male'}
print(type(dic))#<class 'dict'>
 
j=json.dumps(dic)
print(type(j))#<class 'str'>
 
 
f=open('序列化对象','w')
f.write(j)  #-------------------等价于json.dump(dic,f)
f.close()
#-----------------------------反序列化<br>
import json
f=open('序列化对象')
data=json.loads(f.read())#  等价于data=json.load(f)

注意点

pickle　

##----------------------------序列化
import pickle
 
dic={'name':'alvin','age':23,'sex':'male'}
 
print(type(dic))#<class 'dict'>
 
j=pickle.dumps(dic)
print(type(j))#<class 'bytes'>
 
 
f=open('序列化对象_pickle','wb')#注意是w是写入str,wb是写入bytes,j是'bytes'
f.write(j)  #-------------------等价于pickle.dump(dic,f)
 
f.close()
#-------------------------反序列化
import pickle
f=open('序列化对象_pickle','rb')
 
data=pickle.loads(f.read())#  等价于data=pickle.load(f)
 
 
print(data['age'])    

Pickle的问题和所有其他编程语言特有的序列化问题一样，就是它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用Pickle保存那些不重要的数据，不能成功地反序列化也没关系。

3 re 正则模块

import  re
"""
对字符串的迷糊匹配
"""
#元字符
# .通配符,代表一个字符（不能代表一个转行）
# ^以什么开头的，来定字符串以什么开头的
# $以什么结尾的，在$d的前面添加字符，用来匹配是以什么结尾的
# *配零到无穷次（前面的字符可以没有）     贪婪匹配
# +匹配的是1到无穷次（前面的字符必须有一个或多个）   贪婪匹配
# ？匹配零到1 （前面的字符只能有零个或一个）     贪婪匹配
# {}匹配里面自定义，{0，}==*  {1，}==+  {0,1}==？ {x}一个值得时候表示必须重复x次
# 在规则的后面加一个？号   变成惰性匹配
# []字符集 里面起一个或的作用，里面特殊符号没有意义，除了 - ^
    # - 包含了一个范围
    # ^ 放中括号里的时候表示非
    #  d还是d
# |分为左边和右边，也是或的意思，一般跟（）组合使用
#（）分组把括号里面的组成一个来查询
    #命名分组  （？P<name>规则）
# 有意义的变的无意义，无意义的变的有意义
    #1 后面加一个元字符使其变成一个普通符号.

# d   [0-9]
# D   [^0-9]
# s   [ 	

fv]。
# S   [^ 	

fv]
# w   [0-9a-zA-Z]
# W   [^0-9a-zA-Z]
#   匹配一个特殊字符边界，比如空格 ，&，＃等

#findall  (规则，字符串)把匹配到的结果放到一个列表中(规则，字符串)
#search   (规则，字符串)匹配到一个结果后就不会再匹配下去了，返回的结果是一个对象
#match    (规则，字符串)只在字符串开始的时候匹配，返回的也是一个对象
#split    （规则，字符串，分隔次数）按规则分隔字符串，返回一个列表
#finditer (规则，字符串)把匹配出来的作为一个迭代器，使用next（）.group（）取值
re.finditer("d+","asd7654das87")
s=re.finditer("d+","asd7654das87")
print(s)
#compile  (规则)编译一个规则对象，返回一个列表
#sub      (规则，新的替换对象，字符串)把匹配出来的替换成新的字符串，最后打印字符串


#print(re.findall("a...x","asdfhjhasdfjgjalrexkjsdf"))  #把匹配到的结果放到一个列表中
# print(re.findall("alex*","sdfsdfalexxxxxjhgkasj"))
# print(re.findall("alex+","sdfsdfalexxxxxjhgkasj"))
# print(re.findall("fq[a-z]*","sadfqsssssssadfqdsdf"))
# print(re.findall("fq[0-9]*","sadfq113sssssssadfqdsdf"))
# print(re.findall("q*","sadfqsadfqdsdf"))
# print(re.findall("www.(?:baidu|sougou).com","www.baidu.com"))
# print(re.findall("\d+","asdf65sf785"))



# s="hello python hava php c go"
# # print(re.sub("p","word",s))
# print(re.sub("\bp","word",s))

# print(re.findall("d+*d+","2*6+7*45+1.4*3-8/4"))
# print(re.findall("d+.?d**d+.?d*","2*6+7*45+1.4*3-8/4"))

就其本质而言，正则表达式（或 RE）是一种小型的、高度专业化的编程语言，（在Python中）它内嵌在Python中，并通过 re 模块实现。正则表达式模式被编译成一系列的字节码，然后由用 C 编写的匹配引擎执行。

字符匹配（普通字符，元字符）：

1 普通字符：大多数字符和字母都会和自身匹配
>>> re.findall('alvin','yuanaleSxalexwupeiqi')
['alvin']

2 元字符：. ^ $ * + ? { } [ ] | ( )

元字符之. ^ $ * + ? { }

import re
 
ret=re.findall('a..in','helloalvin')
print(ret)#['alvin']
 
ret=re.findall('^a...n','alvinhelloawwwn')
print(ret)#['alvin']
 
ret=re.findall('a...n$','alvinhelloawwwn')
print(ret)#['awwwn']
 
ret=re.findall('a...n$','alvinhelloawwwn')
print(ret)#['awwwn']
 
ret=re.findall('abc*','abcccc')#贪婪匹配[0,+oo]  
print(ret)#['abcccc']
 
ret=re.findall('abc+','abccc')#[1,+oo]
print(ret)#['abccc']
 
ret=re.findall('abc?','abccc')#[0,1]
print(ret)#['abc']
 
ret=re.findall('abc{1,4}','abccc')
print(ret)#['abccc'] 贪婪匹配

注意：前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

ret=re.findall('abc*?','abcccccc')
print(ret)#['ab']

元字符之字符集［］：

#--------------------------------------------字符集[]
ret=re.findall('a[bc]d','acd')
print(ret)#['acd']
 
ret=re.findall('[a-z]','acd')
print(ret)#['a', 'c', 'd']
 
ret=re.findall('[.*+]','a.cd+')
print(ret)#['.', '+']
 
#在字符集里有功能的符号: - ^ 
 
ret=re.findall('[1-9]','45dha3')
print(ret)#['4', '5', '3']
 
ret=re.findall('[^ab]','45bdha3')
print(ret)#['4', '5', 'd', 'h', '3']
 
ret=re.findall('[d]','45bdha3')
print(ret)#['4', '5', '3']

元字符之转义符

反斜杠后边跟元字符去除特殊功能,比如.
反斜杠后边跟普通字符实现特殊功能,比如d

d 匹配任何十进制数；它相当于类 [0-9]。
D 匹配任何非数字字符；它相当于类 [^0-9]。
s 匹配任何空白字符；它相当于类 [ fv]。
S 匹配任何非空白字符；它相当于类 [^ fv]。
w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。
W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]
匹配一个特殊字符边界，比如空格，&，＃等

ret=re.findall('I','I am LIST')
print(ret)#[]
ret=re.findall(r'I','I am LIST')
print(ret)#['I']

现在我们聊一聊\,先看下面两个匹配：

#-----------------------------eg1:
import re
ret=re.findall('cl','abcle')
print(ret)#[]
ret=re.findall('c\l','abcle')
print(ret)#[]
ret=re.findall('c\\l','abcle')
print(ret)#['c\l']
ret=re.findall(r'c\l','abcle')
print(ret)#['c\l']
 
#-----------------------------eg2:
#之所以选择是因为在ASCII表中是有意义的
m = re.findall('blow', 'blow')
print(m)
m = re.findall(r'blow', 'blow')
print(m)

元字符之分组()

m = re.findall(r'(ad)+', 'add')
print(m)
 
ret=re.search('(?P<id>d{2})/(?P<name>w{3})','23/com')
print(ret.group())#23/com
print(ret.group('id'))#23

元字符之｜

ret=re.search('(ab)|d','rabhdg8sd')
print(ret.group())#ab

re模块下的常用方法

import re
#1
re.findall('a','alvin yuan')    #返回所有满足匹配条件的结果,放在列表里
#2
re.search('a','alvin yuan').group()  #函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
                                     # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。
 
#3
re.match('a','abc').group()     #同search,不过尽在字符串开始处进行匹配
 
#4
ret=re.split('[ab]','abcd')     #先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret)#['', '', 'cd']
 
#5
ret=re.sub('d','abc','alvin5yuan6',1)
print(ret)#alvinabcyuan6
ret=re.subn('d','abc','alvin5yuan6')
print(ret)#('alvinabcyuanabc', 2)
 
#6
obj=re.compile('d{3}')
ret=obj.search('abc123eeee')
print(ret.group())#123

import re
ret=re.finditer('d','ds3sy4784a')
print(ret)        #<callable_iterator object at 0x10195f940>
 
print(next(ret).group())
print(next(ret).group())

注意：

import re
 
ret=re.findall('www.(baidu|oldboy).com','www.oldboy.com')
print(ret)#['oldboy']     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可
 
ret=re.findall('www.(?:baidu|oldboy).com','www.oldboy.com')
print(ret)#['www.oldboy.com']

算法