python_91_正则表达式

常用的正则表达式：

'.'     默认匹配除
之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行
'^'     匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","
abc
eee",flags=re.MULTILINE)
'$'     匹配字符结尾，或e.search("foo$","bfoo
sdfsf",flags=re.MULTILINE).group()也可以
'*'     匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac") 匹配a，ab，abb 结果为['abb', 'ab', 'a']
'+'     匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
'?'     匹配前一个字符1次或0次
'{m}'   匹配前一个字符m次
'{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
'|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
 
 
'A'    只从字符开头匹配，re.search("Aabc","alexabc") 是匹配不到的
''    匹配字符结尾，同$
'd'    匹配数字0-9
'D'    匹配非数字
'w'    匹配[A-Za-z0-9]
'W'    匹配非[A-Za-z0-9]
's'     匹配空白字符、	、
、
 , re.search("s+","ab	c1
3").group() 结果 '	'
 
'(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict() 结果{'province': '3714', 'city': '81', 'birthday': '1993'}

最常用的匹配语法

re.match 从头开始匹配
re.search 匹配包含
re.findall 把所有匹配到的字符放到以列表中的元素返回
re.splitall 以匹配到的字符当做列表分隔符
re.sub      匹配字符并替换

反斜杠的困扰
与大多数编程语言相同，正则表达式里使用""作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符""，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\"表示。同样，匹配一个数字的"\d"可以写成r"d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

import re

print(re.match('^Chen',"ChenRonghau123"))#只要有结果，就代表匹配的到,^代表匹配字符开头
print(re.match('Chen',"ChenRonghau123"))#re.match代表从开头开始匹配，不需要用^，所以不能支持只匹配中间的，比如只匹配Rong
print(re.match('Rong',"ChenRonghau123"))
print(re.match('qi',"ChenRonghau123"))#没有匹配到
res=re.match('^Chen',"ChenRonghau123")
print(res.group())#查看匹配结果
res=re.match('^Chend',"Chen456Ronghau123")#  代表后边是正则语法，d代表的是一个数字
print(res.group())#查看匹配结果
res=re.match('^Chend+',"Chen456Ronghau123")#  +号代表一个或多个,'d'匹配数字0-9
print(res.group())#查看匹配结果
print(re.match('.',"ChenRonghau123"))#默认匹配除
之外的任意一个字符
print(re.match('.+','ChenRonghau123'))

print(re.search('R.+','ChenRonghau123'))#re.serach是从整个文本里搜索
print(re.search('R.+u','ChenRonghau123'))#匹配R到u
print(re.search('b$','ChenRonghau123b'))# 匹配字符结尾
print(re.search('R[a-z]','ChenRonghau123b'))#[a-z]只匹配一个字符
print(re.search('R[a-z]+u','ChenRonghau123b'))#匹配的是Ronghau
print(re.search('R[a-z]+u','ChenRonghauRonghau123b'))#多个Ronghau，只匹配第一个
print(re.search('R[a-z]+u','ChenRonGhauRonghau123b'))#匹配的是后边那个，前边那个大写了，不是正确的
print(re.search('R[a-zA-Z]+u','ChenRonGhauRonghau123b'))#匹配的是RonGhauRonghau
print(re.search('g.+l','112g#efgs345lwe%')) # '+'匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
print(re.search('aal?','aalexaaa'))#'?'     匹配前一个字符1次或0次
print(re.search('aal?','aaexaaa'))
print(re.search('[0-9]{3}','aalx2a2345aa'))#'{m}'   匹配前一个字符m次
print(re.search('[0-9]{1,3}','aalx2a234aa'))#'{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']

#re.findall 把所有匹配到的字符放到以列表中的元素返回
print(re.findall('[0-9]{1,3}','aalx2a234a98a'))#匹配到所有数字

print(re.search('abc|ABC','ABCabcSD').group())
print(re.findall('abc|ABC','ABCabcSD'))#findall没有.group()方法

print(re.search('abc{2}','alexabccc'))#'|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
print(re.search('(abc){2}','alexabcabc'))#'(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
print(re.search('(abc){2}|','alexabcabc|'))#匹配两次abc和一次管道符
print(re.search('(abc){2}(||=){2}','alexabcabc||=||='))

print(re.search('A[0-9]+[a-z]','123a'))
# 'A'  只从字符开头匹配，re.search("Aabc","alexabc") 是匹配不到的
# ''  匹配字符结尾，同$
print(re.search('D+','123%
 $a'))#'D'    匹配非数字
print(re.search('w+','aAz123%
 $a'))#匹配[A-Za-z0-9]
print(re.search('W+','aAz123%
 $a'))# 'W'    匹配非[A-Za-z0-9]
print(re.search('s+','aAz123%
 
 	$a'))#'s'   匹配空白字符、	、
、
 , re.search("s+","ab	c1
3").group() 结果 '	'

# '(?P<name>...)' 分组匹配
print(re.search('(?P<id>[0-9]+)','abcd1234daf23'))
print(re.search('(?P<id>[0-9]+)','abcd1234daf23').group())
print(re.search('(?P<id>[0-9]+)','abcd1234daf23').groupdict())
a=re.search('(?P<id>[0-9]+)(?P<name>[a-zA-Z])','abcd1234daf23').groupdict()
print(a)
print(a['id'])
print(re.search('(?P<id>[0-9]+)(?P<name>[a-zA-Z])','abcd1234daf23').group('name'))
print(re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict())# 结果{'province': '3714', 'city': '81', 'birthday': '1993'}

# re.splitall 以匹配到的字符当做列表分隔符
print(re.split('[0-9]','abc12de3f356gh'))
print(re.split('[0-9]+','abc12de3f356gh'))

# re.sub      匹配字符并替换
print(re.sub('[0-9]','*','abc12de3f356gh'))#结果：abc**de*f***gh
print(re.sub('[0-9]','*','abc12de3f356gh',count=2))#结果：abc**de3f356gh

'''仅需轻轻知道的几个匹配模式:
re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）
M(MULTILINE): 多行模式，改变'^'和'$'的行为(有点搞不懂)
S(DOTALL): 点任意匹配模式，改变'.'的行为
'''
print(re.search('[a-z]+','abcxdSA'))#结果：abcxd
print(re.search('[a-z]+','abcxdSA',flags=re.I))#结果：abcxdSA

print(re.search('.+','
abc
ee'))#结果：abc
print(re.search('.+','
abc
ee',flags=re.S))#结果：
abc
ee

'''
反斜杠的困扰
与大多数编程语言相同，正则表达式里使用""作为转义字符，这就可能造成反斜杠困扰。
假如你需要匹配文本中的字符""，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\"：
前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。
Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\"表示。
同样，匹配一个数字的"\d"可以写成r"d"。
有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。
'''
print(re.search(r'\','abd\fd\rfa'))


print(re.search('[a-z]+h$','abc
def
gh'))