Python 正则表达式 python re模块

一正则表达式和re模块

1.什么是正则和re模块：

1）正则表达式是一门独立的技术，任何语言均可使用。用一些具有特殊含义的符号组合到一起（称为正则表达式）来描述字符或者字符串的方法。

2）python中通过re模块来使用正则。

官方定义：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

二正则表达式应用场景

1.爬虫

2.数据分析

3.推荐书籍：《正则指引》

三常用匹配模式

https://www.cnblogs.com/linhaifeng/articles/6384466.html#_label13

注意：|:或 ab|abc优先匹配前面的正则表达式ab，匹配上就不再用后面的abc，可以通过调换顺序修改优先级（abc|ab 一定要将长的放在前面）

https://www.cnblogs.com/Dominic-Ji/articles/11109067.html#_label10

注意 :1.字符组[...]：一个字符串里面的表达式都是或的关系;

2.^与$符连用会精准限制匹配的内容，两者中间写什么匹配的字符串就必须是什么，多一个也不想少一个也不行

注意: 1.量词需要写在匹配符号的后面，并且只约束紧挨着它的那个正则表达式。

2.正则在匹配的时候默认都是贪婪匹配(尽量匹配多的)，你可以通过在量词后面加上一个?就可以将贪婪匹配变成非贪婪匹配(惰性匹配，尽可能少的匹配)

事例：

分组:当多个正则符号需要重复多次的时候或者当做一个整体进行其他操作,那么可以分组的形式， 分组在正则的语法中就是()

注意：在python中使用re模块时分组有别的意义，下面会介绍

转义符

在正则表达式中，有很多有特殊意义的是元字符，比如和s等，如果要在正则中匹配正常的" "而不是"换行符"就需要对""进行转义，变成''。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中也有特殊的含义，本身还需要转义。

所以如果匹配一次" ",字符串中要写成' '

所以如果匹配一次" ",字符串中要写成'\\n'

简便操作,利用r可以让整个字符串都不再转义(了解:r其实就是real的意思，真实不转义)

四 python中 re模块使用

1.单个字符（findall）

import re
# re.I不区分大小写的匹配
print(re.findall(r'a', 'abc123嘿嘿abcABC', flags=re.I))  # ['a', 'a', 'A']

# a|b a或b单个字符
print(re.findall(r'a|b', 'abc123嘿嘿abcABC', flags=re.I))  # ['a', 'b', 'a', 'b', 'A', 'B']

# [a,b] a或,或b单个字符
print(re.findall(r'[a,b]', 'abc,123嘿嘿abcABC', flags=re.I))  # ['a', 'b', ',', 'a', 'b', 'A', 'B']

# [^ab]非a及非b的所有单个字符
print(re.findall(r'[^ab]', 'abc,123嘿嘿abcABC'))  # ['c', ',', '1', '2', '3', '嘿', '嘿', 'c', 'A', 'B', 'C']

# [a-z]所有单个小写字母   [A-Z]所有单个大写字母   [0-9]所有单个数字
print(re.findall(r'[a-z]', 'abc,123嘿嘿abcABC'))  # ['a', 'b', 'c', 'a', 'b', 'c']
print(re.findall(r'[0-9]', 'abc,123嘿嘿abcABC'))  # ['1', '2', '3']

# 所有小写大写数字单个字符
print(re.findall(r'[a-z]|[A-Z]|[0-9]', 'abc,123嘿嘿abcABC'))  # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C']

print(re.findall(r'[A-Za-z0-9]', 'abc,123嘿嘿[abcABC'))  # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C']

# .会匹配除
以为的所有单个字符
print(re.findall(r'.', '*\_+=
 
	'))  # ['*', '\', '_', '+', '=', ' ', '
', '	']

# re.S会让.能匹配所有单个字符
print(re.findall(r'.', '*\_+=
 
	', flags=re.S))  # ['*', '\', '_', '+', '=', '
', ' ', '
', '	']

# d单个数字 == [0-9]
print(re.findall(r'd', 'abc,123嘿嘿[abcABC'))  # ['1', '2', '3']
# w == [A-Za-z0-9_]  将常见的汉字就理解为单个字母

print(re.findall(r'w', 'abc,123嘿[_'))  # ['a', 'b', 'c', '1', '2', '3', '嘿', '_']
# s == [f

	v ] 单个空：空格、制表符、换页符等

print(re.findall(r's', 'f

	v '))  # ['x0c', '
', '
', '	', 'x0b', ' ']

# D就是d的对立面：非数字的所有单个字符  W就是w的对立面  S就是s的对立面
print(re.findall(r'D', 'abc,123嘿[_'))  # ['a', 'b', 'c', ',', '嘿', '[', '_']


# 单个汉字 [u4e00-u9fa5]
print(re.findall(r'[u4e00-u9fa5]', 'abc,123嘿[_'))  # ['嘿']

# 建议使用  [0-9]  [A-Za-z0-9_]  [f

	v ]  [^0-9]  [u4e00-u9fa5]
# 不建议使用 d            w            s             D            w

View Code

2.多个字符（量词 findall）

import re
# 明确个数的重复
# {n}
print(re.findall(r'a', 'aaabbb'))  # ['a', 'a', 'a']
print(re.findall(r'a{2}', 'aaabbb'))  # ['aa']
print(re.findall(r'ab', 'aabbababab'))  # ['ab', 'ab', 'ab', 'ab']
print(re.findall(r'a{2}b{2}', 'aabbababab'))  # ['aabb']
print(re.findall(r'ab{2}', 'aabbababab'))  # ['abb']

# {n,}  匹配n到无数个，题中最少匹配abb, 贪婪匹配 abbb 能被匹配为 abb 和 abbb，优先匹配多的
print(re.findall(r'ab{2,}', 'ababbabbbabbbb'))  # ['abb', 'abbb', 'abbbb']

# {,n} 匹配0到n个，ab{,2} 优先匹配abb，没有ab也行，如果还没有a也将就
print(re.findall(r'ab{,2}', 'aababbabbbabbbb'))  # ['a', 'ab', 'abb', 'abb', 'abb']

# {n,m} 匹配n到m个，ab{1,3} 优先匹配 abbb，再考虑abb, ab
print(re.findall(r'ab{1,3}', 'aababbabbbabbbb'))  # ['ab', 'abb', 'abbb', 'abbb']

# 特殊符号的重复
# *: 匹配0到无数个
print(re.findall(r'ab*', 'aababbabbbabbbb'))  # ['a', 'ab', 'abb', 'abbb', 'abbbb']
# +: 匹配1到无数个
print(re.findall(r'ab+', 'aababbabbbabbbb'))  # ['ab', 'abb', 'abbb', 'abbbb']
# ?: 匹配0到1个
print(re.findall(r'ab?', 'aababbabbbabbbb'))  # ['a', 'ab', 'ab', 'ab', 'ab']


# 需求：匹配所以单词
print(re.findall(r'[a-z]+', 'abc def hello print'))  # ['abc', 'def', 'hello', 'print']
print(re.findall(r'[a-z]+', 'abc def hello print'))  # ['abc', 'def', 'hello', 'print']

# 代表单词边界，用空格(字符串的结尾也包括)作为匹配规则
print(re.findall(r'[a-z]*c', 'abc def hello print acb zc'))  # ['abc', 'ac', 'zc']
print(re.findall(r'[a-z]*c', 'abc def hello print acb zc'))  # ['abc', 'zc']

View Code

3. search 和 match 以及 findall区别

# findall是全文匹配；可以从任意位置开始，匹配多次。

#search全文匹配；只能匹配一次。函数会在字符串内查找模式匹配,直到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None，并且需要注意的是如果对象是None，再调用.group()会直接报错。这一易错点可以通过if判断来进行筛选。

# match非全文匹配；必须从头开始匹配，只能匹配一次。match是从头开始匹配，如果正则规则从头开始可以匹配上，就返回一个对象,需要用group才能显示，如果没匹配上就返回None，调用group()就会报错

import re

# 第一个参数是正则表达式，第二个参数是待匹配的文本内容

ret = re.findall('a', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(ret) # ['a','a']

ret = re.search('a', 'eva egon yuan')  
print(ret.group())  # 结果:'a'
# 函数会在字符串内查找模式匹配,直到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None，并且需要注意的是如果ret是None，再调用.group()会直接报错。这一易错点可以通过if判断来进行筛选
if ret:
      print(ret.group())

ret = re.match('a', 'abc').group()  # 同search,不过仅在字符串开始处进行匹配
print(ret)  # ‘a'
# match是从头开始匹配，如果正则规则从头开始可以匹配上，就返回一个对象,需要用group才能显示，如果没匹配上就返回None，调用group()就会报错

View Code

5.拆分与替换

import re
# 正则拆分
ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret)  # ['', '', 'cd']
s = 'a b,ac@def'
print(re.split(r'[ ,@]', s))  # ['a', 'b', 'ac', 'def']
# 正则替换
ret = re.sub('d', 'H', 'eva3egon4yuan4', 1)  # 将数字替换成'H'，参数1表示只替换1个
print(ret)  # evaHegon4yuan4

ret = re.subn('d', 'H', 'eva3egon4yuan4')  # 将数字替换成'H'，返回元组(替换的结果,替换了多少次)
print(ret) # ('evaHegonHyuanH', 3)

View Code

6.正则匹配步骤(对象）

主要是制定一个匹配规则（对象），面对不同的目标字符串且匹配规则相同时直接调用即可

re_obj = re.compile(r'
')  # 转换成匹配 换行符 的正则对象
res = re_obj.findall('
')
print(res)  # ['
']
obj = re.compile('d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
print(ret.group())  #结果 ： 123

View Code

7.分组（优先机制）

import re
res = re.search('^[1-9]d{14}(d{2}[0-9x])?$',‘110105199812067023’)
print(res.group()) # 110105199812067023
print(res.group(1))  # 023 获取正则表达式括号阔起来分组的内容
                     # search与match均支持获取分组内容的操作  跟正则无关是python机制

# 而针对findall它没有group取值的方法，所以它默认就是分组优先获取的结果
url = 'https://www.baidu.com, http://www.youku.com'
print(re.findall(r'(www).([a-z]+).com', url))  # [('www', 'baidu'), ('www', 'youku')]

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['oldboy']     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可
# 取消分组: 必须写()，但是()为分组语法，我们只是想通过()将一些数据作为整体，所以()必须，再取消分组即可
# (?:) 取消分组只是作为整体   (?P<名字>) 有名分组
ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')  # ?:取消分组优先
print(ret)  # ['www.oldboy.com']

url = 'www.baidu.com,www.youku.com'
res = re.match(r'((?:www).(?P<name>[a-z]+).com)', url)
# print(res)  # <_sre.SRE_Match object; span=(0, 13), match='www.baidu.com'>
print(res.group(1))  # www.baidu.com
print(res.group(2))  # baidu
print(res.group('name'))  # baidu

View Code

8.补充

import re
ret = re.finditer('d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一个结果 # 3
print(next(ret).group())  #查看第二个结果  # 4
print([i.group() for i in ret])  #查看剩余的左右结果 # ['7', '8', '4']

View Code