Python 正则

# 正则表达式
"""
re 模块使 Python 语言拥有全部的正则表达式功能
re.match函数  re.match(pattern, string, flags=0)
re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。
  pattern    匹配的正则表达式
  string    要匹配的字符串。
  flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等
  匹配成功re.match方法返回一个匹配的对象，否则返回None
  可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
     group(num=0)    匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
     groups()    返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。
具体使用
# 导入re模块
import re

# 使用match方法进行匹配操作
result = re.match(正则表达式,要匹配的字符串)

# 如果上一步匹配到数据的话，可以使用group方法来提取数据
result.group()
"""

# 示例
import re
result = re.match("itcast", "itcast.cn")
result2 = re.match("itcast", "444.cn.itcast")
print(result.group())
print(result2)  # 不是从头开始 返回None


"""
匹配单个字符
.    匹配任意1个字符（除了
）
[ ]    匹配[ ]中列举的字符
d    匹配数字，即0-9
D    匹配非数字，即不是数字
s    匹配空白，即 空格，tab键
S    匹配非空白
w    匹配单词字符，即a-z、A-Z、0-9、_
W    匹配非单词字符
"""

# 示例 .
ret = re.match("t.o", "two")
print(ret.group())

# 示例 []
ret = re.match("[hH]", "hello Python")
print(ret.group())
# 匹配0到9第一种写法
ret = re.match("[0123456789]Hello Python", "7Hello Python")
print(ret.group())
# 匹配0到9第二种写法
ret = re.match("[0-9]Hello Python", "7Hello Python")
print(ret.group())
ret = re.match("[0-35-9]Hello Python", "7Hello Python")
print(ret.group())

# 示例 d
ret = re.match("嫦娥d号","嫦娥2号发射成功")
print(ret.group())

# 示例 s
ret = re.match("嫦娥s号", "嫦娥 号发射成功")
print(ret.group())

# 示例 w
ret = re.match('w', "ath565656")
print(ret.group())

# 匹配多个字符
"""
*    匹配前一个字符出现0次或者无限次，即可有可无
+    匹配前一个字符出现1次或者无限次，即至少有1次
?    匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}    匹配前一个字符出现m次
{m,n}    匹配前一个字符出现从m到n次
"""
# 示例1：*
ret = re.match("[A-Z][a-z]*","MnnM")
print(ret.group())

# 示例2：+
names = ["name1", "_name", "2_name", "__name__"]
for name in names:
    ret = re.match("[a-zA-Z_]+[w]*",name)
    if ret:
        print("变量名 %s 符合要求" % ret.group())
    else:
        print("变量名 %s 非法" % name)

# 示例3：?
ret = re.match("[1-9]?[0-9]", "7")
print(ret.group())

# 示例4：{m} {m,n}
ret = re.match("[a-zA-Z0-9_]{6}", "12a3g45678")
print(ret.group())

ret = re.match("[a-zA-Z0-9_]{8,20}", "1ad12f23s34455ff66")
print(ret.group())

# 匹配开头结尾
"""
^    匹配字符串开头
$    匹配字符串结尾
"""

# 示例1：$ 匹配163.com的邮箱地址
email_list = ["xiaoWang@163.com", "xiaoWang@163.comheihei", ".com.xiaowang@qq.com"]
for email in email_list:
    ret = re.match("[w]{4,20}@163.com$", email)
    if ret:
        print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
    else:
        print("%s 不符合要求" % email)

# 匹配分组
"""
|        匹配左右任意一个表达式
(ab)    将括号中字符作为一个分组

um    引用分组num匹配到的字符串
(?P<name>)    分组起别名
(?P=name)    引用别名为name分组匹配到的字符串
"""

# 示例1：| 满足|左右两边任意一个表达式
ret = re.match("[1-9]?d$|100","100")
print(ret.group())  # 100

ret = re.match("[1-9]?d$|100","78")
print(ret.group())  # 78

# 示例2：( )  满足括号中的枚举
ret = re.match("w{4,20}@(163|126|qq).com", "test@126.com")
print(ret.group())  # test@126.com

# 示例3：
um
ret = re.match(r"<([a-zA-Z]*)>w*</1>", "<html>hh</html>")
print(ret.group())

labels = ["<html><h1>www.eee.cn</h1></html>", "<html><h1>www.eee.cn</h2></html>"]

for label in labels:
    ret = re.match(r"<(w*)><(w*)>.*</2></1>", label)
    if ret:
        print("%s 是符合要求的标签" % ret.group())
    else:
        print("%s 不符合要求" % label)

# 示例4：(?P<name>) (?P=name)
ret = re.match(r"<(?P<name1>w*)><(?P<name2>w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.eee.cn</h1></html>")
ret.group()
ret = re.match(r"<(?P<name1>w*)><(?P<name2>w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.eee.cn</h2></html>")
ret.group()

# 高级语法
"""
re.search(pattern,string,flags) 扫描整个字符串并返回第一个成功的匹配
    re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；
    re.search匹配整个字符串，直到找到一个匹配。

re.findall(string[, pos[, endpos]])  在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表
    string 待匹配的字符串。
    pos 可选参数，指定字符串的起始位置，默认为 0。
    endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。
    
re.sub(pattern, repl, string, count=0, flags=0)  替换字符串中的匹配项
    pattern : 必填正则中的模式字符串。
    repl : 必填替换的字符串，也可为一个函数。
    string : 必填要被查找替换的原始字符串。
    count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。
    flags : 编译时用的匹配模式，数字形式
re.split() 根据匹配进行切割字符串，并返回一个列表
    pattern    匹配的正则表达式
    string    要匹配的字符串。
    maxsplit    分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。
    flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

"""

# search
print(re.search('www', 'www.eee.com').group())  # 在起始位置匹配
print(re.search('com', 'www.eee.com').group())  # 不在起始位置

# sub
ret = re.sub(r"d+", '998', "id = 997")
print(ret)
# 设定函数调用 依据表达式查找到数据后，调用函数 再返回
def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

ret = re.sub(r"d+", add, "python = 99")
print(ret)

# findall
ret = re.findall(r"d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)

pattern = re.compile(r'd+')   # 查找数字 创建表达式
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)  # 从0开始到10结束查找

# split
ret = re.split(r":| ", "info:xiaoZhang 33 shandong")  # 以冒号或空格切割
print(ret)
re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割

# r的作用
"""
Python中字符串前面加上 r 表示原生字符串
>>> ret = re.match(r"c:\a",mm).group()
>>> print(ret)
c:a
"""

# 常用正则符号
"""
1、 ? 匹配0次或一次前面的分组（问号在正则表达式中可声明非贪心匹配模式，这两种含义是完全无关的）
2、 * 匹配0次或多次前面的分组
3、 + 匹配1次或多次前面的分组
4、 {n} 匹配n次前面的分组
5、 {n,} 匹配n次或更多次前面的分组
6、 {,m} 匹配0次到m次前面的分组
7、 {n,m} 匹配至少n次，最多m次前面的分组
8、 {n,m}?或*?或+?对前面的分组进行非贪心匹配
9、 ^ABC 匹配以ABC开头的字符串
10、 ABC$ 匹配以ABC结尾的字符串
11、 . 匹配所有字符，换行符除外
12、 d、w和s分别匹配数字、单词和空格
13、 D、W和S分别匹配除数字、单词、和空格外的所有字符
14、 [abc] 匹配方括号内的任意字符（诸如a、b或c）
15、 [^abc] 匹配不在方括号内的任意字符
"""