python之正则

1.re.match函数

re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。
函数语法：re.match(pattern, string, flags=0) flags是标志位

修饰符	描述
`re.I`	使匹配对大小写不敏感
`re.L`	做本地化识别（locale-aware）匹配
`re.M`	多行匹配，影响`^`和`$`
`re.S`	使`.`匹配包括换行在内的所有字符
`re.U`	根据Unicode字符集解析字符。这个标志影响`w`、`W`、和`B`
`re.X`	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

　　懒惰匹配

　　　　表达式 .* 的意思很好理解，就是单个字符匹配任意次，即贪婪匹配。
　　　　表达式 .*? 是满足条件的情况只匹配一次，即懒惰匹配

模式	描述
`w`	匹配字母、数字及下划线
`W`	匹配不是字母、数字及下划线的字符
`s`	匹配任意空白字符，等价于`[ f]`
`S`	匹配任意非空字符
`d`	匹配任意数字，等价于`[0-9]`
`D`	匹配任意非数字的字符
`A`	匹配字符串开头
	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
`z`	匹配字符串结尾，如果存在换行，同时还会匹配换行符
`G`	匹配最后匹配完成的位置
	匹配一个换行符
	匹配一个制表符
`^`	匹配一行字符串的开头
`$`	匹配一行字符串的结尾
`.`	匹配任意字符，除了换行符，当`re.DOTALL`标记被指定时，则可以匹配包括换行符的任意字符
`[...]`	用来表示一组字符，单独列出，比如`[amk]`匹配`a`、`m`或`k`
`[^...]`	不在`[]`中的字符，比如`[^abc]`匹配除了`a`、`b`、`c`之外的字符
`*`	匹配0个或多个表达式
`+`	匹配1个或多个表达式
`?`	匹配0个或1个前面的正则表达式定义的片段，非贪婪方式
`{n}`	精确匹配`n`个前面的表达式
`{n, m}`	匹配`n`到`m`次由前面正则表达式定义的片段，贪婪方式
`a\|b`	匹配`a`或`b`
`( )`	匹配括号内的表达式，也表示一个组

　　示例：

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(d+).*Demo$', content)
print(result)
print(result.group(1))

　　总结：

　　1. 在做匹配的时候，字符串中间尽量使用非贪婪匹配，也就是用.*?来代替.*，以免出现匹配结果缺失的情况。

　　2. 如果匹配的结果在字符串结尾，.*?就有可能匹配不到任何内容了，因为它会匹配尽可能少的字符。

2.re.search方法

　　re.search扫描整个字符串并返回第一个成功的匹配。
　　函数语法：re.search(pattern, string, flags=0)

　　re.match与re.search的区别

　　re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

示例：

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>'''



result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

3.检索和替换

re.sub(pattern, repl, string, count=0)

    pattern : 正则中的模式字符串。
    repl : 替换的字符串，也可为一个函数。
    string : 要被查找替换的原始字符串。
    count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

示例：

import re

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('d+', '', content)
print(content)

4.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。
函数语法：re.compile(pattern[, flags])

示例：

import re
 
content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('d{2}:d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)

5.findall

*match和 search是匹配一次 ,findall匹配所有
在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。
函数语法：findall(string[, pos[, endpos]])
string 待匹配的字符串。
pos 可选参数，指定字符串的起始位置，默认为0。
endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。

6.re.split

*注：正则表达式[w]+,w+,[w+] 三者有何区别：
[w]+和w+没有区别，都是匹配数字和字母下划线的多个字符；
[w+]表示匹配数字、字母、下划线和加号本身字符；
函数语法：re.split(pattern, string[, maxsplit=0, flags=0])

pattern 匹配的正则表达式
string  要匹配的字符串。
maxsplit    分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。
flags   标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等