python学习笔记（正则表达式）

什么是正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。最简单的正则表达式就是普通字符串，可以匹配其自身。换包话说，正则表达式’python’ 可以匹配字符串’python’ 。你可以用这种匹配行为搜索文本中的模式，并且用计算后有值并发特定模式，或都将文本进行分段。

通配符

正则表达式可以匹配多于一个的字符串，你可以使用一些特殊字符创建这类模式。比如点号（.）可以匹配任何字符。在我们用window 搜索时用问号（？）匹配任意一位字符，作用是一样的。那么这类符号就叫通配符。

对特殊字符进行转义

通过上面的方法，假如我们要匹配“python.org”，直接用用‘python.org’可以么？这么做可以，但这样也会匹配“pythonzorg”，这可不是所期望的结果。

好吧！我们需要对它进行转义，可以在它前面加上发斜线。因此，本例中可以使用“python\.org”，这样就只会匹配“python.org”了。

为什么使用两个反斜线？

这是为了通过解释器进行转义，需要进行两个级别的转义：1.通过解释器的转义；2.通过 re 模块转义。如果不想使用两个反斜线，可以考虑使用原始字符串，如：r'python.org'。

字符集

我们可以使用中括号（[ ]）括住字符串来创建字符集。可以使用范围，比如‘[a-z]’能够匹配a到z的任意一个字符，还可以通过一个接一个的方式将范围联合起来使用，比如‘[a-zA-Z0-9]’能够匹配任意大小写字母和数字。

反转字符集，可以在开头使用^字符，比如‘[^abc]’可以匹配任何除了a、b、c之外的字符。

选择项

有时候只想匹配字符串’python’ 和 ’perl’ ，可以使用选择项的特殊字符：管道符号（|）。因此，所需模式可以写成’python|perl’ 。

子模式

但是，有些时候不需要对整个模式使用选择符---只是模式的一部分。这时可以使用圆括号起需要的部分，或称子模式。前例可以写成 ‘p(ython | erl)’

可选项和重复子模式

在子模式后面加上问号，它就变成了可选项。它可能出现在匹配字符串，但并非必须的。

r’(heep://)?(www.)?python.org’

只能匹配下列字符：

‘http://www.python.org’

‘http://python.org’

‘www.python.org’

‘python.org’

(pattern)* : 允许模式重复0次或多次

(pattern)+ : 允许模式重复1次或多次

(pattern){m,n} : 允许模式重复m~ n 次

例如：

r’w * .python.org’ 匹配 ‘www.python.org’ 、’.python.org’ 、’wwwwwww.python.org’

r’w + .python.org’ 匹配 ‘w.python.org’ ；但不能匹配 ’.python.org’

r’w {3,4}.python.org’ 只能匹配‘www.python.org’ 和‘wwww.python.org’

字符串的开始和结尾

使用 ^ 脱字符标记字符串开始；使用美元符号 $ 标识字符串的结尾

>>> '^python$'

re模块

re 模块包含了很多操作正则表达式的函数，以下是其中最常用的函数:

1 compile(pattern[, flags]) 根据包含正则表达式的字符串创建模式对象

2 search(pattern, string[, flags]) 在字符串中寻找模式

3 match(pattern, string[, flags]) 在字符串的开始处匹配模式

4 split(pattern, string[, maxsplit=0]) 根据模式的匹配项来分割字符串

5 findall(pattern, string) 列出字符串中模式的所有匹配项

6 sub(pat, repl, string[, count=0]) 将字符串中所有pat的匹配项用repl替换

7 escape(string) 将字符串中所有特殊正则表达式字符转义
(pattern:匹配的正则表达式；string:要匹配的字符串；flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等)

re.compile

将正则表达式转换为模式对象，可以实现更有效率的匹配。

re.search 会在给定字符串中寻找第一个匹配给正则表式的子字符串。找到函数返回MatchObject(值为True)，否则返回None(值为False) 。因为返回值的性质，所以该函数可以用在条件语句中：

if re.serch(pat, string):

print ‘found it !’

re.match

会在给定字符串的开头匹配正则表达式。因此，re.match(‘p’ , ‘python’)返回真，re.macth(‘p’ , ‘www.python’) 则返回假。

re.match和re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

import re

line = "Cats are smarter than dogs";

matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
   print "match --> matchObj.group() : ", matchObj.group()
else:
   print "No match!!"

matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
   print "search --> matchObj.group() : ", matchObj.group()
else:
   print "No match!!"

运行结果：

No match!!
search --> matchObj.group() :  dogs
>>>

re.split

会根据模式的匹配项来分割字符串。

>>> import re
>>> some_text='alpha,beta,,,,,gamma delta'
>>> re.split('[, ]+',some_text)
['alpha', 'beta', 'gamma', 'delta']
>>>

从上述例子看，返回值是子字符串的列表。maxsplit参数表示字符串最多可以分割的部分数

>>> re.split('[, ]+',some_text,maxsplit=2)
['alpha', 'beta', 'gamma delta']
>>> re.split('[, ]+',some_text,maxsplit=1)
['alpha', 'beta,,,,,gamma delta']
>>>

re.findall函数

以列表形式返回给定模式的所有匹配项

在字符串中查找所有的单词

>>> pat='[a-zA-Z]+'
>>> text="'Hm...Err-- are you sure?' he said ,sounding insecure."
>>> re.findall(pat,text)
['Hm', 'Err', 'are', 'you', 'sure', 'he', 'said', 'sounding', 'insecure']

查找标点符号

>>> pat=r'[.?-",]+'
>>> re.findall(pat,text)
['...', '--', '?', ',', '.']

re.sub函数

用于替换字符串中的匹配项。

re.sub(pattern, repl, string[,count=0])

返回的字符串是在字符串中用 RE 最左边不重复的匹配来替换。如果模式没有发现，字符将被没有改变地返回。

可选参数 count 是模式匹配后替换的最大次数；count 必须是非负整数。缺省值是 0 表示替换所有的匹配

>>> import re
>>> pat='{name}'
>>> text='Dear {name}'
>>> re.sub(pat,'Mr.Gumby',text)
'Dear Mr.Gumby'
>>>

re.escape函数

是可以对字符串中所有可能被解释为正则运算符的字符进行转义的应用函数。

>>> re.escape('www.python.org')
'www\.python\.org'
>>> re.escape('But where is the ambiguity')
'But\ where\ is\ the\ ambiguity'
>>>

匹配对象和组

简单来说，组就是放置在圆括号里内的子模块，组的序号取决于它左侧的括号数。组0就是整个模块，所以在下面的模式中：

'There (was a (wee) (cooper)) who (lived in Fyfe)'

包含下面这些组：

0  There  was a  wee cooper  who  lived in Fyfe

1  was a  wee  cooper

2  wee

3  cooper

4  lived in Fyfe

re 匹配对象的重要方法

>>> m=re.match(r'www.(.*)..{3}','www.python.org')
>>> m.group(1)
'python'
>>> m.start(1)
4
>>> m.end(1)
10
>>> m.span(1)
(4, 10)
>>>

group方法返回模式中与给定组匹配的字符串，如果没有组号，默认为0 ；如上面：m.group()==m.group(0) ；如果给定一个组号，会返回单个字符串。

start 方法返回给定组匹配项的开始索引，

end方法返回给定组匹配项的结束索引加1；

span以元组（start，end）的形式返回给组的开始和结束位置的索引。

贪婪模式和非贪婪模式

重复运算符默认是贪婪的( greedy),它会进行尽可能多的匹配。如下面的模式使用的就是贪婪模式：

>>> import re
>>> emphasis_pattern=r'*(.+)*'
>>> re.sub(emphasis_pattern,r'<em>1</em>','*This* is *it*!')
'<em>This* is *it</em>!'
>>>

非贪婪模式和贪婪模式相反，它会尽可能少的匹配。将重复运算符变成非贪婪模式只需要在其后加一个问号( ? )即可：

import re
emphasis_pattern = r'*(.+?)*'
text = '*This* is *it*'
print re.sub(emphasis_pattern,r'<em>1<em>',text)

# <em>This<em> is <em>it<em>

正则表达式修饰符--可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

e.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 w, W, , B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

正则表达式模式

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}
re{ n,}	精确匹配n个前面表达式。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\| b	匹配a或b
(re)	G匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (...), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#...)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯。
w	匹配字母数字
W	匹配非字母数字
s	匹配任意空白字符，等价于 [ f].
S	匹配任意非空字符
d	匹配任意数字，等价于 [0-9].
D	匹配任意非数字
A	匹配字符串开始
	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c
z	匹配字符串结束
G	匹配最后匹配完成的位置。
	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
B	匹配非单词边界。'erB' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
, , 等.	匹配一个换行符。匹配一个制表符。等
1...9	匹配第n个分组的子表达式。
10	匹配第n个分组的子表达式，如果它经匹配。否则指的是八进制字符码的表达式。

正则表达式实例

字符类

实例	描述
[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符

特殊字符类

实例	描述
.	匹配除 " " 之外的任何单个字符。要匹配包括 ' ' 在内的任何字符，请使用象 '[. ]' 的模式。
d	匹配一个数字字符。等价于 [0-9]。
D	匹配一个非数字字符。等价于 [^0-9]。
s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ f v]。
S	匹配任何非空白字符。等价于 [^ f v]。
w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
W	匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。