python正则表达式

摘录:正则表达式(RE)为高级文本模式匹配,以及搜索-代替等功能提供了基础。正则表达式(RE)是一些有字符和特殊符号组成的字符串,它们描述了这些字符和字符的某种重复方式,因策能按某种模式匹配一个有相似特征的字符串的集合,因策能按某模式匹配一系列有相似特征的字符串。

1. 下面是一些最常用的元字符(metacharacters),正是他们赋予了正则表达式强大的功能和灵活性。

Symbols 说明 举例
leteral 匹配字符串的值 foo
re1|re2 匹配正则表达式re1或re2 foo|bar
.  匹配任何字符(换行符除外) b.b
^ 匹配字符串的开始 ^Dear
$ 匹配字符串的结尾 /bin/*sh$
* 匹配前面出现的正则表达式零次或多次 [A-Za-z0-9]*
+ 匹配前面出现的正则表达式一次或多次 [a-z]+\.com
? 匹配前面出现的正则表达式零次或一次 goo+
{N} 匹配前面出现的正则表达式N次 [0-9]{3}
{M,N} 匹配重复出现M次到N次的正则表达式 [0-9]{5,9}
[...] 匹配字符组中出现的任意一个字符 [aeiou]
[..x-y..] 匹配从字符x到y中的任意一个字符 [0-9],[A-Za-z]
[^...] 不匹配此字符集中出现的任何一个字符,包括某一范围的字符(如果此字符集中出现) [^aeiou],[^A-Za-z0-9_]
(*|+|?|{})? 用于上线出现的任何"非贪婪"版本重复匹配次数副号(*,+,?,{}) .*?[a-z]
(...) 匹配封闭括号中正则表达式(RE),并保存为子组 ([0-9]{3})?, f(oo|u)bar
\a 匹配任何数据,和[0-9]一样,(\D是\d的反义:然和非数字符) data\d+.txt
\w 匹配然和数据字母字符,和[A-Za-z0-9]相同(\W是\w的反义) [A-Za-z_]\w+
\s 配置任何空白符,和[\n\t\r\v\f]相同,(\S是\s的反义) of\sthe
\b 匹配单词边界(\B是\b的反义) \bThe\b
\nn 匹配以保存的子组(请参考上面的正则表达式副号:(...)) price:\16
\c 逐一匹配特殊字符c(即,取消它的特殊含义,按字面匹配) \., \\, \*

2. python处理正则表达式的模块

  re模块的函数

  compile(pattern, flags=0):对正则表达式pattern进行编译,并返回一个regex对象

  re模块的函数和regex对象的方法

  match(pattern, string, flags=0):尝试用正则表达式模式pattern匹配字符串string,如果匹配成功,则返回一个匹配对象;否则返回None

  search(pattern, string, flags=0):在字符串string中查找正则表达式模式pattern的第一次出现,如果匹配成功,则返回一个匹配对象。否则返回None

  findall(pattern, string[, flags]):在字符串string中查找正则表达式模式pattern的所有(非重复)出现:返回一个匹配对象的列表。

  finditer(pattern, string[, flags]):和findall()相同,但返回的不是离别而是迭代器:对于每个匹配该迭代器返回一个匹配对象

  匹配对象的方法

  split(pattern, string, max=0):根据正则表达式pattern中的分隔符吧字符string分割为一个列表,返回成功匹配的列表,最多分割max次

  sub(pattern, repl, string, max=0):把字符串string中左右匹配正则表达式pattern的地方替换成字符串rep1,如果max值没有给出,则对所有匹配的地方进行替换

  group(num=0):返回全部匹配对象(或指定编号是num的子组)

  groups():返回一个包含全部匹配的子组的元组(如果没有匹配成功,就返回一个空元组)

3. 正则表达式示例

>>> import re
>>> data = 'Thu Feb 15 17:46:04 2007::uzifzf@dpyivihw.gov::1171590364-6-8'
>>> patt = '^(Mon|Tue|Wed|Thu|Fri|Sat|Sun)'
>>> m = re.match(patt, data)
>>> m.group()
'Thu'
>>>

原文地址:https://www.cnblogs.com/dw729/p/2993914.html