正则表达式

什么是正则表达式：

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

匹配：

直接匹配：

1. 直接输入字符串，它就会匹配这个字符串

元字符：

. 匹配除了换行符以外的任意字符

w 匹配字母或下划线

s 匹配任意的空白符

d 匹配数字

匹配一个换行符

匹配一个制表符

匹配一个单词的结尾

^ 匹配字符串的开头

$ 匹配字符串的结尾

W 匹配非字母或数字或下划线

D 匹配非数字

S 匹配非空白符

a|b 匹配字符a或b，通常把长的放在前面

() 匹配括号内的表达式，也表示为一个组

[...] 匹配字符组中的字符

... 匹配除了字符组中的所有字符

.	匹配除了换行符以外的任意字符
w	匹配字母或下划线
s	匹配任意的空白符
d	匹配数字
	匹配一个换行符
	匹配一个制表符
	匹配一个单词的结尾
^	匹配字符串的开头
$	匹配字符串的结尾
W	匹配非字母或数字或下划线
D	匹配非数字
S	匹配非空白符
a\|b	匹配字符a或b，通常把长的放在前面
()	匹配括号内的表达式，也表示为一个组
[...]	匹配字符组中的字符
...	匹配除了字符组中的所有字符

量词:

# 不会单独用，要和元字符匹配使用

* 重复零次或更多次

+ 重复一次或更多次

？重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次

*	重复零次或更多次
+	重复一次或更多次
？	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

.^*

正则待匹配字符匹配结果说明

海. 海北海南海东海北海南海东匹配海后面的字符，到下一个海字停下

^海. 海北海南海东海北只找开头的第一个海(开头)

海.$ 海北海南海东海东查找海的最后一个(结尾)

正则	待匹配字符	匹配结果	说明
海.	海北海南海东	海北海南海东	匹配海后面的字符，到下一个海字停下
^海.	海北海南海东	海北	只找开头的第一个海(开头)
海.$	海北海南海东	海东	查找海的最后一个(结尾)

*+?{}

正则待匹配字符匹配结果说明

李.? 李华和李大一和李二三李华李大李二 ?表示只重复一次,就只匹配李后面的第一个任意字符

李.* 李华和李大一和李二三李华和李大一和李二三 *表示重复零次和多次，所以他会(贪婪匹配)匹配第一个李后面的所有字符，？转义

李.+ 李华和李大一和李二三李华和李大一和李二三 +表示重复一次或多次,默认是多次，(贪婪匹配),可以用？改变

李.{1,2} 李华和李大一和李二三李华和李大一李二三 {1，2}匹配李后面的 1到2的任意字符

前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

正则	待匹配字符	匹配结果	说明
李.?	李华和李大一和李二三	李华李大李二	?表示只重复一次,就只匹配李后面的第一个任意字符
李.*	李华和李大一和李二三	李华和李大一和李二三	*表示重复零次和多次，所以他会(贪婪匹配)匹配第一个李后面的所有字符，？转义
李.+	李华和李大一和李二三	李华和李大一和李二三	+表示重复一次或多次,默认是多次，(贪婪匹配),可以用？改变
李.{1,2}	李华和李大一和李二三	李华和李大一李二三	{1，2}匹配李后面的 1到2的任意字符

字符集［］［^］

正则待匹配字符匹配结果说明

李[杰莲英二棍子]* 李杰和李莲英和李二棍子李杰李莲英李二棍子表示匹配"李"字后面[杰莲英二棍子]的字符任意次

李和* 李杰和李莲英和李二棍子李杰李莲英李二棍子表示匹配一个不是"和"的字符任意次

[d] 456bdha3 4 5 6 3 表示匹配任意一个数字，匹配到4个结果

[d]+ 456bdha3 456 3 表示匹配任意个数字，匹配到2个结果

正则	待匹配字符	匹配结果	说明
李[杰莲英二棍子]*	李杰和李莲英和李二棍子	李杰李莲英李二棍子	表示匹配"李"字后面[杰莲英二棍子]的字符任意次
李和*	李杰和李莲英和李二棍子	李杰李莲英李二棍子	表示匹配一个不是"和"的字符任意次
[d]	456bdha3	4 5 6 3	表示匹配任意一个数字，匹配到4个结果
[d]+	456bdha3	456 3	表示匹配任意个数字，匹配到2个结果

转义符

在正则表达式中，有很多有特殊意义的是元字符，比如和s等，如果要在正则中匹配正常的" "而不是"换行符"就需要对""进行转义，变成''。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中也有特殊的含义，本身还需要转义。所以如果匹配一次" ",字符串中要写成'n'，那么正则里就要写成"n",这样就太麻烦了。这个时候我们就用到了r' '这个概念，此时的正则是r'n'就可以了。

正则待匹配字符匹配结果说明

False 因为在正则表达式中是有特殊意义的字符，所以要匹配本身，用表达式无法匹配

n True 转义之后变成，即可匹配

"n" 'n' True 如果在python中，字符串中的''也需要转义，所以每一个字符串''又需要转义一次

r'n' r' ' True 在字符串之前加r，让整个字符串不转义

正则	待匹配字符	匹配结果	说明
		False	因为在正则表达式中是有特殊意义的字符，所以要匹配本身，用表达式无法匹配
n		True	转义之后变成，即可匹配
"n"	'n'	True	如果在python中，字符串中的''也需要转义，所以每一个字符串''又需要转义一次
r'n'	r' '	True	在字符串之前加r，让整个字符串不转义

贪婪匹配

贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

正则待匹配字符匹配结果说明

<.*> <script>...<script> <script>...<script> 默认为贪婪匹配模式，会匹配尽量长的字符串

<.*?> r'd' <script> <script> 加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

正则	待匹配字符	匹配结果	说明
<.*>	<script>...<script>	<script>...<script>	默认为贪婪匹配模式，会匹配尽量长的字符串
<.*?>	r'd'	<script> <script>	加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

几个常用的非贪婪匹配Pattern

*? 重复任意次，但尽可能少重复 +? 重复1次或更多次，但尽可能少重复 ?? 重复0次或1次，但尽可能少重复 {n,m}? 重复n到m次，但尽可能少重复 {n,}? 重复n次以上，但尽可能少重复

.*?的用法

. 是任意字符 * 是取 0 至无限长度 ? 是非贪婪模式。何在一起就是取尽量少的任意字符，一般不会这么单独写，他大多用在： .*?x

就是取前面任意长度的字符，直到一个x出现

正则表达式

什么是 正则表达式：

匹配：

什么是正则表达式：