正则表达式随笔

参考转载自：https://ecloud.10086.cn/api/query/developer/user/home.html?ticket=ST-7179-Jhem0Myd4NmqdlwEK4He-cas01.example.org#L2FwaS9xdWVyeS9kZXZlbG9wZXIvYmxvZy9ibG9nZGV0YWlsLmh0bWw/YmxvZ19pZD04YWY1MDNjNzExMGM0NGVkODc1ZTJmNzQzZDEzY2E2OQ==

正则表达式（Regular Expression）是一种字符串匹配的模式（pattern），对于搜索匹配和替换操作非常友好，具有动态，和灵活等优点。

常用语法

普通字符：包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

相关语法有：

匹配 [...] 中的所有字符，例如 /[aeiou]/ 匹配字符串 "google runoob taobao" 中所有的 e o u a 字母。

匹配除了 [...] 中字符的所有字符，例如 /[^aeiou] / 匹配字符串 "google runoob taobao" 中除了 e o u a 字母的所有字母。

非打印字符

cx 匹配由x指明的控制字符。例如， cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。

f 匹配一个换页符。

匹配一个换行符。

s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ f v]。注意 Unicode 正则表达式会匹配全角空格符

S 匹配任何非空白字符。等价于 [^ f v]。

匹配一个制表符。

v 匹配一个垂直制表符。

特殊字符：一些有特殊含义的字符

$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 ' ' 或 ' '。要匹配 $ 字符本身，请使用 $。

( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 ( 和 )。

. 匹配除换行符之外的任何单字符。要匹配 . ，请使用 . 。

[ 标记一个中括号表达式的开始。要匹配 [，请使用 [。

将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。' ' 匹配换行符。序列 '\' 匹配 ""，而 '(' 则匹配 "("。

^ 1)匹配输入字符串的开始位置。 2)当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合。3)要匹配 ^ 字符本身，请使用 ^。

| 指明两项之间的一个选择。要匹配 |，请使用 |。

{ 标记限定符表达式的开始。要匹配 {，请使用 {。

* 匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 *。

+ 匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 +。

? 匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 ?。

限定符：限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种

* 匹配前面的子表达式零次或多次。* 等价于{0,}。

+ 匹配前面的子表达式一次或多次。+ 等价于 {1,}。

？匹配前面的子表达式零次或一次。? 等价于 {0,1}。

{n} n 是一个非负整数。匹配确定的 n 次。

{n,} n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

{n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如"o{1,3}" 将匹配 "fooooood" 中的前三个 o。请注意在逗号和两个数之间不能有空格。

正则举例：

/[1-9][0-9]*/   ：匹配大于0的所有正整数
[1-9]设置第一个数字不是 0，[0-9]* 表示任意多个数字，限定符*出现在范围表达式之后，它应用于整个范围表达式
注：* 和 + 限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。
贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为，贪婪模式在整个表达式匹配成功的前提下，尽可能多的匹配，而非贪婪模式在整个表达式匹配成功的前提下，尽可能少的匹配。
贪婪模式：

/<.*>/ 匹配 <h1>asdfasdf</h1> 结果为：<h1>asdfasdf</h1>，匹配了整个字符串
非贪婪模式：

/<.*？>/ 匹配 <h1>asdfasdf</h1> 结果为：<h1>，只匹配了<h1>,当然如果加上全局修饰符g，结果会有两个<h1>和</h1>
贪婪模式匹配到<h1>已经匹配成功了，但是因为使用了贪婪模式，所以还是继续向右尝试匹配是否有更长的符合要求的字串，
非贪婪模式匹配到<h1>已经匹配成功了，因为使用了非贪婪模式，所以匹配结束。

定位符：定位符使您能够将正则表达式固定到行首或行尾。用来描述字符串或单词的边界，^ 和 $ 分别指字符串的开始与结束，描述单词的前或后边界，B 表示非单词边界。

^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性，^ 还会与或之后的位置匹配。

例： /^mytree/是匹配mytree开头的字符串，/[^my]/匹配不含有m，y字符的字符

$ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性，$ 还会与或之前的位置匹配。

匹配一个单词边界，即字与空格间的位置。(单词边界是单词和空格之间的位置。非单词边界是任何其他位置。)

B 非单词边界匹配。

注意：不能将限定符与定位符一起使用。

选择：用圆括号 () 将所有选择项括起来，相邻的选择项之间用 | 分隔。

() 表示捕获分组，() 会把每个分组里的匹配的值保存起来，多个匹配值可以通过数字 n 来查看(n 是一个数字，表示第 n 个捕获组的内容)。

但用圆括号会有一个副作用，使相关的匹配会被缓存，非捕获元： ?: ?= ?! 可消除此副作用

例如：/([1-9]+)/g 匹配 123mmp234sss1 获得数组：['123','234','1']

先行断言（lookahead），后行断言 (lookbehind)共4种，pattern为正则表达式

(?=pattern) 零宽正向先行断言：代表字符串中的一个位置，紧接该位置之后的字符序列能够匹配 pattern

例子：正则：/no(?=vember)/ 字符串：noday is november 1st 结果：no (是november的no)

(?!pattern) 零宽负向先行断言：代表字符串中的一个位置，紧接该位置之后的字符序列不能匹配 pattern

例子：正则：/no(?!vember)/ 字符串：noday is november 1st 结果：no (是noday的no)

(?<=pattern) 零宽正向后行断言：代表字符串中的一个位置，紧接该位置之前的字符序列能够匹配 pattern

例子：正则：/(?<=mn)od/ 字符串：mnoday is nodember 1st 结果：od（是mnoday的od）

(?<!pattern) 零宽负向后行断言：代表字符串中的一个位置，紧接该位置之前的字符序列不能匹配 pattern

例子：正则：/(?<!mn)od/ 字符串：mnoday is nodember 1st 结果：od（是nodember的od）

先行断言和后行断言只匹配某些位置，在匹配过程中，不占用字符，所以被称为"零宽"