正则表达式学习

正则在线匹配的网站：https://regex101.com/

1.所谓的元字符就是指那些在正则表达式中具有特殊意义的专用字符，比如d 表示的就是数字，正则就是由一系列的元字符组成的。

2.按照分类来记忆元字符：特殊字符、空白符、范围、量词、断言

2.1 特殊字符：

　　. 表示换行以外的任意字符

d 任意数字 D 任意非数字

w 任意字母数字下划线 W任意非字母数字下划线

s 任意空白符 S 任意非空白符

s能匹配上各种空白符号，也可以匹配上空格，换行有专门的表示方式，在正则中，空格就是用普通的字符英文的空格来表示

3.量词

基础元字符，空白符，它们都只能匹配单个字符，比如d只能匹配一个数字，但有的时候，我们需要匹配单个字符，或者某个部分"重复N次" "至少出现一次" "最多出现三次"等等这样的字符，

在正则中，* 表示出现0到多次，加号（+）代表1到多次，问号（？）表示0到1次，{m,n}代表m到n次

4.范围

二：正则中的三种模式：贪婪匹配、非贪婪匹配、独占模式。比如匹配一次到多次的时候，匹配长度是尽可能长还是尽可能短呢？如果不知道贪婪模式和非贪婪模式，我们就不知道我们写的正则表达式是否正确

贪婪模式：简单说就是尽可能进行最长匹配；非贪婪模式：则会尽可能进行最短的匹配

在正则中，表示次数的量词默认是贪婪的，在贪婪模式下，会尝试尽可能最大长度去匹配

如何将贪婪模式变成非贪婪模式呢？可以在量词后面加上英文的问好(?)，例如a*?

不管是贪婪模式，还是非贪婪模式，都需要发生回溯才能完成相应的功能，但是一些场景下，我们不需要回溯，匹配不上返回失败就好

独占模式和贪婪模式很像，独占模式会尽可能多地去匹配，如果匹配失败就结束，不会进行回溯，这样的话就比较节省时间，具体的方法是在量词后面加上(+)

三：总结：如果只是判断文本是否符合规则，则可以使用独占模式；如果需要获取匹配的结果，则根据需要使用贪婪或非贪婪模式

四：在大多数的正则实现中，多分枝的选择都是左边优先

五：括号在正则中的功能就是用于分组。简单来理解就是，由多个元字符组成某个部分，应该被看成一个整体的时候，可以用括号括起来表示一个整体，这是括号的一个重要功能

六：什么是不保存子组？我们可以理解成，括号只用于归组，把某个部分当成“单个元素”，不分配编号，后面不会再进行这部分的引用

七：分组引用：在知道了分组引用的编号(number)之后，大部分情况下，我们就可以使用“反斜杠+编号”，即 umber的方式来进行引用，而JavaScript中是通过$编号来引用，如$1

八：查找重复出现的单词，我们使用正则可以很方便的使："前面出现的单词再次出现", 用 w+ 来表示一个单词，所以 (w+) 1 就能匹配到重复的单词，这是为什么呢？

因为分组后，后面可以用分组编号引用，这样就是重复出现的意思

九：课后练习题：

解题的思路是：w+ 用于选中出现一次到多次的字母，由于默认贪婪匹配最长，所以能选中每个单词，由于是要找出重复的单词，所以要用第一次匹配成功的结果即使用分组 (w+) 1，到此可以拿到重复两次场景的结果，对于重复两次以上的结果，需要重复刚刚的行为，但是不能一直叠加 1 ，自然想到了 +,得到了 (w+) (1)+，发现匹配不成功，在这里卡壳了一段时间没想明白，翻到别人的答案才猛然想起来单词之间应该有空隙，(1)+不能表示空隙，用s代替敲出来的空格最终得到 (w+)(s+1)+

十：正则中的匹配模式：指的就是正则中一些改变元字符匹配行为的方式，比如匹配时不区分英文字母大小写，常见的匹配模式有4种：分别是不区分大小写模式、点号通配模式、多行模式和注释模式

总结一下不区分大小写模式的知识点：

1. 不区分大小写模式的指定方式，使用模式修饰符(?i)

2.修饰符如果在括号内，作用范围是这个括号内的正则，而不是整个正则

3.使用编程语言时可以使用预定义好的常量来指定匹配模式

十一：点号通配模式：最直观的解释是之前的元字符.能匹配上所有的字符，但是匹配不了换行，现在是需要让.也能匹配上换行，那就需要用点号通配模式：(?s)

其实目的就是能匹配多行

十二：多行匹配模式

这个多行匹配模式的作用：在处理日志时，如果日志以时间开头，有一些日志打印了堆栈信息，占用了多行，我们就可以使用多行匹配模式，在日志中匹配到以时间开头的每一行日志