正则表达式

正则表达式---常用符号

首先声明，我这里列表的是经常使用的一些符号，如果你想得到全部，那建议你通过API中，搜索Pattern类，会得到所有符号。

字符类
[abc] a、b 或 c（简单类）
[^abc] 任何字符，除了 a、b 或 c（否定）
[a-zA-Z] a 到 z 或 A 到 Z，两头的字母包括在内（范围）
[a-d[m-p]] a 到 d 或 m 到 p：[a-dm-p]（并集）
[a-z&&[def]] d、e 或 f（交集）
[a-z&&[^bc]] a 到 z，除了 b 和 c：[ad-z]（减去）
[a-z&&[^m-p]] a 到 z，而非 m 到 p：[a-lq-z]（减去）

预定义字符类
. 任何字符（与行结束符可能匹配也可能不匹配）
d 数字：[0-9]
D 非数字： [^0-9]
s 空白字符：[ x0Bf ]
S 非空白字符：[^s]
w 单词字符：[a-zA-Z_0-9]
W 非单词字符：[^w]

边界匹配器
^ 行的开头
$ 行的结尾
单词边界
B 非单词边界

Greedy 数量词
X? X，一次或一次也没有
X* X，零次或多次
X+ X，一次或多次
X{n} X，恰好 n 次
X{n,} X，至少 n 次
X{n,m} X，至少 n 次，但是不超过 m 次

为了让大家更加明白，对上面的进行部分解释

元字符举例
.点例如正则表达式r.t匹配这些字符串：rat、rut、r t，但是不匹配root。
$ 例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾
但是不能匹配字符串"They are a bunch of weasels."
^ 匹配一行的开始。例如正则表达式^When in能够匹配字符串"When in the"的开始，但是不能匹配"What and When in the"

匹配0或多个正好在它之前的那个字符。例如正则表达式。*意味着能够匹配任意数量的任何字符。
这个是用来转义用的。例如正则表达式$被用来匹配美元符号，而不是行尾，类似的，正则表达式.用来匹配点字符，而不是任何字符的通配符。
| 将两个匹配条件进行逻辑“或”（Or）运算。例如正则表达式(him|her) 匹配" to him"和"i to her"，但是不能匹配" to them."。

匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。
? 匹配0或1个正好在它之前的那个字符。
{i}
{i,j}
例如正则表达式A[0-9]{3} 能够匹配字符"A"后面跟着正好3个数字字符的串，例如A123、A348等，但是不匹配A1234。

而正则表达式[0-9]{4,6} 匹配连续的任意4个、5个或者6个数字字符。

最后讲一个初学者很容易搞混的知识点

正则表达式的() [] {}的区别

() 是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串。圆括号中的字符视为一个整体。

[]是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示相应位置的字符要匹配英文字符和数字。

{}一般用来表示匹配的长度，比如 s{3} 表示匹配三个空格，s[1,3]表示匹配一到三个空格。

(0-9) 匹配 '0-9′ 本身。 [0-9]* 匹配数字（注意后面有 *，可以为空）[0-9]+ 匹配数字（注意后面有 +，不可以为空）{1-9} 写法错误。

[0-9]{0,9} 表示长度为 0 到 9 的数字字符串。