正则表达式(1)

基础篇

普通转义字符

 

字符描述
 匹配一个单词边界,也就是指单词和空格间的位置。例如,“er”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
B 匹配非单词边界。“erB”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。
cx 匹配由x指明的控制字符。例如,cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的“c”字符。
d 匹配一个数字字符。等价于[0-9]。
D 匹配一个非数字字符。等价于[^0-9]。
f 匹配一个换页符。等价于x0c和cL。
匹配一个换行符。等价于x0a和cJ。
匹配一个回车符。等价于x0d和cM。
s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ f v]。
S 匹配任何非空白字符。等价于[^ f v]。
匹配一个制表符。等价于x09和cI。
v 匹配一个垂直制表符。等价于x0b和cK。
w 匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
W 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
xn 匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“x41”匹配“A”。“x041”则等价于“x04&1”。正则表达式中可以使用ASCII编码。.
um 向后引用(back-reference)一个子字符串(substring),该子字符串与正则表达式的第num个用括号围起来的子表达式(subexpression)匹配。其中num是从1开始的正整数,其上限可能是99。例如:“(.)1”匹配两个连续的相同字符。
标识一个八进制转义值或一个向后引用。如果 之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。
m 标识一个八进制转义值或一个向后引用。如果 m之前至少有nm个获得子表达式,则nm为向后引用。如果 m之前至少有n个获取,则n为一个后跟文字m的向后引用。如果前面的条件都不满足,若n和m均为八进制数字(0-7),则 m将匹配八进制转义值nm。
ml 如果n为八进制数字(0-3),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。
un 匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如,u00A9匹配版权符号(©)。

限定符

元字符作用
* 前一个字符匹配0次或任意多次
+ 匹配除了换行符以外任意一个字符
匹配中括号里的任意指定的一个字符,但只匹配一个字符
| 用于分隔两匹配的正则块,x|y等价于[xy],“或”的意思
{n} 表示其前面的字符恰好出现n次
{n,} 表示其前面的字符出现不小于n次
{n,m} 表示其前面的字符至少出现n次,最多出现m次

 定位符

^ 匹配行首。例如:^helloworld会匹配以helloworld开头的行
$ 匹配行尾。例如:helloworld$会匹配以helloworld结尾的行

 修饰符

修饰符作用
g 全局匹配(会查找所有匹配,不会在查找到第一个匹配时就停止)
i 执行对大小写不敏感的匹配
m 执行对大小写不敏感的匹配

 例子:http://blog.csdn.net/lm278858445/article/details/54933292

通配符与正则表达式的区别

基本上解释就是通配符是系统命令使用,一般用来匹配文件名或者什么的用在系统命令中。而正则表达式是操作字符串,以行尾单位来匹配字符串使用的。

需要了解到的术语:

定界符:通常使用 "/"做为定界符开始和结束,也可以使用"#"。

例:$regex = '/^http://([w.]+)/([w]+)/([w]+).html$/i';

字符域: [w]用方括号扩起来的部分就是字符域。

修饰符:用于改变正则表达式的行为。

限定符:如[w]{3,5}或者[w]*或者[w]+这些[w]后面的符号都表示限定符。

脱字符:^

          放在字符域(如:[^w])中表示否定(不包括的意思)——“反向选择”

          放在表达式之前,表示以当前这个字符开始。(/^n/i,表示以n开头)。

反向引用:http://www.cnblogs.com/-ShiL/archive/2012/04/06/Star201204061009.html

     实例详解:http://www.cnblogs.com/myvin/p/4773659.html

零字宽度:

捕获组与被捕获组:http://blog.csdn.net/lxcnn/article/details/4146148

原文地址:https://www.cnblogs.com/Horsonce/p/7308443.html