正则表达式(1)

一、认识正则表达式

  正则表达式,(英语:Regular Expression,在代码中常简写为regex、regexp或RE),字符串处理利器,计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。

1、用途

  正则表达式可以用于字符串匹配(字符匹配)、字符串查找、字符串替换,应用的具体场合如IP地址检查、从网页中揪出Email地址、从网页中揪出链接等。

2、Java类

  • java.lang.Srtring
  • java.util.regex.Pattern
  • java.util.regex.Matcher

  java.util.regex 包,用于匹配字符序列与正则表达式指定模式的类。

  Pattern 类,正则表达式的编译表示形式,可以简单理解为字符串要被匹配的某个模式。

  Matcher 类,匹配器,通过解释 Pattern 对 character sequence 执行匹配操作,简单理解为匹配之后产生的一个结果。

  指定为字符串的正则表达式必须首先被编译为此类的实例。然后,可将得到的模式用于创建 Matcher 对象,依照正则表达式,该对象可以与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。  

  典型的调用顺序为:

  Pattern p = Pattern.compile("a*b");
  Matcher m = p.matcher("aaaab");
  boolean b = m.matches();

  在仅使用一次正则表达式时,可以方便地通过此类定义的 matches 方法。此方法编译表达式并在单个调用中将输入序列与其匹配。语句 

  boolean b = Pattern.matches("a*b", "aaaab");

或者使用 String 类的 matches 方法

  boolean b = "aaaab".matches("a*b");

它们均等效于上面的三个语句,尽管对于重复的匹配而言它效率不高,因为它不允许重用已编译的模式。

Pattern 类常用方法:

static Pattern compile(String regex) //将给定的正则表达式编译到模式中
       Matcher matcher(CharSequence input) //创建匹配给定输入与此模式的匹配器
static boolean matches(String regex,  CharSequence input) //编译给定正则表达式并尝试将给定输入与其匹配。
       String Pattern() //返回在其中编译过此模式的正则表达式。

3、匹配器

  通过调用模式的 matcher 方法从模式创建匹配器,创建匹配器后,可以使用它执行三种不同的匹配操作: 

  • matches 方法尝试将整个输入序列与该模式匹配。
  • LookingAt 方法尝试将输入序列从头开始与该模式匹配。 
  • find 方法扫描输入序列以查找与该模式匹配的下一个子序列。

matcher 方法和 find 方法在使用的过程中会相互影响,相当于一个游标在往下扫描子序列,可以使用匹配器的 reset 方法来使游标复位。 

每个方法都返回一个表示成功或失败的布尔值,通过查询匹配器的状态可以获取关于成功匹配的更多信息。

4、简单用例

 1 import java.util.regex.Matcher;
 2 import java.util.regex.Pattern;
 3 
 4 public class Test {
 5     public static void main(String[] args) {
 6         // TODO Auto-generated method stub
 7         p("abc".matches("..."));
 8         p("a124345b".replaceAll("\d", "-"));
 9         
10         Pattern p = Pattern.compile("[a-z]{3}");
11         Matcher m = p.matcher("abc");
12         p(m.matches());
13         
14         p(Pattern.matches("[a-z]{3}", "abc"));
15     }
16     
17     public static void p(Object o) {
18         System.out.println(o);
19     }
20 }

输出结果:

true
a------b
true
true

补充:正则表达式断言

所谓断言就是要匹配的字符串前面或后面必须含有(不含有)哪些指定的字符串。

前向断言:(?<=(AB))CD 或 (?<!(AB))CD    CD前面必须有(没有)AB

后向断言:CD(?=AB) 或 CD(?!AB)    CD后面必须有(没有)AB

举例:{"termCount":900,"terms":[{"name":"圆柱"},{"name":"对应角"},{"name":"正有理数"} 需要匹配name后面的汉字

Pattern pattern = Pattern.compile("(?<=("name":"))[^"]+(?=("))");


Eclipse中导入包的快捷方式:将光标移到相应的类上,按下 Ctrl+Shift+M,Eclipse会自动帮你完成导入的工作了。

此外,直接CTRL+SHIFT+O 更快,直接导所有的,还删除掉未用的包,功能更加强大。

原文地址:https://www.cnblogs.com/skyke/p/4989121.html