第11.17节 Python 正则表达式扩展功能:命名组功能及组的反向引用

一、 引言
《第11.16节 Python正则元字符“()”(小括号)与组(group)匹配模式》介绍了组匹配模式,在一个正则表达式内可以定义多个组,每个组都有一个顺序分配的序号,并且在代表匹配结果的匹配对象中能通过组序号去访问每个组的匹配结果。除了这种组序号访问方式之外,re模块还支持在匹配模式串中给组命名,并通过组名去访问组相关匹配数据,这就是正则表达式处理的命名组功能。

二、 语法
组命名的语法是在组匹配模式基础上扩展的,是在组的括号起始部分增加“?P<组名>”,这样组的定义语法为:
(?P<组名>组匹配模式串)
其中:

  1. ?:表示组匹配模式的扩展模式;
  2. P:组名扩展标示,表示后面为组名,注意P必须是大写字母,小写字母不被re模块作为组名扩展标示;
  3. <>:表示里面的内容为组名;
  4. 组名:必须是有效的Python标识符,并且每个组合名在一个正则表达式内只能定义一次,即在同一个正则表达式内组名不能重复。

例子:

>>> pattern='<h1 class="name">(?P<name>.*)</h1><h1 class="age">(?P<age>[0-9]{1,3})</h1>'

上面例子中定义了2个组名,分别为name和age,name为任意字,age必须为1-3位数字。

三、 组名的反向引用
定义组名肯定是为了使用组名,组名可以在多个地方使用,其中一个就是在正则表达式内被引用,这样引用的内容,表示匹配时,在定义和引用的地方都要出现相同的匹配字符串,这个功能称为组名的反向引用。其语法如下:
(?P=<组名>)
注意:
1、组名必须在引用前定义;
2、比定义在P和<组名>之间多了一个等号;
3、<组名>后没有其他子串。

组名的反向引用这个功能在XML标记语言解析是很有用,如:

<span class="read-count">阅读数: 410</span>

在这种XML标记语言的标签语句中,同一个标签包含开始标签和结束标签,其名字相同,只是结束标签多了反斜杠。此时要解析标签可以使用如下语句来确保匹配到开始标签和结束标签是同一个。可以使用如下方式解析:

>>> m=re.search(r'<(?P<label>[a-z]*)(.*)</(?P=label)>', '<span class="read-count">阅读数:410</span>')
>>> m
<re.Match object; span=(0, 39), match='<span class="read-count">阅读数:410</span>'>
>>> m.groupdict()
{'label': 'span'}
>>> m.groups()
('span', ' class="read-count">阅读数:410')
>>>

如果搜索文本中的结束标签不是“</span>”,则上述正则表达式与搜索文本无法匹配。

上述组名的反向引用,也可以通过组序号实现同样的功能,就是在引用的地方直接使用:

(组序号)
或 
组序号
>>> m=re.search(r'<(?P<label>[a-z]*)(.*)</(1)>', '<span class="read-count">阅读数:410</span>')
>>> m
<re.Match object; span=(0, 39), match='<span class="read-count">阅读数:410</span>'>
>>>

这种方式和组名反向引用的效果是相同的,组名反向引用容易理解也容易记忆,而序号方式的引用则更灵活,可以在前面不用定义组名,所有组都可以通过这种方式引用。如上诉匹配完全可以写成如下:

>>> m=re.search(r'<([a-z]*)(.*)</(1)>', '<span class="read-count">阅读数:410</span>')
>>> m
<re.Match object; span=(0, 39), match='<span class="read-count">阅读数:410</span>'>
>>>

老猿Python,跟老猿学Python!
博客地址:https://blog.csdn.net/LaoYuanPython

请大家多多支持,点赞、评论和加关注!谢谢!

原文地址:https://www.cnblogs.com/LaoYuanPython/p/13643629.html