第11.17节 Python 正则表达式扩展功能:命名组功能及组的反向引用
一、 引言
在《第11.16节 Python正则元字符“()”(小括号)与组(group)匹配模式》介绍了组匹配模式,在一个正则表达式内可以定义多个组,每个组都有一个顺序分配的序号,并且在代表匹配结果的匹配对象中能通过组序号去访问每个组的匹配结果。除了这种组序号访问方式之外,re模块还支持在匹配模式串中给组命名,并通过组名去访问组相关匹配数据,这就是正则表达式处理的命名组功能。
二、 语法
组命名的语法是在组匹配模式基础上扩展的,是在组的括号起始部分增加“?P<组名>”,这样组的定义语法为:
(?P<组名>组匹配模式串)
其中:
- ?:表示组匹配模式的扩展模式;
- P:组名扩展标示,表示后面为组名,注意P必须是大写字母,小写字母不被re模块作为组名扩展标示;
- <>:表示里面的内容为组名;
- 组名:必须是有效的Python标识符,并且每个组合名在一个正则表达式内只能定义一次,即在同一个正则表达式内组名不能重复。
例子:
>>> pattern='<h1 class="name">(?P<name>.*)</h1><h1 class="age">(?P<age>[0-9]{1,3})</h1>'
上面例子中定义了2个组名,分别为name和age,name为任意字,age必须为1-3位数字。
三、 组名的反向引用
定义组名肯定是为了使用组名,组名可以在多个地方使用,其中一个就是在正则表达式内被引用,这样引用的内容,表示匹配时,在定义和引用的地方都要出现相同的匹配字符串,这个功能称为组名的反向引用。其语法如下:
(?P=<组名>)
注意:
1、组名必须在引用前定义;
2、比定义在P和<组名>之间多了一个等号;
3、<组名>后没有其他子串。
组名的反向引用这个功能在XML标记语言解析是很有用,如:
<span class="read-count">阅读数: 410</span>
在这种XML标记语言的标签语句中,同一个标签包含开始标签和结束标签,其名字相同,只是结束标签多了反斜杠。此时要解析标签可以使用如下语句来确保匹配到开始标签和结束标签是同一个。可以使用如下方式解析:
>>> m=re.search(r'<(?P<label>[a-z]*)(.*)</(?P=label)>', '<span class="read-count">阅读数:410</span>')
>>> m
<re.Match object; span=(0, 39), match='<span class="read-count">阅读数:410</span>'>
>>> m.groupdict()
{'label': 'span'}
>>> m.groups()
('span', ' class="read-count">阅读数:410')
>>>
如果搜索文本中的结束标签不是“</span>”,则上述正则表达式与搜索文本无法匹配。
上述组名的反向引用,也可以通过组序号实现同样的功能,就是在引用的地方直接使用:
(\组序号)
或
\组序号
>>> m=re.search(r'<(?P<label>[a-z]*)(.*)</(\1)>', '<span class="read-count">阅读数:410</span>')
>>> m
<re.Match object; span=(0, 39), match='<span class="read-count">阅读数:410</span>'>
>>>
这种方式和组名反向引用的效果是相同的,组名反向引用容易理解也容易记忆,而序号方式的引用则更灵活,可以在前面不用定义组名,所有组都可以通过这种方式引用。如上诉匹配完全可以写成如下:
>>> m=re.search(r'<([a-z]*)(.*)</(\1)>', '<span class="read-count">阅读数:410</span>')
>>> m
<re.Match object; span=(0, 39), match='<span class="read-count">阅读数:410</span>'>
>>>
老猿Python,跟老猿学Python!
博客地址:https://blog.csdn.net/LaoYuanPython
请大家多多支持,点赞、评论和加关注!谢谢!
第11.17节 Python 正则表达式扩展功能:命名组功能及组的反向引用的更多相关文章
- 第11.13节 Python正则表达式的转义符”\”功能介绍
为了支持特殊元字符在特定场景下能表示自身而不会被当成元字符进行匹配出来,可以通过字符集或转义符表示方法来表示,字符集表示方法前面在<第11.4节 Python正则表达式搜索字符集匹配功能及元字符 ...
- 第11.4节 Python正则表达式搜索字符集匹配功能及元字符”[]”介绍
Python正则表达式字符集匹配表示是指搜索一个字符,该字符在给定的一个字符的集合中.元字符'['和']'是用于组合起来定义匹配字符集,匹配模式中使用 '['开头,并使用']'结尾来穷举搜索的字符可能 ...
- 第11.15节 Python正则表达式转义符定义的特殊序列
一. 引言 在前面<第11.13节 Python正则表达式的转义符"\"功能介绍>介绍了正则表达式转义符'\',只不过当时作为转义符主要是用于在正则表达式中表示元字符自 ...
- 第11.25节 Python正则表达式编译re.compile及正则对象使用
一. 引言 在<第11.2节 Python 正则表达式支持函数概览>介绍了re模块的主要函数,在<第11.3节 Python正则表达式搜索支持函数search.match.fullm ...
- 第11.10节 Python正则表达式的非贪婪模式的重复匹配:'*?', '+?',和 '??'
在<第11.9节 Pytho正则表达式的贪婪模式和非贪婪模式>老猿简单介绍了贪婪模式和非贪婪模式,并说明'', '+',和 '?' 修饰符都是 贪婪的:它们在字符串进行尽可能多的匹配.有时 ...
- 第11.9节 Python正则表达式的贪婪模式和非贪婪模式
在使用正则表达式时,匹配算法存在贪婪模式和非贪婪模式两种模式,在<第11.8节 Pytho正则表达式的重复匹配模式及元字符"?". "*". " ...
- 第11.6节 Python正则表达式的字符串开头匹配模式及元字符“^”(插入符、脱字符)功能介绍
符号"^"为插入符,也称为脱字符,在Python中脱字符表示匹配字符串的开头,即字符串的开头满足匹配模式的要求.这个功能有点类似搜索函数match,只是这是通过搜索模式来指定,而m ...
- 第11.5节 Python正则表达式搜索任意字符匹配及元字符“.”(点)功能介绍
在re模块中,任意字符匹配使用"."(点)来表示, 在默认模式下,点匹配除了换行的任意字符.如果指定了搜索标记re.DOTALL ,它将匹配包括换行符的任意字符.关于搜索标记的含义 ...
- 第11.7节 Python正则表达式的字符串结尾匹配模式及元字符“$”功能介绍
符号"$"表示匹配字符串的结尾,即字符串的结尾满足匹配模式的要求. 在 MULTILINE 模式(搜索标记中包含re.MULTILINE,关于搜索标记的含义请见<第11.2节 ...
随机推荐
- Inception系列之Inception_v1
目前,神经网络模型为了得到更好的效果,越来越深和越来越宽的模型被提出.然而这样会带来以下几个问题: 1)参数量,计算量越来越大,在有限内存和算力的设备上,其应用也就越难以落地. 2)对于一些数据集较少 ...
- 记一次ns3的安装过程
官方安装教程:https://www.nsnam.org/wiki/Installation 推荐使用Ubuntu18.04,Ubuntu20.04有些依赖无法下载. 准备工作 # 如果下载速度很慢, ...
- 使用邮箱验证登录后台ssh,再也不怕被人攻击服务器了!
目录 前言 安装教程 前言 之前写过使用用户名密码,以及扫描二维码方式验证后台登录ssh的文章:[点击跳转]. 但是这样还是不太保险,也存在被人利用的情况,因为别人破解你的后台你压根不知道.因此想到使 ...
- nginx&http 第六章 http 协议学习 1
1.HTTP方法 GET :获取资源 ,GET 方法用来请求访问已被 URI 识别的资源 POST:传输(上传和下载)实体主体 ,POST 方法用来传输实体的主体.虽然用 GET 方法也可以传输实体的 ...
- 一键SSH连接 = SSH密钥登陆 + WindowsTerminal
本文记录如何利用SSH密钥登录和WindowsTerminal/FluentTerminal实现一键SSH连接 目录 一.在本地生成SSH密钥对 二.在远程主机安装公钥 三.在远程主机打开密钥登陆功能 ...
- mysql之冷备和mysqldump、mydumper、xtrabackup备份
1.冷备流程: 停库备份,冷备份一般用于非核心业务,这类业务一般都允许停库. 在停止数据库后,将数据文件拷贝出来,然后对原始数据文件进行备份. 流程: 1.关闭数据库备份 2.拷贝数 ...
- 工作流(workflow)
1,JBPM 工作流(开源历史悠久) 2,activity 工作流(开源历史悠久) 3,workable 工作流(功能比较强大,但是开源维护缓慢,比较注重商业化) 以上三个是主流的工作流
- SQL注入学习-Dnslog盲注
1.基础知识 1.DNS DNS(Domain Name System,域名系统),因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的 ...
- Docker学习第三天(Docker数据卷管理)
1.Docker数据卷管理 在Docker中,要想实现数据的持久化(所谓Docker的数据持久化即数据不随着Container的结束而结束),需要将数据从宿主机挂载到容器中.目前Docker提供了三种 ...
- 历时两年零三个月,从刚毕业的外包到现在的阿里P7offer,我只做了这几件事
前言 最近,金九银十在即,很多人都在准备面试,特别给大家总结了 Java 程序员面试必备题,这份面试清单是我从 去年开始收集的,一方面是给公司招聘用,另一方面是想用它来挖掘我在 Java 技术栈中的技 ...