一、贪婪和非贪婪

1.贪婪:尽可能多的匹配,(*)表示贪婪匹配

2.非贪婪:找到符合条件的最小内容即可,(?)表示非贪婪

3.正则默认使用贪婪匹配


import re

title = u"<div>name</div><div>age</div>"

p1 = re.compile(r"<div>.*</div>")#贪婪模式

p2 = re.compile(r"<div>.*?<div>")#非贪婪模式

m1 = p1.search(title)

print(m1.group())

​

m2 = p2.search(title)

print(m2.group())

二、XPATH

1.释义:在XML文件中查找信息的一套规则/语言,根据XML的元素

文档帮助:http://www.w3cshool.com.cn/xpath/index.asp

2.XPath开发工具

开源的XPath表达式编辑工具:XMLQuire

Chrome插件:XPath
Helper

Firefox插件:XPath
Checker

3.怎么在XML文件中选取节点

(1)nodename:选取此节点的所有子节点

(2)/:从根节点开始选取

例子:/Student:没有结果

/School:选取School节点

(3)//:选取节点,不考虑位置

例子://age:选取三个节点,一般组成列表返回

(4).:选取当前节点

(5)..:选取当前节点的父亲节点

(6)@:选取属性

(7)Xpath中查找一般按照路径方法查找

School/teacher:返回teacher节点

School/student:返回两个student节点

//Student:选取所有Student的节点,不考虑位置

School//Age:选取School后代中所有的Age节点

//@Other:选取Other属性

//Age[@Details]:选取带有属性Details的Age元素

<?xml version="1.0" encoding="utf-8" ?>

<School>

    <Teacher desc="PythonTeacher" score="good">

        <name>LiuDana</name>

        <Age_1 Details="Age for year 2010">18</Age_1>

        <Mobile>13260446055</Mobile>

    </Teacher>

    <Student>

        <Name Other="他是班长">ZhangSan</Name>

        <Age Details="The youngest boy in class">14</Age>

    </Student>

    <Student>

        <Name>LiSi</Name>

        <Age>19</Age>

        <Mobile>15578875040</Mobile>

    </Student>

</School>

4.谓语

/School/Student[1]:选取School下面的第一个Student节点

/School/Student[last()]:选取School下面的最后一个Student节点

/School/Student[last()-1]:选取School下面的倒数第二个Student节点

/School/Student[position()<3]:选取School下面的前两个节点

//Student[@score]:选取带有属性score的Student节点

//Student[@score="99"]:选取带有属性score并且属性值为99的Student节点

//Student[@score]/Age:选取带有属性score的Student节点的子节点Age

5.XPath中的一些操作

(1)|:或者

例如://Student[@score] | //Teacher:选取带有属性score的Student节点或者Teacher节点

(2)其余不常见的XPath运算符号包括+.-.*,div(除法的意思),>,<

二、源码

D31_2_GreedMatch.py

D32_1_School.xml

https://github.com/ruigege66/Python_learning/blob/master/D31_2_GreedMatch.py

https://github.com/ruigege66/Python_learning/blob/master/D32_1_School.xml

2.CSDN:https://blog.csdn.net/weixin_44630050(心悦君兮君不知-睿)

3.博客园:https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

Python连载50-贪婪匹配、XPath介绍的更多相关文章

  1. 第11.8节 Python正则表达式的重复匹配模式及元字符“?”、 “*”、 “+”功能介绍

    符号"?".""."+"这三个元字符修饰符在Python中都表示重复匹配的模式,即要求匹配的字符串满足重复次数的要求,但具体重复次数要求不同 ...

  2. Python第五章__模块介绍,常用内置模块

    Python第五章__模块介绍,常用内置模块 欢迎加入Linux_Python学习群  群号:478616847 目录: 模块与导入介绍 包的介绍 time &datetime模块 rando ...

  3. 简学Python第五章__模块介绍,常用内置模块

    Python第五章__模块介绍,常用内置模块 欢迎加入Linux_Python学习群  群号:478616847 目录: 模块与导入介绍 包的介绍 time &datetime模块 rando ...

  4. C#操作xml SelectNodes,SelectSingleNode总是返回NULL 与 xPath 介绍

    一. SelectNodes,SelectSingleNode总是返回NULL 下面以一个简单的xml为例: <?xml version="1.0"?> <mes ...

  5. Python 利用Python操作excel表格之openyxl介绍Part2

    利用Python操作excel表格之openyxl介绍 by:授客 QQ:1033553122 欢迎加入全国软件测试交流qq群(群号:7156436) ## 绘图 c = LineChart()    ...

  6. Python正则的贪婪和非贪婪示例

    贪婪匹配 import re info = """ saas12 [STREAM] codec_type=audio111 [/STREAM]-- [STREAM] co ...

  7. str.replace()和re.sub()/calendar.month_abbr/re.subn()/upper和lower和capitalize/贪婪匹配和费贪婪匹配/re.S和re.DOTALL 笔记

    str.replace()可以进行简单的替换 >>> a = 'one.txt, index.py, index.php, index.html, index.js' >> ...

  8. Python编程中 re正则表达式模块 介绍与使用教程

    Python编程中 re正则表达式模块 介绍与使用教程 一.前言: 这篇文章是因为昨天写了一篇 shell script 的文章,在文章中俺大量调用多媒体素材与网址引用.这样就会有一个问题就是:随着俺 ...

  9. 正则表达式 整理(\w \s \d 点 贪婪匹配 非贪婪匹配 * + ? {} | [] ^ $ \b 单词边界 分组、re.findall()、re.split()、re.search()、re.match()、re.compile()、re.sub())

    re.findall  匹配到正则表达式的字符,匹配到的每个字符存入一个列表,返回一个匹配到的所有字符列表 一. 匹配单个字符 import re # \w 匹配所有字母.数字.下划线 re.find ...

随机推荐

  1. Android使用ActivityLifecycleCallbacks管理Activity和区分App前后台

    一.ActivityLifecycleCallbacks接口介绍 官方地址:https://developer.android.com/reference/android/app/Applicatio ...

  2. linux 安装redis服务

    下载地址:http://redis.io/download,下载最新稳定版本. 本教程使用的最新文档版本为 2.8.17,下载并安装: $ wget http://download.redis.io/ ...

  3. 数据库事务系列-MySQL跨行事务模型

    说来和MySQL倒是有缘,毕业的第一份工作就被分配到了RDS团队,主要负责把MySQL弄到云上做成数据库服务.虽说整天和MySQL打交道,但说实话那段时间并没有很深入的理解MySQL内核,做的事情基本 ...

  4. 富文本编辑器 tinymce 的安装与使用

    百度的富文本编辑器大家都熟悉,那么下面给大家介绍一款富文本编辑器tinymce ,个人感觉比百度的界面好看,调用方便,就不知道各位大神怎么看咯! tinymce中文文档 以下是vue中使用示例,献上最 ...

  5. Jenkins学习安装配置和使用

    为了能够频繁地将软件的最新版本,及时.持续地交付给测试团队及质量控制团队,以供评审,所以引入持续集成工具Jenkins,从而实现公司新产品持续集成,自动化部署. 环境准备 ●操作系统:Windows1 ...

  6. MyBatis中@MapKey使用详解

    MyBatis中@MapKey使用详解我们在上一篇文章中讲到在Select返回类型中是返回Map时,是对方法中是否存在注解@MapKey,这个注解我也是第一次看到,当时我也以为是纯粹的返回单个数据对象 ...

  7. 利用Python进行数据分析-Pandas(第五部分-数据规整:聚合、合并和重塑)

    在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析.本部分关注可以聚合.合并.重塑数据的方法. 1.层次化索引 层次化索引(hierarchical indexing)是panda ...

  8. SpringCloud中Feign的适配器的实现方案

    前言 最近在做微服务的项目,各个系统之间需要进行调用,然后用一个适配器来实现服务之间的feign调用,使用适配器进行统一管理. 实现方案 首先我们需要将服务的名称进行单独的配置,可以方便的进行切换和扩 ...

  9. Java分布式系统---消息中间件

    简介 消息中间件也可以称消息队列,是指用高效可靠的消息传递机制进行与平台无关的数据交流,并基于数据通信来进行分布式系统的集成.通过提供消息传递和消息队列模型,可以在分布式环境下扩展进程的通信.当下主流 ...

  10. 踏实型的TOGAF企业架构学习者要学什么?

    下载:本文PDF版 昨天有帮友在IT帮大本营微信群了问到 我打开ea网站的常见问题,截图回复了一下 如果让我再简单说一下该学什么,我想用下面这张图来说明 实操型的看 企业架构,从理论到实践 认证型的看 ...