正则表达式的章节到此就结束了,老猿现在觉得对我们这些身具程序猿基因特色的人来说,正则表达式应该是蛮可口的开胃小菜. 在写标题时,本来想写"正则表达式小结",后来想了想,百度了一下,牵强附会用了这个标题.不解释了! 在写Python正则表达式re处理模块之前,老猿其实是心存畏难情绪.摇摆了几次,到底自己要学习到什么程度.又要写到什么程度,才开始想写一个单章.后来想合并到一个老猿构想的<基础篇结束章节>中的一个节.再后来又想暂时先不写以后到中级课程内再写.最后决定分概念.模块.…
一. 什么是组 关于组匹配模式,Python官网上说得比较简单,也没有这个名词,只有组这个名词,老猿查了比较多的资料和做了相关测试之后才理解. 组匹配模式,就是在匹配的正则表达式中使用小括号"()"括起来的任意一个合法的匹配模式串,左括号标记组的起点,右括号标记组的终点,即组匹配模式定义为: (组匹配模式串) 其中组匹配模式串是整个正则表达式的一个子匹配模式.在一个正则表达式内可以定义多个组,每个组都有一个顺序分配的序号(组还可以命名),其中组0为整个正则表达式,组1为第一个括号,组2…
一. 引言 在<第11.16节 Python正则元字符"()"(小括号)与组(group)匹配模式>中老猿介绍了组匹配模式的命名组功能及引用组功能,这两者都是组模式的扩展功能,其实在re模块中组模式的扩展功能非常多,所有组模式的扩展功能,都是在组定义的左括号后面跟问号"?"来表示,具体扩展功能是要看问号后面的字符来确认,如"P"表示组名相关扩展. 下面介绍组匹配模式扩展功能的前视断言和前视取反,本节继本章后面介绍的扩展功能中组的括号内…
匹配对象是Python中re模块正则表达式匹配处理的返回结果,用于存放匹配的情况.老猿认为匹配对象更多的应该是与组匹配模式的功能对应的,只是没有使用组匹配模式的正则表达式整体作为组0. 为了说明下面的属性和方法,以如下命名组匹配模式串和搜索文本作为例子来介绍: >>> pattern='<h1 class="name">(?P<name>.*)</h1><h1 class="age">(?P<a…
一. 引言 在<第11.16节 Python正则元字符"()"(小括号)与组(group)匹配模式>介绍了组匹配模式,在一个正则表达式内可以定义多个组,每个组都有一个顺序分配的序号,并且在代表匹配结果的匹配对象中能通过组序号去访问每个组的匹配结果.除了这种组序号访问方式之外,re模块还支持在匹配模式串中给组命名,并通过组名去访问组相关匹配数据,这就是正则表达式处理的命名组功能. 二. 语法 组命名的语法是在组匹配模式基础上扩展的,是在组的括号起始部分增加"?P&l…
一. 引言 在前面<第11.13节 Python正则表达式的转义符"\"功能介绍>介绍了正则表达式转义符'\',只不过当时作为转义符主要是用于在正则表达式中表示元字符自身的需要进行的转义.实际上,除了元字符使用转义符外,Python还支持由'\'和一个ASCII数字或ASCII字母字符组成的特殊序列,这些特殊代表特殊的含义. 如果'\'后面跟的字符不是ASCII数字或者ASCII字母,那么正则样式将直接匹配后面跟的字符,如'\$' 匹配字符 '$'. 二. 特殊序列 \nu…
一. 引言 在<第11.2节 Python 正则表达式支持函数概览>介绍了re模块的主要函数,在<第11.3节 Python正则表达式搜索支持函数search.match.fullmatch.findall.finditer>重点介绍了几个搜索函数.这些介绍的搜索函数都是直接使用正则表达式去匹配搜索文本,实际上re模块还支持将正则表达式先编译再搜索匹配,这种先编译后搜索在同一个正则表达式多次去执行匹配时可以提高匹配执行效率. 二. re.compile函数 语法:compile(p…
一. 引言 在<第11.17节 Python 正则表达式扩展功能:命名组功能及组的反向引用>中老猿介绍了组匹配模式的命名组功能及引用组功能,这两者都是正则表达式的扩展功能,其实在re模块中正则表达式的扩展功能非常多,所有扩展功能都是在左括号后面跟问号"?"来表示,具体扩展功能是要看问号后面的字符来确认,如"P"表示组名相关扩展. 下面老猿将未介绍的主要正则表达式扩展功能在本节进行介绍,下面介绍的扩展功能中的"-"都表示一个合法的子模式…
符号"^"为插入符,也称为脱字符,在Python中脱字符表示匹配字符串的开头,即字符串的开头满足匹配模式的要求.这个功能有点类似搜索函数match,只是这是通过搜索模式来指定,而match是通过函数来指定. 在 MULTILINE 模式(搜索标记中包含re.MULTILINE,关于搜索标记的含义请见<第11.2节 Python re模块函数概览>)下,本匹配模式是按行來搜索的,即只要多行文本中存在有搜索模式指定的字符串开头的行,也被认为是搜索到了指定串.而match不具备此…
在re模块中,任意字符匹配使用"."(点)来表示, 在默认模式下,点匹配除了换行的任意字符.如果指定了搜索标记re.DOTALL ,它将匹配包括换行符的任意字符.关于搜索标记的含义请见<第11.2节 Python re模块函数概览>. 注意: 1. 一个点只能匹配一个字符: 2. 点在字符集中仅匹配自身,不能匹配任意字符. 案例: >>> re.search("...txt",'Ab2019.txt') <re.Match obj…
为了支持特殊元字符在特定场景下能表示自身而不会被当成元字符进行匹配出来,可以通过字符集或转义符表示方法来表示,字符集表示方法前面在<第11.4节 Python正则表达式搜索字符集匹配功能及元字符"[]"介绍>进行了介绍,本节介绍转义符表示方法. 在re模块中,为了让元字符能表示自身,可以在元字符前面增加转义符反斜杠"\",这个转义符的使用可以看到与Python字符串的转义符是完全相同的.re模块转义符和Python字符串转义符相同会导致在re模块进行转义…
符号"$"表示匹配字符串的结尾,即字符串的结尾满足匹配模式的要求. 在 MULTILINE 模式(搜索标记中包含re.MULTILINE,关于搜索标记的含义请见<第11.2节 Python re模块函数概览>)下,本匹配模式是按行來搜索的,即只要多行文本中存在有搜索模式指定的字符串结尾的行,也被认为是搜索到了指定串. 注意: 1.'$'在匹配模式中必须为最后一个字符,不在最后一个字符位置则无效: 2.'$'在字符集中仅匹配自身: 3.匹配字符串结尾时是不含换行符的,即换行符…
一. 引言 在<第11.3节 Python正则表达式搜索支持函数search.match.fullmatch.findall.finditer>重点介绍了几个搜索函数,除了搜索,re模块也提供搜索并替换功能,这个就是re模块的sub函数. 二. 语法释义 调用语法: re.sub(pattern, repl, string, count=0, flags=0) re.subn(pattern, repl, string, count=0, flags=0) 参数: 1)pattern:匹配的正…
一. 引言 在<第11.2节 Python 正则表达式支持函数概览>介绍了re模块的主要函数,在<第11.3节 Python正则表达式搜索支持函数search.match.fullmatch.findall.finditer>重点介绍了几个搜索函数,后续章节将介绍re模块的其他函数,本节先介绍re.split函数的功能. 二. 语法释义 调用语法: re.split(pattern, string, maxsplit=0, flags=0) 参数及返回结果释义: 1)这个函数的功能…
一. 引言 在<第11.19节 Python 中正则表达式的扩展功能:前视断言和前视取反>中老猿介绍了前视断言和前视取反,与二者对应的还有后视断言和后视取反. 二. (?<=-)后视断言(lookbehind assertion) 后视断言又称为正向后视断言.后视断定.后行断言等,与前视断言功能类似,只是前视断言是找匹配串的右边要与前视断言指定的模式匹配,而后视断言是找匹配串的左边要与后视断言指定的模式匹配. 语法:(?<=-),其中-为一个子正则表达式 例子: 要使用后视断言查找…
在<第11.9节 Pytho正则表达式的贪婪模式和非贪婪模式>老猿简单介绍了贪婪模式和非贪婪模式,并说明'', '+',和 '?' 修饰符都是 贪婪的:它们在字符串进行尽可能多的匹配.有时候并不需要这种行为,只希望匹配到一个就可以,如 希望找到'<a> b <c>'中满足"<.>"匹配条件的结果为"<a>",这就是非贪婪模式.在修饰符'', '+',和 '?' 之后添加 '?' 将使匹配模式以 非贪婪进行匹…
在使用正则表达式时,匹配算法存在贪婪模式和非贪婪模式两种模式,在<第11.8节 Pytho正则表达式的重复匹配模式及元字符"?". "*". "+"功能介绍>中的重复匹配模式就是贪婪模式. 什么是贪婪模式呢?就是匹配的时候,在整体匹配的情况下最大可能多的匹配最多的字符.非贪婪模式就是只要在字符串从左往右匹配模式串成功即停止匹配.如模式串"<.*>" 在匹配 字符串'<a> b <c&g…
上节详细介绍了利用@property装饰器定义属性的语法,本节通过具体案例来进一步说明. 一.    案例说明 本节的案例是定义Rectangle(长方形)类,为了说明问题,除构造函数外,其他方法都只定义了长度属性的操作.包括三个完整的装饰器,如果大家想试一下少一个操作方法的装饰器,可以直接把对应装饰器去除即可. 二.    案例代码 1.    定义类Rectangle class Rectangle():     def __init__(self,length,width): self.w…
一. 引言 在<第7.23节 Python使用property函数定义属性简化属性访问的代码实现>和<第7.26节 Python中的@property装饰器定义属性访问方法getter.setter.deleter 详解>中介绍了两种设置属性访问方法,通过设置可以在相关属性访问时调用对应的方法执行访问,支持属性简单访问(如对象名.属性名.赋值语句).或者为了控制访问逻辑使用的.那么property函数其中的fget.@property装饰器的getter之间的关系是怎样的呢?下面我…
为了大家熟悉re模块匹配文本的处理,本节将概要介绍与此处理有关的几个主要函数,提供了如下主要函数: 以上函数中的部分的三个重要参数说明如下: pattern都是代表匹配规则的模式字符串,string代表要搜索的文本: flags搜索标记(也称为搜索标签)是匹配的一些其他限定,值可以是以下任意常量,可以通过位的OR操作( |操作符)来组合使用: 1)re.A.re.ASCII:二者含义相同,对应数值256,表示让 \w, \W, \b, \B, \d, \D, \s 和 \S 只匹配ASCII,而…
Python正则表达式字符集匹配表示是指搜索一个字符,该字符在给定的一个字符的集合中.元字符'['和']'是用于组合起来定义匹配字符集,匹配模式中使用 '['开头,并使用']'结尾来穷举搜索的字符可能出现的集合,注意一个字符集仅用于匹配一个字符,当要字符集匹配多个字符时可以通过定义多个字符集或字符集重复的模式来定义匹配模式. 字符集中的字符可以穷举列出允许的所有字符,也可以通过给出两个起始和终止字符并在中间用 连字符'-' 标记将它们分开,表示从起始字符到终止字符的一系列字符,这一系列字符包含起…
正则表达式是可匹配文本片段的模式,一个正则表达式指定了一个与之匹配的字符串集合.最简单的正则表达式为普通字符串,与它自己匹配.如正则表达式'python'与字符串'python'匹配.通过匹配,可以在文本中查找模式对应的字符串,或将满足特定模式的字符串替换为新的字符串,以及将文本分割成片段. 正则表达式包含普通或者特殊字符,普通字符匹配自身,这是正则表达式的一种匹配模式:字符匹配,而特殊字符一般不匹配自身,如果要匹配自身需要用转义符转义表示匹配自身而不是作为特殊规则.re模块包括的特殊字符包括:…
注意pattern字符串前要加r    原始字符串 元字符 .                匹配除换行的任意字符 ^            匹配开头 $            匹配结尾 表示重复         星号      匹配0-多次         +           匹配1到多次          ?            匹配0次或1次         {m,n}            匹配m次至n次                后面跟一个?表示非贪婪匹配 [ab]     …
一. 概述 re模块的函数search.match.fullmatch.findall.finditer都是用于搜索文本中是否包含指定模式的串,函数的参数都是一样的,第一个参数是模式串.第二个是搜索文本.第三个是搜索标记,但在功能上有区别,下面分别介绍这几个函数的功能. 二. re. search函数 search扫描整个 搜索文本 找到模式串对应匹配样式的第一个位置,如果找到则返回一个相应的 匹配对象,否则返回None.关于匹配对象请参考<>: 案例: print("发现了匹配字符…
re模块支持多个正则表达式使用"|"(逻辑或)模式来组合,扫描目标字符串时, '|' 分隔开的正则表达式组合从左到右进行匹配,只要其中一个匹配成功就认为该组合匹配成功,不再进行组合内后续表达式的匹配,可见'|' 操作符绝不贪婪. 如果要匹配 '|' 字符,使用转义符或字符集来表示,即"\|"或"[|]",这样就是匹配 '|' 字符自身,不作为特殊字符处理. 案例: >>> re.search(r'DIV|div|Div',r'1…
符号"?".""."+"这三个元字符修饰符在Python中都表示重复匹配的模式,即要求匹配的字符串满足重复次数的要求,但具体重复次数要求不同,其中: "?":表示重复0-1次,即匹配字符串可以不出现或最多出现一次,如ab? 会匹配 'a' 或者 'ab': "":表示重复0-n次,即匹配字符串可以不出现或出现多次,最多次数不受限,ab* 会匹配 'a', 'ab', 或者 'a'后面跟随任意个'b': &q…
正则表达式从左到右进行计算,并遵循优先级顺序,相关运算符的优先级顺序按下表从高到低排列. 例如:字符具有高于替换运算符的优先级,使得"m|food"匹配"m"或"food".若要匹配"mood"或"food",请使用括号创建子表达式,从而产生"(m|f)ood". 注意:重复修饰符 :, +, ?, {m,n} 等优先级相同, 不能直接嵌套.这样避免了非贪婪后缀 ? 修饰符,和其他实现中…
一. re.compile函数 正则表达式编译函数,在后面章节专门介绍. 二. re.escape(pattern) re.escape是一个工具函数,用于对字符串pattern中所有可能被视为正则表达式运算符的字符进行转义.使用这个函数的情况有:字符串很长,其中包含大量特殊字符,而你不想输入大量的反斜杠:从用户那里获取了一个字符串(例如,通过函数input),想将其用于正则表达式中,此时对特殊字符的位置是不可预知的,调用re.escape就可以解决这些不可预知的状况.但如果pattern中已经…
在<第11.8节 Pytho正则表达式的重复匹配模式及元字符"?". "". "+"功能介绍>和<第11.10节 Pytho正则表达式的非贪婪模式的重复匹配:'?', '+?',和 '??' >中介绍了''.'?'.'+'.'+?'. '?'. '??'是重复匹配,包括:0-1次.0-n次.1-n次,在Python中还可以通过元字符描述符"{}"(大括号)指定重复的最大次数和最小次数.语法如下: {m}…
一. 引言 在<第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问>介绍了BeautifulSoup对象的主要属性,通过这些属性可以访问标签.内容,但这种方法要么就只能访问符合条件的第一个对象,要么需要遍历访问对象,某些情况下不能通过指定特征快速定位标签和内容.本节将介绍使用BeautifulSoup提供的相关方法快速定位标签和内容的方法.本节继续复用<第14.10节 Python中使用BeautifulSoup解析http报文:ht…