python正则中的贪婪与非贪婪

当重复一个正则表达式时，如用 a*，操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符，如 HTML 标志中的尖括号。匹配单个 HTML 标志的模式不能正常工作，因为 .* 的本质是“贪婪”的

>>> s = '<html><head><title>Title</title>'
>>> len(s)
32
>>> print re.match('<.*>', s).span()
(0, 32)
>>> print re.match('<.*>', s).group()
<html><head><title>Title</title>
RE 在 "<html>" 中匹配 "<"，.* 会消耗掉字符串的剩余部分。RE 中保持更多的向左匹配，不能在字符串结尾匹配“>”，因此正则表达式必须一个字符一个字符地回溯，直到它找到 > 的匹配。最终的匹配从 "<html" 中的 "<" 到 "</title>" 中的 ">",这变成了全文匹配，并不是你想要的结果。

在这种情况下，解决方案是使用不贪婪的限定符 *?、+?、?? 或 {m,n}?，尽可能匹配小的文本。在上面的例子里，在第一个 "<" 之后立即尝试匹配 ">"，当它失败时，引擎一次增加一个字符，并在每步重试匹配">"。这个处理将得到正确的结果：

>>> print re.match('<.*?>', s).group()
<html>

注意一下比较：

>>> re.findall(r"a(\d+?)", "a23b")
['2']
>>> re.findall(r"a(\d+)", "a23b")
['23']

---------------比较一下两者的不同------------------------

>>> re.findall(r"a(\d+)b", "a23b")
['23']
>>> re.findall(r"a(\d+?)b", "a23b")
['23']

有时使用贪婪模式匹配网页代码时，会出现卡机情况，比如用这个语句：

sty_scr_tag = re.compile('(<style.*?[^>]*>.*?([\S\s]+)<\/style>)|(<script.*?[^>]*>.*?<\/script>)|(<script.*?[^>]*>.*?([\S\s]+?)<\/script>)',re.M)
content = sty_scr_tag.sub('', content)

去匹配baike.baidu.com这个网页，你会发现编译器一直卡在那里不会动，但当语句变成这个：

sty_scr_tag = re.compile('(<style.*?[^>]*>.*?<\/style>)|(<script.*?[^>]*>.*?<\/script>)|(<script.*?[^>]*>.*?([\S\s]+?)<\/script>)',re.M)
content = sty_scr_tag.sub('', content)

时，就可以了

python正则中的贪婪与非贪婪的更多相关文章

python中贪婪与非贪婪
Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符: 非贪婪则相反,总是尝试匹配尽可能少的字符. 在"*","?", ...
python基础：re模块匹配时贪婪和非贪婪模式
python贪婪和非贪婪正则表达式通常用于在文本中查找匹配的字符串.Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符:非贪婪则相反,总是尝试匹配尽可能少 ...
python正则表达式贪婪与非贪婪模式
之前做程序的时候看到过正则表达式的贪婪与非贪婪模式,今天用的时候就想不起来了,现在这里总结一下,以备自己以后用到注意. 1.什么是正则表达式的贪婪与非贪婪匹配如:String str="a ...
Python正则的贪婪和非贪婪示例
贪婪匹配 import re info = """ saas12 [STREAM] codec_type=audio111 [/STREAM]-- [STREAM] co ...
js正则中的贪婪和非贪婪模式问题总结
var b="abeeee:eeeee:eeeeeab"; console.log(b.match(/e+\:e+/g));//["eeee:eeeee"]贪婪 ...
python正则匹配次数，贪婪和非贪婪
贪婪模式 {m,n}表示匹配子串的次数>=m and <=n,再此分为内匹配次数尽可能的多贪婪模式 {,n}表示 >=0 and <=n 贪婪模式 {m,} 表示> ...
python 贪婪和非贪婪模式
这样的正则表达式: r'\*(.+)\*' 如果想要匹配*something*这样的一个串按道理说是没问题的但是如果文本是*this* is *something* 那么我们的正则表达式就会采取贪 ...
正则表达式整理(\w \s \d 点贪婪匹配非贪婪匹配 * + ? {} | [] ^ $ \b 单词边界分组、re.findall()、re.split()、re.search()、re.match()、re.compile()、re.sub())
re.findall 匹配到正则表达式的字符,匹配到的每个字符存入一个列表,返回一个匹配到的所有字符列表一. 匹配单个字符 import re # \w 匹配所有字母.数字.下划线 re.find ...
python正则中如何匹配汉字以及encode(‘utf-8’)和decode(‘utf-8’)的互转
正则表达式: [\u2E80-\u9FFF]+$ 匹配所有东亚区的语言 [\u4E00-\u9FFF]+$ 匹配简体和繁体 [\u4E00-\u9FA5]+$ 匹配简体 <input ty ...

随机推荐

解决面试问题中的top k问题 Leetcode
https://leetcode.com/problems/kth-largest-element-in-an-array/ 使用堆,堆插入一个数据是logk,删除一个数据是logk,复杂度为logk ...
javascript基础方法函数闭包集合
定义类 ,实例化对象类 ,调用为类对象增加数据成员 --
DS作业06-图
1.本周学习总结(0--2分) 1.1思维导图 1.2谈谈你对图结构的认识及学习体会. 图这一章的学习,是经过树学习后,难得一章重新寻找到感觉的学习.因为这一章比较少用递归,使用的是结构体,很多东西我 ...
【Luogu】P3521ROT-Tree Rotations（线段树合并）
题目链接神奇的线段树合并qwq 不过就思路而言很好想…… 观察到一棵树无论怎么交换两棵左右子树,子树内部的最优逆序对并没影响……决策只影响左右子树之间的逆序对…… 于是线段树合并直接乱搞就好啦 ...
解决ul的li横向排列换行的问题
1. 问题现象先看下面的html结构: <div> <ul> <li><img src='./img/1.jpg'></li> <l ...
C语言第三题
1.完成char *p,char *q 的字符串比较,相等返回1,错误返回-1 2.用户需要计算的2个20位数数字的加法,写程序实现让用户输入两个20位以上的数字并且相加,输出结果
sharpwebmail邮件管理系统开源下载及使用方法
原文发布时间为:2008-11-16 -- 来源于本人的百度文章 [由搬家工具导入] 网址：http://sourceforge.net/projects/sharpwebmail/ 点击后：点击do ...
one day php. alomost all;
<? namespace Test; use \PhpProject\PhpApp as Other; $u=new Other("ns test"); echo $u-&g ...
bq25896 charging status CHRG_STAT register 0xB
condition 1 : adapter 全部電流往 system去, battery current 也往 system ...
upper_bound()和lower_bound()
ForwardIter lower_bound(ForwardIter first, ForwardIter last,const _Tp& val)算法返回一个非递减序列[first, la ...

python正则中的贪婪与非贪婪

python正则中的贪婪与非贪婪的更多相关文章

随机推荐

热门专题