Python——正則表達式(2)

======================================================================================

3.使用正則表達式

如今。我们已经学习了一些简单的正則表達式，但我们应该怎么在Python中使用它们呢？re模块提供了一个连接正則表達式引擎的接口，同意你将RE编译成对象并利用它们进行匹配。

------------------------------------------------------------------------------------------------------------------------------------------------------

3.1．编译正則表達式

正則表達式被编译成模式对象，该对象拥有非常多方法来进行各种各样的操作，比方依照模式匹配查找或者运行字符串的替换。

>>> import re

>>> p = re.compile('ab*')

>>> p

re.compile('ab*')

re.compile()方法也能够接受一个可选flags參数，用于指定各种特殊功能和语法变更，我们将会在之后一一学习。如今我们看一个简单的样例：

>>> p = re.compile('ab*',re.IGNORECASE)

正則表達式作为一个字符串參数传递给re.compile()方法。因为正則表達式并非Python的核心部分，也没有特殊的语法去表示它们。所以仅仅能被作为字符串处理（有很多应用并不须要RE，所以没有必要把RE纳入Python的核心部分）。相反，正則表達式re模块仅作为C的扩展模块嵌入的Python中，就像socket或者zlib模块。

把正則表達式作为字符串也让Python更加简洁，可是也有一个缺点，下边我们就来谈一谈。

------------------------------------------------------------------------------------------------------------------------------------------------------

3.2．麻烦的反斜杠

就像上文描写叙述的。正則表達式使用反斜杠 \ 来使一些字符拥有特殊的意义（比方\s）或者去掉特殊字符的特殊意义(比方\*就是表示星号而没有特殊的意义)。这会与Python字符串中实现同样功能的字符发生冲突。

假如我们要写一个RE来匹配LaTeX文件里的一个字符串“\section”，首先你要先在程序代码中写出将要匹配的字符串。

接着。你须要在反斜杠以及其它元字符前面加上反斜杠以去掉它们的特殊含义。所以得到结果“\\section”，这个字符串将传递给re.compile()函数。然而，要知道Python字符串中的反斜杠也有特殊意义，所以要再次在两个反斜杠前面加上反斜杠。得到字符串“\\\\section”。

匹配字符串	匹配步骤
\section	将要匹配的字符串
\\section	正則表達式中用‘\\’表示‘\’
“\\\\section”	Python字符串中也用‘\\’表示‘\’

总之。要匹配一个反斜杠字符‘\’，你须要写四个反斜杠‘\\\\’作为一个正則表達式字符串，由于正則表達式必须为双斜杠 \\ ，而每一个反斜杠在Python字符串中也要用双斜杠‘\\’表示。

这就造成了我们须要反复非常多次反斜杠，也让最后的正則表達式字符串难于理解。

解决方法是使用Python中的原始字符串。所谓原始字符串。即在字符串最前面加上字母r。这样字符串中的反斜杠都会被去掉特殊语义，看做普通字符。比方，字符串 r”\n” 是包括‘\’和‘n’两个字符的字符串。而字符串 “\n” 是仅仅有一个换行符的字符串。正則表達式通常使用Python中的原始字符串来表示。

正則表達式字符串	原始字符串
“ab*”	r”ab*”
“\\\\section”	r”\\section”
“\\w+\\s+\\1”	r”\w+\s+\1”

------------------------------------------------------------------------------------------------------------------------------------------------------

3.3．运行匹配

将正則表達式编译之后会得到一个模式对象，那么你会用它做什么呢？模式对象包括很多方法和属性，我们在这里仅仅介绍最经常使用的几个。你能够通过查看re模块的文档来查看完整的列表。

方法/属性	功能
match()	推断一个正則表達式是否从開始处匹配一个字符串
search()	扫描一个字符串，找到正則表達式匹配的第一个位置
findall()	扫描一个字符串，找到匹配正則表達式的全部子字符串，并将它们以列表的形式返回
finditer()	扫描一个字符串，找到匹配正則表達式的全部子字符串，并将它们以迭代器的形式返回

假设没有找到匹配的字符串，match()和search()方法会返回None。

假设匹配成功，则会返回一个匹配对象，包括匹配的信息：起始位置和匹配的子字符串等等。

你能够在交互模式下使用re模块来学习这些内容。假设你能够使用tkinter。你能够看一下Tools/demo/redemo.py这个程序，这是随着Python公布的一个演示样例程序。它能够让你输入正則表達式和字符串，并输出两者是否匹配。当你測试一个复杂的正則表達式的时候。redemo.py是非常实用的。Phil Schwartz’s Kodos也是一个开发和測试正則表達式的一个非常实用的交互式工具。

我们使用标准Python解释器来解释这些样例。

首先，打开Python解释器，导入re模块。然后编译一个RE：

>>> import re

>>> p = re.compile('[a-z]+')

>>> p

re.compile('[a-z]+')

如今你能够利用正則表達式 [a-z]+ 来匹配各种字符串。可是一个空的字符串并不能被匹配，由于加号 + 表示反复1次以上，在这样的情况下，match()方法将会返回None。

另外，这个结果在解释器中不会输出。只是你能够明白地调用print()方法来输出这个结果。

>>> p.match('')

>>> print(p.match(''))

None

接着，让我们尝试一个它能够匹配的字符串。比方字符串“tempo”。

这样的情况下。match()方法将会返回一个匹配对象（match object），为了之后使用这个对象，你应该把这个结果保存在一个变量中。

>>> m = p.match('tempo')

>>> m

<_sre.SRE_Match object; span=(0, 5), match='tempo'>

如今你能够利用匹配对象查询匹配字符串的信息。

匹配对象实例也有一些方法和属性。这里列出最重要的几个：

方法/属性	功能
group()	返回匹配的字符串
start()	返回字符串匹配的開始位置
end()	返回字符串匹配的结束位置
span()	返回一个元祖表示匹配位置。(開始，结束)

尝试下面这些样例。你能够非常快理解这些方法：

>>> m.group()

'tempo'

>>> m.start(),m.end()

(0, 5)

>>> m.span()

(0, 5)

group()方法返回由RE.start()和RE.end()位置确定的子字符串。span()方法用一个元祖返回子字符串的開始位置和结束位置。但要注意的是。match()方法是推断正則表達式是否从開始处匹配字符串，所以start()方法总是返回0。

然而，search()方法就不一样了，它扫描整个字符串。匹配的子字符串的開始位置不一定是0。

>>> print(p.match(':::message'))

None

>>> m = p.search(':::message')

>>> print(m)

<_sre.SRE_Match object; span=(3, 10), match='message'>

>>> m.group()

'message'

>>> m.span()

(3, 10)

在实际的程序中，最经常使用的写法是将匹配对象存储在一个变量中，然后检查它是否为None。

就像下边这样：

p = re.compile(…)

m = p.match(‘string  goes  here’)

if m:

print(‘Match  found: ’ , m.group())

else:

    print(‘No  match’)

有两个方法能够返回全部匹配的子字符串。findall()方法返回全部匹配字符串的列表：

>>> p = re.compile('\d+')

>>> p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

['12', '11', '10']

findall()方法须要在它返回结果之前创建出整个列表。

可是finditer()方法将匹配对象作为迭代器返回（译者注：迭代器的方式更节省内存，效率更高）。

>>> iterator = p.finditer('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

>>> iterator

<callable_iterator object at 0x036A2110>

>>> for match in iterator:

	print(match.span())

(0, 2)

(22, 24)

(40, 42)

------------------------------------------------------------------------------------------------------------------------------------------------------

3.4．模块级别的函数

你并不须要去创建一个匹配对象来调用它的方法，re模块中也提供一些全局函数比方match()、search()、findadd()、sub()等等。这些函数的第一个參数是正則表達式字符串，其它參数跟模式对象同名的方法採用一样的參数，返回值也一样。都是返回None或者匹配对象。

>>> print(re.match(r'From\s+','Fromage amk'))

None

>>> print(re.match(r'From\S+','Fromage amk'))

<_sre.SRE_Match object; span=(0, 7), match='Fromage'>

>>> print(re.match(r'From\S+','Fromage amk').group())

Fromage

>>> re.match(r'From\s+','From amk Thu May 14 19:12:10 1998')

<_sre.SRE_Match object; span=(0, 5), match='From '>

事实上，这些函数仅仅是简单地为你创建了一个模式对象，而且能够调用其相关函数。另外。它将编译好的模式对象存放在缓存中，所以假设之后你使用了同样的正則表達式，就不用了再次创建模式了。能够实现高速调用。

那么你应该使用这些模块级别的函数呢？还是应该先编译得到自己模式对象再调用它的方法呢？假设你要在一个循环中使用正則表達式。提前编译它能够节省函数的调用。

但在循环外部，因为内部缓冲机制。两者的效率不差上下。

------------------------------------------------------------------------------------------------------------------------------------------------------

3.5．编译标志

编译标志能够让你在一些方面改变正則表達式的工作方法。编译标志在re模块中有两个可用名称：全称和简写。比方IGNORECASE的简写是字母I(假设熟悉Perl语言的模式编写，你会知道Perl语言的简写和这个一样，比方re.VERBOSE和简写是re.X)。

多个编译标志能够通过逻辑或连接起来。比方re.I | re.M 设置了I和M两个标志。

下表列出了一些可用的编译标志：

编译标志	含义
ASCII。A	使得转义符号如\w，\b，\s和\d仅仅匹配ASCII字符
DOTALL，S	使得点号 . 能够匹配不论什么符号，包含换行符
IGNORECASE。I	匹配不区分大写和小写
LOCALE，L	支持当前的语言（区域）设置
MULTILINE，M	多行匹配，会影响^和$
VERBOSE。X(for ‘extended’)	启用具体的正則表達式

I

IGNORECASE

匹配不区分大写和小写；使得字符类和文本字符串在匹配字符的时候不区分大写和小写。比如，[A-Z]也会匹配小写字母。Spam会匹配Spam、spam和spAM。假设你不设置LOCALE标志，则不会考虑语言（区域）设置方法的问题。

L

LOCALE

使得\w、\W、\b和\B取决于当前的语言环境，而不是Unicode数据库。

区域设置是C语言库的一个功能，主要为了在编敲代码的时候考虑语言的差异性。比方，假设你正在处理一个法文文本。你想要写 \w+ 来匹配单词。可是 \w 仅仅匹配出如今字符类[a-zA-Z]中的单词，它不会匹配 'é' 或者 'ç’ ，假设你的系统被设置为法语语言环境，那么C语言函数将会觉得 'é' 也是一个字母。当编译正則表達式的时候设置了LOCALE标志。\w 就能够识别法文了。可是它的速度相对要慢一点。

M

MULTILINE

（^和$我们还没有提到。它们将在后面解说）

通常的，^仅仅匹配字符串的开头，而$仅仅匹配字符串的结尾，当这个标志设置的时候，元字符^将会匹配字符串中每一行的的行首，而类似的，元字符$将会匹配每一行的行尾。

S

DOTALL

使得点号‘.’匹配全部的字符。包含换行符。

假设不设置这个标志，点号‘.’将匹配除了换行符之外的全部字符。

A

ASCII

使得\w、\w、\b、\B和\S值匹配ASCII字符，而不是Unicode字符。这个标志仅对Unicode模式有意义，并忽略字节模式。

X

VERBOSE

这个标志能够让你组织正則表達式更具灵活性。从而写的正則表達式更具有可读性。假设设置了这个标志，正則表達式中的空格将会被忽略，当然这里不包含字符类中的空格。也不包含被反斜杠转义的空格，这会让你更清晰地去组织正則表達式。

另外。这个标志也同意在正則表達式式中使用凝视，井号 # 以及之后的字符将会被正則表達式忽略，除非井号 # 在字符类中或者经过了反斜杠转义。

以下看一个使用re.VERBOSE的样例：

>>> charref = re.compile(r'''

&[#]                   #開始数字引用

(

	0[0-7]+         #八进制格式

       |[0-9]+          #十进制格式

       |x[0-9a-fA-F]+     #十六进制格式

)

;                      #结尾分号

''',re.VERBOSE)

假设不用VERBOSE设置。这个正則表達式将会是以下这个格式：

>>> charref = re.compile('&[#](0[0-7]+'

		         '|[0-9]+'

		         '|x[0-9a-fA-F]+);')

在上述的样例中。我们使用了Python自己主动串联字符串的功能，从而将正則表達式分成了几个更小的部分。可是它依然没有使用re.VERBOSE版本号的RE好理解。

Python——正則表達式(2)的更多相关文章

Python正則表達式小结(1)
学习一段python正則表達式了, 对match.search.findall.finditer等函数作一小结以下以一段网页为例,用python正則表達式作一个范例: strHtml = '''& ...
Python正則表達式
Python正則表達式正則表達式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本号起添加了re 模块,它提供 Perl 风格的正則表達式模式. r ...
Python正則表達式：怎样使用正則表達式
正則表達式(简称RE)本质上能够看作一个小的.高度专业化的编程语言,在Python中能够通过re模块使用它.使用正則表達式,你须要为想要匹配的字符串集合指定一套规则,字符串集合能够包括英文句子.e-m ...
python 正則表達式推断邮箱格式是否正确
import re def validateEmail(email): if len(email) > 7: if re.match("^.+\\@(\\[?) ...
python 学习笔记 10 -- 正則表達式
零.引言在<Dive into Python>(深入python)中,第七章介绍正則表達式,开篇非常好的引出了正則表達式,以下借用一下:我们都知道python中字符串也有比較简单的方法, ...
python使用正則表達式
python中使用正則表達式 1. 匹配字符正則表達式中的元字符有 . ^ $ * + ? { } [ ] \ | ( ) 匹配字符用的模式有 \d 匹配随意数字 \D 匹配随意非 ...
python进阶十_正則表達式(一)
近期状态一直不太好,至于原因,怎么说呢,不好说,总之就是纠结中覆盖着纠结,心思全然不在点上,希望能够借助Python的学习以及博客的撰写来调整回来,有的时候回头想一想,假设真的是我自己的问题呢,曾经我 ...
python re 正則表達式
夜深了.敲击键盘.用CSDN整理下python re 正則表達式是含有文本和特别字符的字符串,这些文本和特别字符描写叙述的模式能够识别各种字符串. 一下我们从实例结合理论来学习理解吧... 经常使 ...
正則表達式re中的贪心算法和非贪心算法在python中的应用
之前写了一篇有关正則表達式的文章.主要是介绍了正則表達式中通配符转义字符字符集选择符和子模式可选项和反复子模式字符串的開始和结尾 ,有兴趣的能够查看博客内容. 此文章主要内容将要介绍re中的 ...

随机推荐

windows下升级pip失败，重新安装pip最新版本
环境: python3.6.5 32bit,后改为python3.4.3 32bit pycharm2018旗舰版问题: pycharm里的pip一直无法升级到10.0.1版本,在cmd中使用升级命 ...
nrf52810学习笔记——三
在开发nRF52系列的蓝牙方案的时候,会用到IDE.SDK.softdevice.nrfgoStudio等开发软件,这里做一个小小的总结. 首先,下载SDK,里面有适合keil4号iar7(iar8也 ...
CodeForces：699B-One Bomb
B. One Bomb time limit per test1 second memory limit per test256 megabytes Problem Description You a ...
vim 第三章插入模式
vim 第三章插入模式在普通模式下可以删除复制及粘贴的命令在插入模式下也存在以中方便快捷的方式能够粘贴寄存器中文本两种方式来插入键盘上不存在的非常用字符替换模式 ...
【Luogu】P2831愤怒的小鸟（手算抛物线+状压DP）
题目链接设f[s]表示二进制集合表示下的s集合都打掉用了多少小鸟. 预处理出lne[i][j]表示i.j确定的抛物线能打掉的小鸟集合. 于是就有f[s|lne[i][j]]=min(f[s|lne[ ...
BZOJ 3998 [TJOI2015]弦论 ——后缀自动机
直接构建后缀自动机. 然后. 然后只需要再后缀自动机的go树上类似二分的方法进行查找即可,实际上是“26分”. 然后遇到了处理right集合的问题,然后觉得在go和parent树上上传都是可以的,毕竟 ...
SHOWMODALDIALOG表单提交时禁止打开新窗口
前提条件:showmodaldialog中有表单form.当action="#"的时候,提交表单,不会打开新窗口,但这种#自提有时不能用,#是本页面完整的带参数的url,如果表单中 ...
Autorelease对象什么时候释放？
Autorelease机制是iOS开发者管理对象内存的好伙伴,MRC中,调用[obj autorelease]来延迟内存的释放是一件简单自然的事,ARC下,我们甚至可以完全不知道Autorelease ...
大数（bzoj 4542）
/* 想了半天莫队,不知道咋转移,需要动下脑子. 有一个很显然的结论是如果(l,r)是P的倍数,那么s[l...n]%P=s[r+1...n]%P. 根据这个东西,我们预处理出所有的后缀%P的余数,接 ...
Mysql字符集与校对规则
字符集是一套字符和编码的集合,校对规则是用于比较字符集的一套规则. 所以字符集有两部分组成字符集合和对应的编码集合.比如说,现在有这几个字符:A B a b, 假设它们对应的编码分别是00, 01, ...

Python——正則表達式(2)

Python——正則表達式(2)的更多相关文章

随机推荐

热门专题