摘自:python中的正则表达式(re模块)

一、简介

正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。

二、正则表达式中常用的字符含义

1、普通字符和11个元字符:

普通字符
匹配自身
abc
abc
.
匹配任意除换行符"\n"外的字符(在DOTALL模式中也能匹配换行符
a.c
abc
\
转义字符,使后一个字符改变原来的意思
a\.c;a\\c
a.c;a\c
*
匹配前一个字符0或多次
abc*
ab;abccc
+
匹配前一个字符1次或无限次
abc+
abc;abccc
?
匹配一个字符0次或1次
abc?
ab;abc
^
匹配字符串开头。在多行模式中匹配每一行的开头 ^abc
abc
$
匹配字符串末尾,在多行模式中匹配每一行的末尾 abc$
abc
| 或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式
abc|def
abc
def
{} {m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次
ab{1,2}c
abc
abbc
[]
字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。
所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。
a[bcd]e
abe
ace
ade
 
()
被括起来的表达式将作为分组,从表达式左边开始没遇到一个分组的左括号“(”,编号+1.
分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。
(abc){2}
a(123|456)c
abcabc
a456c

这里需要强调一下反斜杠\的作用:

  • 反斜杠后边跟元字符去除特殊功能;(即将特殊字符转义成普通字符)
  • 反斜杠后边跟普通字符实现特殊功能;(即预定义字符)
  • 引用序号对应的字组所匹配的字符串。
  1. a=re.search(r'(tina)(fei)haha\2','tinafeihahafei tinafeihahatina').group()
  2. print(a)
  3. 结果:
  4. tinafeihahafei

2、预定义字符集(可以写在字符集[...]中) 

\d
数字:[0-9]
a\bc
a1c
\D
非数字:[^\d]
a\Dc
abc
\s
匹配任何空白字符:[<空格>\t\r\n\f\v]
a\sc
a c
\S 非空白字符:[^\s]
a\Sc
abc
\w
匹配包括下划线在内的任何字字符:[A-Za-z0-9_]
a\wc
abc
\W
匹配非字母字符,即匹配特殊字符
a\Wc
a c
\A
仅匹配字符串开头,同^ \Aabc
abc
\Z
仅匹配字符串结尾,同$
abc\Z
abc
\b
匹配\w和\W之间,即匹配单词边界匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 \babc\b
a\b!bc
空格abc空格
a!bc
\B
[^\b]
a\Bbc
abc
  1. 这里需要强调一下\b的单词边界的理解:
    w = re.findall('\btina','tian tinaaaa')
  2. print(w)
  3. s = re.findall(r'\btina','tian tinaaaa')
  4. print(s)
  5. v = re.findall(r'\btina','tian#tinaaaa')
  6. print(v)
  7. a = re.findall(r'\btina\b','tian#tina@aaa')
  8. print(a)
  9. 执行结果如下:
  10. []
  11. ['tina']
  12. ['tina']
  13. ['tina']

3、特殊分组用法:

(?P<name>)
分组,除了原有的编号外再指定一个额外的别名 (?P<id>abc){2}
abcabc
(?P=name)
引用别名为<name>的分组匹配到字符串 (?P<id>\d)abc(?P=id)
1abc1
5abc5
\<number>
引用编号为<number>的分组匹配到字符串 (\d)abc\1
1abc1
5abc5

三、re模块中常用功能函数

1、compile()

编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率。)

格式:

re.compile(pattern,flags=0)

pattern: 编译时用的表达式字符串。

flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等。常用的flags有:

标志
含义
re.S(DOTALL)
使.匹配包括换行在内的所有字符
re.I(IGNORECASE)
使匹配对大小写不敏感
re.L(LOCALE)
做本地化识别(locale-aware)匹配,法语等
re.M(MULTILINE)
多行匹配,影响^和$
re.X(VERBOSE)
该标志通过给予更灵活的格式以便将正则表达式写得更易于理解
re.U
根据Unicode字符集解析字符,这个标志影响\w,\W,\b,\B
  1. import re
  2. tt = "Tina is a good girl, she is cool, clever, and so on..."
  3. rr = re.compile(r'\w*oo\w*')
  4. print(rr.findall(tt)) #查找所有包含'oo'的单词
  5. 执行结果如下:
  6. ['good', 'cool']

2、match()

决定RE是否在字符串刚开始的位置匹配。//注:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符'$'

格式:

re.match(pattern, string, flags=0)

  1. print(re.match('com','comwww.runcomoob').group())
  2. print(re.match('com','Comwww.runcomoob',re.I).group())
  3. 执行结果如下:
  4. com
  5. com

3、search()

格式:

re.search(pattern, string, flags=0)

re.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None。

  1. print(re.search('\dcom','www.4comrunoob.5com').group())
  2. 执行结果如下:
  3. 4com

*注:match和search一旦匹配成功,就是一个match object对象,而match object对象有以下方法:

  • group() 返回被 RE 匹配的字符串
  • start() 返回匹配开始的位置
  • end() 返回匹配结束的位置
  • span() 返回一个元组包含匹配 (开始,结束) 的位置
  • group() 返回re整体匹配的字符串,可以一次输入多个组号,对应组号匹配的字符串。

a. group()返回re整体匹配的字符串,
b. group (n,m) 返回组号为n,m所匹配的字符串,如果组号不存在,则返回indexError异常
c.groups()groups() 方法返回一个包含正则表达式中所有小组字符串的元组,从 1 到所含的小组号,通常groups()不需要参数,返回一个元组,元组中的元就是正则表达式中定义的组。

  1. import re
  2. a = "123abc456"
  3. print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0)) #123abc456,返回整体
  4. print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1)) #123
  5. print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2)) #abc
  6. print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3)) #456
    ###group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。###

4、findall()

re.findall遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。

格式:

re.findall(pattern, string, flags=0)

  1. p = re.compile(r'\d+')
  2. print(p.findall('o1n2m3k4'))
  3. 执行结果如下:
  4. ['1', '2', '3', '4']
  1. import re
  2. tt = "Tina is a good girl, she is cool, clever, and so on..."
  3. rr = re.compile(r'\w*oo\w*')
  4. print(rr.findall(tt))
  5. print(re.findall(r'(\w)*oo(\w)',tt))#()表示子表达式
  6. 执行结果如下:
  7. ['good', 'cool']
  8. [('g', 'd'), ('c', 'l')]

5、finditer()

搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器。找到 RE 匹配的所有子串,并把它们作为一个迭代器返回。

格式:

re.finditer(pattern, string, flags=0)

  1. iter = re.finditer(r'\d+','12 drumm44ers drumming, 11 ... 10 ...')
  2. for i in iter:
  3. print(i)
  4. print(i.group())
  5. print(i.span())
  6. 执行结果如下:
  7. <_sre.SRE_Match object; span=(0, 2), match='12'>
  8. 12
  9. (0, 2)
  10. <_sre.SRE_Match object; span=(8, 10), match='44'>
  11. 44
  12. (8, 10)
  13. <_sre.SRE_Match object; span=(24, 26), match='11'>
  14. 11
  15. (24, 26)
  16. <_sre.SRE_Match object; span=(31, 33), match='10'>
  17. 10
  18. (31, 33)

6、split()

按照能够匹配的子串将string分割后返回列表。

可以使用re.split来分割字符串,如:re.split(r'\s+', text);将字符串按空格分割成一个单词列表。

格式:

re.split(pattern, string[, maxsplit])

maxsplit用于指定最大分割次数,不指定将全部分割。

  1. print(re.split('\d+','one1two2three3four4five5'))
  2. 执行结果如下:
  3. ['one', 'two', 'three', 'four', 'five', '']

7、sub()

使用re替换string中每一个匹配的子串后返回替换后的字符串。

格式:

re.sub(pattern, repl, string, count)

  1. import re
  2. text = "JGood is a handsome boy, he is cool, clever, and so on..."
  3. print(re.sub(r'\s+', '-', text))
  4. 执行结果如下:
  5. JGood-is-a-handsome-boy,-he-is-cool,-clever,-and-so-on...

其中第二个函数是替换后的字符串;本例中为'-'

第四个参数指替换个数。默认为0,表示每个匹配项都替换。

re.sub还允许使用函数对匹配项的替换进行复杂的处理。

如:re.sub(r'\s', lambda m: '[' + m.group(0) + ']', text, 0);将字符串中的空格' '替换为'[ ]'。

  1. import re
  2. text = "JGood is a handsome boy, he is cool, clever, and so on..."
  3. print(re.sub(r'\s+', lambda m:'['+m.group(0)+']', text,0))
  4. 执行结果如下:
  5. JGood[ ]is[ ]a[ ]handsome[ ]boy,[ ]he[ ]is[ ]cool,[ ]clever,[ ]and[ ]so[ ]on...

8、subn()

返回替换次数

格式:

subn(pattern, repl, string, count=0, flags=0)

  1. print(re.subn('[1-2]','A','123456abcdef'))
  2. print(re.sub("g.t","have",'I get A, I got B ,I gut C'))
  3. print(re.subn("g.t","have",'I get A, I got B ,I gut C'))
  4. 执行结果如下:
  5. ('AA3456abcdef', 2)
  6. I have A, I have B ,I have C
  7. ('I have A, I have B ,I have C', 3)

四、一些注意点

1、re.match与re.search与re.findall的区别:

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。

  1. a=re.search('[\d]',"abc33").group()
  2. print(a)
  3. p=re.match('[\d]',"abc33")
  4. print(p)
  5. b=re.findall('[\d]',"abc33")
  6. print(b)
  7. 执行结果:
  8. 3
  9. None
  10. ['3', '3']

2、贪婪匹配与非贪婪匹配

*?,+?,??,{m,n}?    前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配

  1. a = re.findall(r"a(\d+?)",'a23b')
  2. print(a)
  3. b = re.findall(r"a(\d+)",'a23b')
  4. print(b)
  5. 执行结果:
  6. ['2']
  7. ['23']
  1. a = re.match('<(.*)>','<H1>title<H1>').group()
  2. print(a)
  3. b = re.match('<(.*?)>','<H1>title<H1>').group()
  4. print(b)
  5. 执行结果:
  6. <H1>title<H1>
  7. <H1>
  1. a = re.findall(r"a(\d+)b",'a3333b')
  2. print(a)
  3. b = re.findall(r"a(\d+?)b",'a3333b')
  4. print(b)
  5. 执行结果如下:
  6. ['3333']
  7. ['3333']
  8. #######################
  9. 这里需要注意的是如果前后均有限定条件的时候,就不存在什么贪婪模式了,非匹配模式失效。

 3、用flags时遇到的小坑

  1. print(re.split('a','1A1a2A3',re.I))#输出结果并未能区分大小写
  2. 这是因为re.split(patternstringmaxsplit,flags)默认是四个参数,当我们传入的三个参数的时候,系统会默认re.I是第三个参数,所以就没起作用。如果想让这里的re.I起作用,写成flags=re.I即可。 

五、正则的小实践

1、匹配电话号码

  1. p = re.compile(r'\d{3}-\d{6}')
  2. print(p.findall('010-628888'))

2、匹配IP

  1. re.search(r"(([01]?\d?\d|2[0-4]\d|25[0-5])\.){3}([01]?\d?\d|2[0-4]\d|25[0-5]\.)","192.168.1.1")

 

python模块详解 re的更多相关文章

  1. python模块详解 | selenium(持续更新中)

    目录: 关于selenium Selenium 安装Selenium 安装浏览器驱动 配置环境变量 selenium方法详解 定位元素 元素操作 浏览器操作 鼠标事件 浏览器事件 设置元素等待 多表单 ...

  2. python模块详解 random os

    random模块 常用方法 random.random() 随机产生一个小于1的浮点数 import random print(random.random()) #0.4153761818276826 ...

  3. python模块详解

    什么是模块? 常见的场景:一个模块就是一个包含了python定义和声明的文件,文件名就是模块名字加上.py的后缀. 但其实import加载的模块分为四个通用类别: 1 使用python编写的代码(.p ...

  4. python模块详解 sys shutil

    sys模块 sys.argv 命令行参数List,第一个元素是程序本身路径 sys.exit(n) 退出程序,正常退出时exit(0) sys.version 获取Python解释程序的版本信息 sy ...

  5. python模块详解 | shutil

    简介: shutil是python的一个内置模块,提供了许多关于文件和文件集合的高级操作,特别提供文件夹与文件操作.归档操作了支持文件复制和删除的功能. 文件夹与文件操作: copyfileobj(f ...

  6. 小白的Python之路 day5 python模块详解及import本质

    一.定义 模块:用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能) 本质就是.py结尾的python文件(文件名:test.py,对应的模块名:test) 包:用来从逻辑上组织模块 ...

  7. Python 模块详解及import本质

    同在当前目录下的模块和包导入 模块定义 本质就是.py结尾的python文件. 用来从逻辑上组织python代码(变量,函数,类,逻辑) 文件名: test.py;  对应的模块名 : test 模块 ...

  8. Python模块详解以及import本质,获得文件当前路径os.path.abspath,获得文件的父目录os.path.dirname,放到系统变量的第一位sys.path.insert(0,x)

    模块介绍 1.定义: 模块:用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能),本质就是.py结尾的python文件(文件名:test.py,对应的模块名:test) 包:用来从逻 ...

  9. python模块详解 logging

    打印日志的五个级别: import logging logging.debug('test debug') logging.info('test info') logging.warning('tes ...

随机推荐

  1. getsockname()和getpeername()

    对于server端: 以端口为通配符方式bind:对于服务器,bind(0,ip),则调用bind函数之后,就可以调用getsockname获取服务器得到的本地端口号 以ip地址为通配地址bind,只 ...

  2. IIS反向代理

  3. 15.Subtree of Another Tree(判断一棵树是否为另一颗树的子树)

    Level:   Easy 题目描述: Given two non-empty binary trees s and t, check whether tree t has exactly the s ...

  4. Color Length UVA - 1625

    题目大意: 给你两个字符串p,q,字符串中每个字符代表一个颜色,现在按顺序合并两个字符串,得到一个新字符串.新字符串的价值为,每个颜色价值的和,单个颜色价值的和等于该颜色在新字符中最后一次出现的位置减 ...

  5. linux下将当前目录下的文件名存到一个文本文件里

    如果只是想得到当前目录下(不包括子目录)的相关文件时:ls -l | grep  ".gz$" > 1.txt 如果想得到当前目录下,包括子目录中的相关文件时,应该用find ...

  6. HashMap的容量大小增长原理(JDK1.6/1.7/1.8)

    . 前言 HashMap的容量大小会根据其存储数据的数量多少而自动扩充,即当HashMap存储数据的数量到达一个阈值(threshold)时,再往里面增加数据,便可能会扩充HashMap的容量. 可能 ...

  7. pytorch 加载mnist数据集报错not gzip file

    利用pytorch加载mnist数据集的代码如下 import torchvision import torchvision.transforms as transforms from torch.u ...

  8. JavaScript Succinctly 读后笔记

    1.JavaScript does not have block scope  2.Scope is determined during function definintion,  not invo ...

  9. Python的安装位置与Python库

    如何查看Python的安装位置: 输入 where python ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ ...

  10. 321B

    MCMF必须是满足流量最大为前提下的最小费用流(这里是最大费用流) 因此还必须不断地枚举m的流量才行 #include<iostream> #include<algorithm> ...