Python标准库 re
正则表达式 regular expression 用来匹配一系列符合句法规则的字符串,是一门独立的小型的语言,如果你了解类Unix系统,那么你对正则表达式就一定不陌生。正则表达式的概念最初是由Unix中的工具普及开的(如: sed grep)。Python中也内嵌了正则表达式,通过re模块实现。正则表达式有什么用?例如你需要从一大段Html代码中把Email地址或图片链接等过滤出来,那么正则表达式就很有用。
主内容: Python标准库01 正则表达式re包
出处: Vamei 博客 http://www.cnblogs.com/vamei
因为归纳的比较直观,不需要再重写一篇。
补充
正则表达式中,group() 用来提出分组截获的字符串,( )包围了一个小的正则表达式。
>>> a = '123abc456'
>>> re.search("(\d{3})([a-z]{3})(\d{3})",a).group(0)
'123abc456'
>>> re.search("(\d{3})([a-z]{3})(\d{3})",a).group(1)
''
>>> re.search("(\d{3})([a-z]{3})(\d{3})",a).group(2)
'abc'
>>> re.search("(\d{3})([a-z]{3})(\d{3})",a).group(3)
''
一些正则用法:
>>> s= r'abc' #定义一个规则
>>> re.findall(s,'ababc123abc') #字符串中满足规则便会返回结果,如果不符合,返回一个空列表
['abc','abc']
>>> re.findall(s,'abaaaaaaaa')
[]
转义 (如果需要匹配的字符串之中包含元字符怎么办?)
>>> r = r"\^\$abc" # \^ \$ 把^和$的特殊含义转义掉了
>>> str = "^$abc abc ^abc $abc"
>>> re.findall(r,str)
['^$abc']
元字符
[ ]
>>> str = "top tip tap ttp tep"
>>> r1 = r"t[io]p" # t和p之间要么有i 要么有o
>>> re.findall(r1,str)
['top', 'tip']
>>> r1 = r"t[^io]p" #在[]中字母前加 ^ 便表示取反
>>> re.findall(r1,str)
['tap', 'ttp', 'tep']
^ 和 $
>>> str = "name is , abcss"
>>> r = r"^na"
>>> re.findall(r,str)
['na']
>>>
>>> str = "name is , bob"
>>> r = r"bob$"
>>> re.findall(r,str)
['bob']
* 前一个字符重复0次或多次
>>> r =r"aa*"
>>> re.findall(r,'ab')
['a']
>>> re.findall(r,'aaaaaa')
['aaaaaa']
>>> re.findall(r,'aa')
['aa']
>>> re.findall(r,'a')
['a']
+ 匹配一次或多次,至少一次
>>> r =r"aa+"
>>> re.findall(r,'aa')
['aa']
>>> re.findall(r,'ab')
[]
>>> re.findall(r,'aaaaa')
['aaaaa']
>>> re.findall(r,'a')
[]
? 匹配一次或0次,常表示可有可无
>>> r = r"^010-*\d{8}$"
>>> re.findall(r,'010-12345678')
['010-12345678']
>>> re.findall(r,'')
['']
>>> re.findall(r,'010-----12345678') #这样无限输入也可以,不是我们需求的
['010-----12345678'] >>> r = r"^010-?\d{8}$"
>>> re.findall(r,'')
['']
>>> re.findall(r,'010-12345678')
['010-12345678']
>>> re.findall(r,'010---12345678')
[]
贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为,贪婪模式在整个表达式匹配成功的前提下,尽可能多的匹配,而非贪婪模式在整个表达式匹配成功的前提下,尽可能少的匹配
贪婪模式
>>> r = r'what+'
>>> re.findall(r,'whatttttttttttt')
['whatttttttttttt']
非贪婪模式 ? 加在重复的后面可以做最小匹配
>>> r = r'what+?'
>>> re.findall(r,'whatttttttttttt')
['what']
re 常用函数
findall() 找到匹配的所有字符串,并把它们作为一个列表返回
search() 扫描字符串,找到匹配的位置
match() 扫描字符串,匹配开头
>>> reg = re.compile(r'what')
>>> reg.findall('abcwhat')
['what']
>>> reg.match('abcwhat') # 没有匹配的内容则返回空
>>> reg.match('whatabc')
<_sre.SRE_Match object at 0x7f7d63e8c3d8>
>>> reg.search('abcwhat') # match和search的区别是match只匹配开头
<_sre.SRE_Match object at 0x7f7d63e8c440>
>>> reg.search('abcwh')
finditer() 找到匹配的所有字符串,并把它们作为一个迭代器返回
>>> s = reg.finditer('abcwhat what vvvwhat')
>>> s.next() # 返回的居然是match对象
<_sre.SRE_Match object at 0x7f7d63e8c440>
>>> s.next()
<_sre.SRE_Match object at 0x7f7d63e8c3d8>
>>> s.next()
<_sre.SRE_Match object at 0x7f7d63e8c440>
>>> s.next()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration
>>>
re.sub() 字符串的replace()方法并不支持正则,我们需要用re.sub()来做替换
>>> s = "hello what"
>>> s.replace('w..t','world')
'hello what'
>>>
>>> r = r'w..t'
>>> re.sub(r,'world',s)
'hello world'
re.split()
>>> s = "123-456=789+000*111"
>>> re.split(r'[\+\-\=\*]',s) #有些符号有特殊含义,需要转义一下
['', '', '', '', '']
编译标志 flags
DOTALL,S 使.匹配包括换行在内的所有字符
IGNORCASE,I 使匹配对大小写不敏感
LOCALE,L 做本地化识别 ,支持英文字母外其他语言的字母
MULTILINE,M 多行匹配,影响 ^和$
VERBOSE,X 能够使用REs的verbose状态,使之被组织的更清晰易懂
re.S
>>> r = r'google.com'
>>> re.findall(r,'google.com')
['google.com']
>>> re.findall(r,'googledcom')
['googledcom']
>>> re.findall(r,'googlexcom')
['googlexcom']
>>>
>>> re.findall(r,'google\ncom')
[]
>>> re.findall(r,'google\ncom',re.S)
['google\ncom']
>>> re.findall(r,'google\tcom',re.S)
['google\tcom']
>>>
re.I
reg = re.compile(r'what') #如果我们要让what不区分大小写,怎么办? [Ww[Hh][Aa][Tt] 显然很麻烦,利用re包中的一个属性 re.I 可以不区分大小写.
reg = re.compile(r'what',re.I)
re.M
>>> s = """
... what abc
... abcwhat
... defwhat
... whatnnn
... """
>>> r = r"^what"
>>> re.findall(r,s) #发现什么都没有,因为字符串是以换行符储存的
[]
>>> s
'\nwhat abc\nabcwhat\ndefwhat\nwhatnnn\n\n'
>>> re.findall(r,s,re.M)
['what', 'what']
re.X
>>> tel = r""" #这样定义会很直观
... \d{3,4}
... -?
... \d{8}
... """
>>> re.findall(tel,'010-87654321')
[]
>>> re.findall(tek,'010-87654321',re.X)
['010-87654321']
分组 ( .... )
>>> email = r"\w{3}@\w+(\.com|\.cn)" # \w+表示一个字母以上 |表示或,但是还需要加分组(),分组表示里面包含一个小正则
>>> re.match(email,'abc@google.com')
<_sre.SRE_Match object at 0x7f7d63e995d0>
>>> re.match(email,'abc@google.cn')
<_sre.SRE_Match object at 0x7f7d63e99648> >>> re.match(email,'abc@google.org')
>>> re.findall(email,'abc@google.com') # 有分组 findall会先返回分组的
['.com']
>>> print s
asasrc=name com sakdak
sad
src=what com adad
addq
>>>
>>> r = r'src=.+ com'
>>> re.findall(r,s)
['src=name com', 'src=what com'] # 如果我只想返回src= 后面的字符串呢?
>>> r = r'src=(.+) com'
>>> re.findall(r,s)
['name', 'what']
图片来自 http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
Python标准库 re的更多相关文章
- Python标准库14 数据库 (sqlite3)
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! Python自带一个轻量级的关系型数据库SQLite.这一数据库使用SQL语言.S ...
- python标准库00 学习准备
Python标准库----走马观花 python有一套很有用的标准库.标准库会随着python解释器一起安装在你的电脑上的.它是python的一个组成部分.这些标准库是python为你准备的利器,可以 ...
- Python标准库:内置函数hasattr(object, name)
Python标准库:内置函数hasattr(object, name) 本函数是用来判断对象object的属性(name表示)是否存在.如果属性(name表示)存在,则返回True,否则返回False ...
- python标准库xml.etree.ElementTree的bug
使用python生成或者解析xml的方法用的最多的可能就数python标准库xml.etree.ElementTree和lxml了,在某些环境下使用xml.etree.ElementTree更方便一些 ...
- 【python】Python标准库defaultdict模块
来源:http://www.ynpxrz.com/n1031711c2023.aspx Python标准库中collections对集合类型的数据结构进行了很多拓展操作,这些操作在我们使用集合的时候会 ...
- Python标准库
Python标准库是随Python附带安装的,它包含大量极其有用的模块.熟悉Python标准库是十分重要的,因为如果你熟悉这些库中的模块,那么你的大多数问题都可以简单快捷地使用它们来解决. sys模块 ...
- Python标准库07 信号 (signal包,部分os包)
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 在了解了Linux的信号基础之后,Python标准库中的signal包就很容易学习 ...
- Python标准库04 文件管理 (部分os包,shutil包)
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 在操作系统下,用户可以通过操作系统的命令来管理文件,参考linux文件管理相关命令 ...
- Python标准库的学习准备
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! Python标准库是Python强大的动力所在,我们已经在前文中有所介绍.由于标准 ...
- Python标准库——走马观花
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! Python有一套很有用的标准库(standard library).标准库会随着 ...
随机推荐
- RecyclerViewDemo
https://github.com/eltld/RecyclerViewDemo
- Android 代码写控件
1.设置dialog弹出anthor public static SearchDialog getSearchDialog(Context context,OnDismissListener list ...
- 高仿webqq做的一个webos桌面效果和web聊天工具,桌面效果完好,功能强大
QQ技术交流群:159995692 /-------- 暂时开放的測试 帐号/password:[88888888/1;666666/1] ---------/ 正如大家所知的E ...
- YTUOJ-推断字符串是否为回文
题目描写叙述 编敲代码,推断输入的一个字符串是否为回文.若是则输出"Yes",否则输出"No".所谓回文是指順读和倒读都是一样的字符串. 输入 输出 例子输入 ...
- C++的string连接(a = a + b 与 a += b)
大一学习C语言的时候,书上就写着a = a + b与 a += b等价,但是提倡用后者. 在CSDN上也看到一个关于a+=b和a=a+b的区别的帖子,大概内容如下:------------------ ...
- Django 之 中间件
一.概念 1.什么是中间件? 官方解释:中间件是用来处理Django的请求和响应的框架级别的钩子.基于全局范围产生影响. 平民解释:中间件是帮助我们在视图函数执行前和执行后做的操作.它本质上就是一个自 ...
- POJ 1737 Connected Graph(高精度+DP递推)
题面 \(solution:\) 首先做个推销:带负数的压位高精度(加减乘+读写) 然后:由 \(N\) 个节点组成的无向图的总数为: \(2^{N*(N-1)/2}\) (也就是说这个图总共有 \( ...
- vue中手机号,邮箱正则验证以及60s发送验证码
今天写了一个简单的验证,本来前面用的组件,但是感觉写的组件在此项目不是很好用,由于用到的地方比较少,所以直接写在了页面中.页面展示如图 <div> <p class=&quo ...
- Scanner、String(java基础知识十二)
1.Scanner的概述和方法介绍 * A:Scanner的概述 * 是一个从键盘输入的类,有final修饰,不能被子类继承 * Scanner sc = new Scanner(System.in) ...
- oracle 删除用户命令和部分表空间操作
删除用户 drop user user_name cascade; 建立表空间 CREATE TABLESPACE data01DATAFILE '/oracle/oradata/db/DATA01. ...