python正则表达式 - re
1,匹配符号
基本元字符
- . : 任意字符,除了\n,flags设置为DOTALL(S)可以让.匹配\n
- |:逻辑或
- \:转义
- ():捕获组
空白字符
- [\b] : 回退
- \f : 换页
- \n : 换行
- \r : 回车
- \t : 制表tab
- \v : 垂直制表
特定字符
- \d : 数字,等价[0-9]
- \D : 非数字,等价[^0-9]
- \w : 字母或数字或_,等价[A-Za-z0-9_]
- \W : 非字母非数字非_,等价[^A-Za-z0-9]
- \s : 空白字符,等价[\f\n\r\t\v]
- \S : 非空白字符,等价[^\f\n\r\t\v]
重复匹配
- + : 一个或多个
- * : 零个或多个
- ? : 零个或一个
- {n} : n次
- {n,} : 最少n次
- {n,m} : 最少n次,最多m次
- 备注:+和*是贪婪型,有多少匹配多少,加上?可以变懒惰型
位置匹配
- \b : 单词边界,即\w和\W之间的位置
- \B : 非单词边界
- ^ : 字符串开头,flags设置为MULTILINE(M)可以匹配\n后的位置
- $ : 字符串结尾,flags设置为MULTILINE(M)可以匹配\n前的位置
- \A:字符串开头
- \Z:字符串结尾
- ?=:向前查找
- ?<=:向后查找
2,字符集
字符集[]的规范/元字符不同于正则式主体
字符集中的特有元字符:
- -:连字符,表示范围,如果不想表示范围必须放最前面
- ^:对字符集取反,作用于给定字符集内所有的字符或范围,而不是仅限于^后面的一个字符或区间
正则表达式主体中的元字符,在字符集中无需转义的(转义了也可以,pycharm提示多余的):
- (
- )
- .
- *
- ?
匹配举例:
- [0-9] : 数字
- [A-Z] : 大写字母
- [a-z] : 小写字母
- [A-Za-z0-9] : 字母或者数字
- [^0-9] : 非数字
- [.(] : .或(,[]字符集合内的元字符无需转义
- [-.\s]:-或.或空白字符,"-"如果不想表示范围必须放最前面
- [\n\d\s]: 匹配换行符或数字或空白
备注:如果想通过字符集[]匹配转义符\,则正则表达式引擎必须接受字符\\:
print('a[\]b') # a[\]b
print('a[\\]b') # a[\]b,和单\结果一样,因为单\会自动转义,详见后面的转移章节说明
print(r'a[\\]b') # a[\\]b,OK!
3,匹配flags
- MULTILINE(M):改变“^”和“$”,让“^”能够匹配到换行符后的位置,让“$”能够匹配到换行符前的位置
- DOTALL(S):改变“.”,让“.”能够匹配换行符
- IGNORECASE(I):忽略大小写
- LOCALE(L)
- UNICODE(U)
- VERBOSE(X)
- ASCII(A)
re.M可以使得^和$匹配'\n'后和'\n'前得位置,例如:
用'\n'也可以匹配结果,但是'\n'不是位置匹配,会把'\n'也匹配在内。
>>> s = 'aaa\nbbb\nccc'
>>> r = re.search('^bbb$', s)
>>> r # 匹配不到 >>> r = re.search('^bbb$', s, re.M)
>>> r.group()
'bbb' >>> r = re.search('\nbbb\n', s, re.M)
>>> r.group()
'\nbbb\n'
总结:经过re.M改造后的^和$,相当于是向前查找和向后查找结合了‘\n’,例如:
s = 'start\nhello guxh2\nend' print(s)
"""
start
hello guxh2
end
""" print(repr(s))
'start\nhello guxh2\nend' >>> re.findall(r'^hello .*?$', s, re.M)
['hello guxh2']
>>> re.findall(r'(?<=\n)hello .*?(?=\n)', s)
['hello guxh2']
>>> re.findall(r'\nhello .*?\n', s) # 不加定界会匹配上\n
re.findall(r'\nhello .*?\n', s)
4,匹配模式
- 整体匹配(只匹配第一次):re.search / re.match
- 全局匹配(匹配所有):re.findall
- 分组捕获:(),整体匹配和全局匹配都可以进行分组捕获,捕获匹配结果中的部分内容,分组捕获可以嵌套,详见匹配举例。分组可以嵌套,匹配结果会含大分组和子分组的结果。
5,匹配写法
方法一,需要重复执行匹配的,先编译再匹配
好处是多个地方用到这个匹配模式regex,想修改时只需要修改一个地方
regex = re.compile(p)
regex.search(s)
re.search(regex, s)
方法二,简单的可以直接匹配
re.search(p, s)
6,python提供的匹配方法
1)re.search(p, s)
从s中提取完全符合p的内容,只提取第一次命中的,返回re.match对象
提取整体匹配结果:searchObj.group(), searchObj.group(0)
提取所有分组捕获结果:searchObj.groups()
提取单个分组捕获结果:searchObj.group(n), 即groups()[i] = group(i+1)
2)re.findall(p, s)
提取所有符合p的内容,返回字符串组成的列表
使用分组捕获时,返回分组捕获结果(元组)组成的列表
re.search使用分组捕获时既可以捕获整体匹配,也可以捕获分组内容
re.findall使用分组捕获时只能捕获分组内容
3)re.match(p, s)
可以用re.search(^)替代
MULTILINE模式下,match也只匹配s,但re.search可以匹配换行后的开始
4)re.finditer(p, s)
re.findall的惰性版,返回iterator
5)re.split(p, s)
根据p分割字符串s
6)re.sub(p, repl, s, count=n)
p是匹配到的值,repl是替换后值,s是m目标字符串,count是替换多少次
re.subn(p, repl)可以返回替换次数
7,懒惰匹配和贪婪匹配
*和+都是贪婪比配,尽可能多
可以结合?变成懒惰匹配
>>>re.search('a.*?b', 'abab').group()
ab
>>>re.search('a.*?b', 'abab').group()
abab
>>>re.search('192\.168\.1\..*$', '192.168.1.12').group()
192.168.1.12
>>>re.search('192\.168\.1\..*?', '192.168.1.12').group() # 没有结束符,懒惰不匹配
192.168.1.
>>>re.search('192\.168\.1\..*', '192.168.1.12').group() # 没有结束符,贪婪匹配至最后
192.168.1.12
8,转义
1)python语言的转义
'\n'在python中代表换行,print输出时会做特殊处理:
s = 'x\nz'
print(s) # x(换行)z
print(repr(s)) # 'x\nz'
要想print输出'x\nz',需要对'\'进行转义:
s = 'x\\nz' # 或s = r'x\nz'
print(s) # x\nz
print(repr(s)) # 'x\\nz'
如果'\' + '字符'没有特殊含义,python语言会自动对\进行转义:
s = 'x\yz'
print(s) # x\yz
print(repr(s)) # 'x\\yz',发现多了个'\'
自动转义时,PEP8会提示invalid escape sequence '\y',看来PEP8要求'\'+'字符'没有特殊含义时,统一做好转义!
2)正则表达式的转义 - 非元字符
传递给正则引擎的字符串regex的内容,是print(regex)的结果,而不是print(repr(s))的结果
假设s = 'x\yz',print(s)的结果是'x\yz',print(repr(s))的结果是'x\\yz',传递给正则表达式的是'x\yz'
匹配时,也是匹配对象字符串s的print(s)的结果
和编程语言的转义一样,正则引擎也有自己的转义规则,当'\' + '字符'属于元字符时,可以进行特殊处理,例如\w匹配字符,数字,以及'_'
但是如果'\' + '字符'不是元字符,即没有特殊含义时,正则引擎不会像编程语言那样自动进行转义,而是要求必须接收转义后的'\',例如:
s = r'x\yz'
regex = 'x\\yz' # 或者regex = 'x\yz',print(regex)都是'x\yz',传递给正则引擎的就是'x\yz'
re.search(regex, s) # re.error: bad escape \y at position 1
这样的字符串传递给正则引擎才能得到正确处理:
regex = r'x\\yz' # print(regex)是'x\\yz',print(repr(regex))是'x\\\\yz'
regex = 'x\\\yz' # 同上
regex = 'x\\\\yz' # 同上
为什么'x\\\yz'和'x\\\\yz'结果一样呢?因为对于'\\\y',前2个'\\'转义为'\',后面的'\y',python语言自动转义成了'\y'(同样也会收到PEP8提示)
3)正则表达式的转义 - 元字符
假设要匹配的字符串为'a(换行)b',即:
s = 'a\nb'
传递给正则表达式的字符串regex,经过转义其print(regex)结果应当为'a\nb',于是匹配写法为:
regex = r'a\nb' # 或者regex = 'a\\nb'
re.search(regex, s) # 可以匹配中s
但是发现未经转义的'a\nb'也能匹配中(换成制表符'\t'也能匹配):
regex = 'a\nb'
re.search(regex, s) # 也能匹配中
这是因为给字符串传递'a(换行)b'时,字符串恰好会将其识别为'\n',交给正则引擎时就能够正确去匹配'a(换行)b'
但是如果python语言字符串和正则引擎对字符的解释不一样时,转义或者不转义效果就会不同,例如:
s = 'a*'
regex1 = 'a\x2A'
regex2 = 'a\\x2A'
re.search(regex1, s) # 匹配结果为a
re.search(regex2, s) # 匹配结果为a*
对于'\x2A'(即*),正则表达式解释为匹配前一个字符0次,1次或多次。
如果和\n一样,则不管是'a\x2A'还是'a\\x2A'都能匹配中'a*'
但实际上,不转义'\'就无法匹配'a*',那是因为不转义的'*'在正则表达式中是元字符,被赋予了其他含义。而'*'在python语言字符串中却没有特殊含义。
9,捕获组
1)捕获组对现有匹配方法对影响
捕获组对re.findall的影响:
s = 'abcabcabc'
re.findall('abc', s) # ['abc', 'abc', 'abc']
re.findall('a(b)c', s) # ['b', 'b', 'c']
re.findall('(a(b)c)') # [('abc', 'b'), ('abc', 'b'), ('abc', 'b')]
捕获组对re.sub的影响:
s = 'abcabcabc'
re.sub('abc', 'x', s) # xxx
re.sub('a(b)c', 'x', s) # xxx
re.sub('(a(b)c)', 'x', s) # xxx
备注:看上去对sub不起作用,但捕获组可以用来回溯引用
2)捕获组的回溯引用
s = '<h1> hello world <h1>'
re.search(r'<(h1)>.*?<\1>', s) # 可以匹配s
re.findall(r'<(h1)>.*?<\1>', s) # ['h1']
re.sub(re.sub(r'<(h1)>(.*?)<\1>', r'\1,\2', s)) # h1, hello world,re.sub会对匹配中的整个字符串进行替换
3)捕获组的命名
>>>ID = "310115199012128765"
>>>p = "(?P<dictrict>[0-9]{6})(?P<birthday>[0-9]{8})"
>>>re.search(p, ID).groupdict()
{'dictrict': '310115', 'birthday': '19901212'}
10,前后查找
前后查找属于位置匹配
(?<=s):向后查找,s后面的位置
(?=s):向前查找,s前面的位置
>>>s = 'ab1c ab2c\nab3c'
>>>re.findall('(a.*?)(?:\s|$)', s) # $不能放字符集[]里面
['ab1c', 'ab2c', 'ab3c']
>>>re.findall('((?<=b).*?)(?:\s|$)', s) # b后面的位置开始
['1c', '2c', '3c']
>>>re.findall('((?=b).*?)(?:\s|$)', s) # b前面的位置开始
['b1c', 'b2c', 'b3c']
前后查找和findall:
即使正则表达式捕获的是位置,但是有了捕获组以后,findall会返回捕获组的内容,参考之前的re.findall('a(b)c', s)
s = '1234567890'
re.findall(r'(?<=\d)(?=(\d\d\d)+$)') # ['890', '890', '890'],实际上正则表达式匹配的是三个位置,但有了捕获组以后findall的返回结果是捕获组内容
re.findall(r'(?<=\d)(?=(?:\d\d\d)+$)') # ['', '', ''],改为非捕获型后,findall返回的是三个位置:1|234|567|890
前后查找和sub:
sub是对匹配到的内容进行替换,捕获组不会对替换结果产生影响,捕获组在sub中只是用户回溯引用,参考9捕获组中的回溯引用
re.sub(r'(?<=\d)(?=(\d\d\d)+$)', '|', s) # 1|234|567|890,对匹配到的内容(位置)进行替换
re.sub(r'(?<=\d)(?=(?:\d\d\d)+$)', '|', s) # 1|234|567|890,对匹配到的内容
11,匹配举例
'ab1c ab2c\nab3c'匹配例子:
>>>s = 'ab1c ab2c\nab3c' >>>re.search('a.*?c a.*?c', s).group() # 整体匹配
ab1c ab2c
>>>re.search('a(.*?)c a(.*?)c', s).groups() # 整体匹配 + 捕获分组
'b1 b2'
>>>re.search('a(\w(\w))c a(\w(\w))c', s).groups() # 整体匹配 + 捕获分组
('b1', '1', 'b2', '2') >>>re.findall('a.*?c', s) # 全局匹配
['ab1c', 'ab2c', 'ab3c']
>>>re.findall('a(.*?)c', s) # 全局匹配 + 捕获分组:只能捕获分组内容
['b1', 'b2', 'b3']
>>>re.findall('a(\w(\w))c', s) # 全局匹配 + 捕获分组嵌套
[('b1', '1'), ('b2', '2'), ('b3', '3')] >>>re.findall('a.*?c$', s)
['ab3c']
>>>re.findall('a.*?c$', s, flags=re.M) # re.M影响$
['ab1c ab2c', 'ab3c']
>>>re.findall('^a.*?c', s)
['ab1c']
>>>re.findall('^a.*?c', s, flags=re.M) # re.M影响^
['ab1c', 'ab3c']
>>>re.search('a.*c', s).group()
'ab1c ab2c'
>>>re.search('a.*c', s, flags=re.DOTALL).group() # re.DOTALL影响.
'ab1c ab2c\nab3c' >>>re.split('\s', s)
['ab1c', 'ab2c', 'ab3c']
>>>re.split('(\s)', s) # re.split + 分组可以看到分隔符
['ab1c', ' ', 'ab2c', '\n', 'ab3c']
'a b, c ; d\ e'匹配例子:
>>>s = 'a b, c ; d\ e'
>>>s
'a b, c ; d\\ e' # \被自动转成\\
>>>re.split(r'\s*[\s,;\\]\s*', s)
['a', 'b', 'c', 'd', 'e']
>>>re.split(r'\s*(?:\s|,|;|\\)\s*', s) # []的等效写法
['a', 'b', 'c', 'd', 'e']
>>>re.split(r'\s*(\s|,|;|\\)\s*', s) # 不用?:只抓到了单个分隔符,用它去对s分割会包含单个分隔符
['a', ' ', 'b', ',', 'c', ';', 'd', '\\', 'e']
>>> re.split(r'(\s*(?:\s|,|;|\\)\s*)', s) # 包含完整的分隔符
['a', ' ', 'b', ', ', 'c', ' ; ', 'd', '\\ ', 'e']
python正则表达式 - re的更多相关文章
- Python 正则表达式入门(中级篇)
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
- Python正则表达式中的re.S
title: Python正则表达式中的re.S date: 2014-12-21 09:55:54 categories: [Python] tags: [正则表达式,python] --- 在Py ...
- Python 正则表达式入门(初级篇)
Python 正则表达式入门(初级篇) 本文主要为没有使用正则表达式经验的新手入门所写. 转载请写明出处 引子 首先说 正则表达式是什么? 正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达 ...
- python正则表达式re
Python正则表达式: re 正则表达式的元字符有. ^ $ * ? { [ ] | ( ).表示任意字符[]用来匹配一个指定的字符类别,所谓的字符类别就是你想匹配的一个字符集,对于字符集中的字符可 ...
- Python正则表达式详解
我用双手成就你的梦想 python正则表达式 ^ 匹配开始 $ 匹配行尾 . 匹配出换行符以外的任何单个字符,使用-m选项允许其匹配换行符也是如此 [...] 匹配括号内任何当个字符(也有或的意思) ...
- 比较详细Python正则表达式操作指南(re使用)
比较详细Python正则表达式操作指南(re使用) Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式.Python 1.5之前版本则是通过 regex 模块提供 E ...
- Python正则表达式学习摘要及资料
摘要 在正则表达式中,如果直接给出字符,就是精确匹配. {m,n}? 对于前一个字符重复 m 到 n 次,并且取尽可能少的情况 在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2 ...
- python正则表达式 小例几则
会用到的语法 正则字符 释义 举例 + 前面元素至少出现一次 ab+:ab.abbbb 等 * 前面元素出现0次或多次 ab*:a.ab.abb 等 ? 匹配前面的一次或0次 Ab?: A.Ab 等 ...
- Python 正则表达式-OK
Python正则表达式入门 一. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分. 正则表达式是用于处理字符串的强大工具, 拥有自己独特的语法以及一个独立的处理引擎, 效率上 ...
- Python天天美味(15) - Python正则表达式操作指南(re使用)(转)
http://www.cnblogs.com/coderzh/archive/2008/05/06/1185755.html 简介 Python 自1.5版本起增加了re 模块,它提供 Perl 风格 ...
随机推荐
- springboot引入AOP
AOP是Aspect Oriented Programming的缩写,意为面向切面编程.通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技术.AOP是spring框架的一个重要内容,她通过对 ...
- SQL- 行转列,多行转多列 - max 函数
效果如图,把同一个 code, 按 cate 列相同行的进行合并后分两行,把mode 每种类型转换成 列名 ,主要用到了 max 函数,很实用 if exists(select * from temp ...
- mac & ip
mac 解决本地网络机器的通信 ip 解决不同网络间主机的通信
- Centos7下安装配置elasticsearch 6.3.1
1)下载 Elasticsearch 6.3.1 地址:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3.1 ...
- FileFilter过滤器
FileFilter过滤器原理: File对象的listFiles()方法做了三件事情: 第一件,遍历得到所有的文件/文件夹: 第二件,调用入参过滤器接口自己DIY的实现类中重写的accept()方法 ...
- Vim搜索、取消高亮、显示行数、取消行数
1.显示行数 :set nu 2.取消行号 :set nu! 3.高亮搜索 /target 4.取消高亮 :noh
- java之过滤器
form.jsp <%@ page language="java" contentType="text/html; charset=UTF-8" page ...
- spider爬虫练习
package com.jinzhi.spider; import java.io.BufferedReader;import java.io.IOException;import java.io.I ...
- JZ2440学习笔记之内存设备
通过OM[1:0]选择启动的设备: OM[1:0]=00,地址0对应的是Internal 4K RAM,且Nand的前4K会被复制到这里,得到执行: OM[1:0]=01,地址0对应的是Nor Fla ...
- ORA-08176 错误的一个案例
在演示事务的read only mode 的时候,因为一个错误有了这个意外的收获.场景是这样的: 在session 1 中执行了如下的语句. SQL> set transaction read ...