python_91_正则表达式

常用的正则表达式：

'.'     默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行

'^'     匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)

'$'     匹配字符结尾，或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以

'*'     匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac") 匹配a，ab，abb 结果为['abb', 'ab', 'a']

'+'     匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']

'?'     匹配前一个字符1次或0次

'{m}'   匹配前一个字符m次

'{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']

'|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'

'(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c

'\A'    只从字符开头匹配，re.search("\Aabc","alexabc") 是匹配不到的

'\Z'    匹配字符结尾，同$

'\d'    匹配数字0-9

'\D'    匹配非数字

'\w'    匹配[A-Za-z0-9]

'\W'    匹配非[A-Za-z0-9]

's'     匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'

'(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict() 结果{'province': '3714', 'city': '81', 'birthday': '1993'}

最常用的匹配语法

re.match 从头开始匹配

re.search 匹配包含

re.findall 把所有匹配到的字符放到以列表中的元素返回

re.splitall 以匹配到的字符当做列表分隔符

re.sub      匹配字符并替换

反斜杠的困扰
与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

import re

print(re.match('^Chen',"ChenRonghau123"))#只要有结果，就代表匹配的到,^代表匹配字符开头

print(re.match('Chen',"ChenRonghau123"))#re.match代表从开头开始匹配，不需要用^，所以不能支持只匹配中间的，比如只匹配Rong

print(re.match('Rong',"ChenRonghau123"))

print(re.match('qi',"ChenRonghau123"))#没有匹配到

res=re.match('^Chen',"ChenRonghau123")

print(res.group())#查看匹配结果

res=re.match('^Chen\d',"Chen456Ronghau123")#  \代表后边是正则语法，d代表的是一个数字

print(res.group())#查看匹配结果

res=re.match('^Chen\d+',"Chen456Ronghau123")#  +号代表一个或多个,'\d'匹配数字0-9

print(res.group())#查看匹配结果

print(re.match('.',"ChenRonghau123"))#默认匹配除\n之外的任意一个字符

print(re.match('.+','ChenRonghau123'))

print(re.search('R.+','ChenRonghau123'))#re.serach是从整个文本里搜索

print(re.search('R.+u','ChenRonghau123'))#匹配R到u

print(re.search('b$','ChenRonghau123b'))# 匹配字符结尾

print(re.search('R[a-z]','ChenRonghau123b'))#[a-z]只匹配一个字符

print(re.search('R[a-z]+u','ChenRonghau123b'))#匹配的是Ronghau

print(re.search('R[a-z]+u','ChenRonghauRonghau123b'))#多个Ronghau，只匹配第一个

print(re.search('R[a-z]+u','ChenRonGhauRonghau123b'))#匹配的是后边那个，前边那个大写了，不是正确的

print(re.search('R[a-zA-Z]+u','ChenRonGhauRonghau123b'))#匹配的是RonGhauRonghau

print(re.search('g.+l','112g#efgs345lwe%')) # '+'匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']

print(re.search('aal?','aalexaaa'))#'?'     匹配前一个字符1次或0次

print(re.search('aal?','aaexaaa'))

print(re.search('[0-9]{3}','aalx2a2345aa'))#'{m}'   匹配前一个字符m次

print(re.search('[0-9]{1,3}','aalx2a234aa'))#'{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']

#re.findall 把所有匹配到的字符放到以列表中的元素返回

print(re.findall('[0-9]{1,3}','aalx2a234a98a'))#匹配到所有数字

print(re.search('abc|ABC','ABCabcSD').group())

print(re.findall('abc|ABC','ABCabcSD'))#findall没有.group()方法

print(re.search('abc{2}','alexabccc'))#'|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'

print(re.search('(abc){2}','alexabcabc'))#'(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c

print(re.search('(abc){2}\|','alexabcabc|'))#匹配两次abc和一次管道符

print(re.search('(abc){2}(\|\|=){2}','alexabcabc||=||='))

print(re.search('\A[0-9]+[a-z]\Z','123a'))

# '\A'  只从字符开头匹配，re.search("\Aabc","alexabc") 是匹配不到的

# '\Z'  匹配字符结尾，同$

print(re.search('\D+','123%\n $a'))#'\D'    匹配非数字

print(re.search('\w+','aAz123%\n $a'))#匹配[A-Za-z0-9]

print(re.search('\W+','aAz123%\n $a'))# '\W'    匹配非[A-Za-z0-9]

print(re.search('\s+','aAz123%\n \r \t$a'))#'s'   匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'

# '(?P<name>...)' 分组匹配

print(re.search('(?P<id>[0-9]+)','abcd1234daf23'))

print(re.search('(?P<id>[0-9]+)','abcd1234daf23').group())

print(re.search('(?P<id>[0-9]+)','abcd1234daf23').groupdict())

a=re.search('(?P<id>[0-9]+)(?P<name>[a-zA-Z])','abcd1234daf23').groupdict()

print(a)

print(a['id'])

print(re.search('(?P<id>[0-9]+)(?P<name>[a-zA-Z])','abcd1234daf23').group('name'))

print(re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict())# 结果{'province': '3714', 'city': '81', 'birthday': '1993'}

# re.splitall 以匹配到的字符当做列表分隔符

print(re.split('[0-9]','abc12de3f356gh'))

print(re.split('[0-9]+','abc12de3f356gh'))

# re.sub      匹配字符并替换

print(re.sub('[0-9]','*','abc12de3f356gh'))#结果：abc**de*f***gh

print(re.sub('[0-9]','*','abc12de3f356gh',count=2))#结果：abc**de3f356gh

'''仅需轻轻知道的几个匹配模式:

re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）

M(MULTILINE): 多行模式，改变'^'和'$'的行为(有点搞不懂)

S(DOTALL): 点任意匹配模式，改变'.'的行为

'''

print(re.search('[a-z]+','abcxdSA'))#结果：abcxd

print(re.search('[a-z]+','abcxdSA',flags=re.I))#结果：abcxdSA

print(re.search('.+','\nabc\nee'))#结果：abc

print(re.search('.+','\nabc\nee',flags=re.S))#结果：\nabc\nee

'''

反斜杠的困扰

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。

假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：

前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。

同样，匹配一个数字的"\\d"可以写成r"\d"。

有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

'''

print(re.search(r'\\','abd\\fd\\rfa'))

print(re.search('[a-z]+h$','abc\ndef\ngh'))

python_91_正则表达式的更多相关文章

JS正则表达式常用总结
正则表达式的创建 JS正则表达式的创建有两种方式: new RegExp() 和直接字面量. //使用RegExp对象创建 var regObj = new RegExp("(^\\s+) ...
Python高手之路【五】python基础之正则表达式
下图列出了Python支持的正则表达式元字符和语法: 字符点:匹配任意一个字符 import re st = 'python' result = re.findall('p.t',st) print( ...
C# 正则表达式大全
文章导读正则表达式的本质是使用一系列特殊字符模式,来表示某一类字符串.正则表达式无疑是处理文本最有力的工具,而.NET提供的Regex类实现了验证正则表达式的方法.Regex 类表示不可变(只读)的 ...
C#基础篇 - 正则表达式入门
1.基本概念正则表达式(Regular Expression)就是用事先定义好的一些特定字符(元字符)或普通字符.及这些字符的组合,组成一个“规则字符串”,这个“规则字符串”用来判断我们给定的字符串 ...
JavaScript正则表达式，你真的知道？
一.前言粗浅的编写正则表达式,是造成性能瓶颈的主要原因.如下: var reg1 = /(A+A+)+B/; var reg2 = /AA+B/; 上述两个正则表达式,匹配效果是一样的,但是,效率就 ...
Python 正则表达式入门（中级篇）
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
【JS基础】正则表达式
正则表达式的() [] {}有不同的意思. () 是为了提取匹配的字符串.表达式中有几个()就有几个相应的匹配字符串. (\s*)表示连续空格的字符串. []是定义匹配的字符范围.比如 [a-zA-Z ...
JavaScript 正则表达式语法
定义 JavaScript定义正则表达式有两种方法. 1.RegExp构造函数 var pattern = new RegExp("[bc]at","i"); ...
[jquery]jquery正则表达式验证（手机号、身份证号、中文名称）
数字判断方法:isNaN()函数 test()方法判断字符串中是否匹配到正则表达式内容,返回的是boolean值 ( true / false ) // 验证中文名称 function isChin ...

随机推荐

开源：基于Android的室内定位WiFi，iBeacon数据采集和定位脚本
最近有同学联系我,也在一些群里看到有新手同学挣扎在怎么获取定位数据,不知从何下手.所以整理并开源这个基于Android的数据采集软件和基于python的KNN定位demo,算是为新手同学建立一个Bas ...
AI决策算法之 GOAP （一）
http://blog.csdn.net/lovethrain/article/details/67632033 本系列文章内容部分参考自:http://gamerboom.com/archives/ ...
洛谷 P2216 [HAOI2007]理想的正方形
P2216 [HAOI2007]理想的正方形题目描述有一个a*b的整数组成的矩阵,现请你从中找出一个n*n的正方形区域,使得该区域所有数中的最大值和最小值的差最小. 输入输出格式输入格式: 第一 ...
axios发送两次请求原因及解决方法
axios发送两次请求原因及解决方法最近Vue项目中使用axios组件,在页面交互中发现axios会发送两次请求,一种请求方式为OPTIONS,另外一种为自己设置的. 如图: 什么是CORS通信? ...
snipaste截图软件
IBM Websphere MQ常用命令及常见错误
MQSC: MQ Script Command (不区分大小写) 注明: 下面命令行中的队列管理器名字,队列名字分别用QmgrName, QName替代. 下面标蓝色的,都需要根据实际配置更改! 打 ...
css中如何设置透明度
怎样在CSS样式中设置背景的透明度,下面一个具体的实例.把类为box的层设为透明.<div class="box"></div><style>. ...
springboot集成log4j
需求: 1.springboot集成log4j 2.mybatis 打印 sql 实现: pom.xml <dependency> <groupId>org.springfra ...
net core 认证及简单集群
net core 认证及简单集群在Asp.net WebAPI中,认证是通过AuthenticationFilter过滤器实现的,我们通常的做法是自定义AuthenticationFilter,实现 ...
Windows7&IIS7.5部署Discuz全攻略
组长说在内网部署一个论坛,这可难不倒我,装个Discuz嘛.部署环境就一台普通的PC,四核i3,Windows7.这就开搞了. 准备工作系统是Windows 7 专业版,自带IIS7.5(家庭版不带 ...

python_91_正则表达式

python_91_正则表达式的更多相关文章

随机推荐

热门专题