python基础学习14----正则表达式
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
在python中正则表达式被封装到了re模块,通过引入re模块来使用正则表达式
re模块中有很多正则表达式处理函数,首先用findall函数介绍基本基本字符的含义
元字符有:. \ * + ? ^ $ | {} [] ()
findall函数
遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表
. 匹配任意除换行符"\n"外的字符
import re temp=re.findall("a.c","abcdefagch")
print(temp)#['abc', 'agc']
* 匹配前一个字符0或多次
temp=re.findall("a*b","abcaaaaabcdefb")
print(temp)#['ab', 'aaaaab', 'b']
+ 匹配前一个字符1次或无限次
temp=re.findall("a+b","abcaaaaabcdefb")
print(temp)#['ab', 'aaaaab']
? 匹配前一个字符0次或1次
temp=re.findall("a?b","abcaaaaabcdefb")
print(temp)#['ab', 'ab', 'b']
^ 匹配字符串开头。在多行模式中匹配每一行的开头
temp=re.findall("^ab","abcaaaaabcdefb")
print(temp)#['ab']
$ 匹配字符串末尾,在多行模式中匹配每一行的末尾
temp=re.findall("ab$","abcaaaaabcdefab")
print(temp)#['ab']
| 或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式
temp=re.findall("abc|def","abcdef")
print(temp)#['abc', 'def']
{} {m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次
temp=re.findall("a{3}","aabaaacaaaad")
print(temp)#['aaa', 'aaa']
temp=re.findall("a{3,5}","aaabaaaabaaaaabaaaaaa")
print(temp)#['aaa', 'aaaa', 'aaaaa', 'aaaaa']在获取了3个a后,若下一个还是a,并不会得到aaa,而是算下一个a
[] 字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc,所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。
temp=re.findall("a[bcd]e","abcdefagch")
print(temp)#[]此时bcd为b或c或d
temp=re.findall("a[a-z]c","abcdefagch")
print(temp)#['abc', 'agc']
temp=re.findall("[^a]","aaaaabcdefagch")
print(temp)#['b', 'c', 'd', 'e', 'f', 'g', 'c', 'h']
temp=re.findall("[^ab]","aaaaabcdefagch")
print(temp)#['c', 'd', 'e', 'f', 'g', 'c', 'h']a和b都不会被匹配
() 被括起来的表达式将作为分组,从表达式左边开始每遇到一个分组的左括号“(”,编号+1.分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。
temp=re.findall("(abc){2}a(123|456)c","abcabca456c")
print(temp)#[('abc', '456')]
temp=re.findall("(abc){2}a(123|456)c","abcabca456cbbabcabca456c")
print(temp)#[('abc', '456'), ('abc', '456')]
#这里有()的情况中,findall会将该规则的每个()中匹配到的字符创放到一个元组中
要想看到被完全匹配的内容,我们可以使用一个新的函数search函数
search函数
在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None
temp=re.search("(abc){2}a(123|456)c","abcabca456c")
print(temp)#<re.Match object; span=(0, 11), match='abcabca456c'>
print(temp.group())#abcabca456c
\ 转义字符,使后一个字符改变原来的意思
反斜杠后边跟元字符去除特殊功能;(即将特殊字符转义成普通字符)
temp=re.search("a\$","abcabca456ca$")
print(temp)#<<re.Match object; span=(11, 13), match='a$'>
print(temp.group())#a$
引用序号对应的字组所匹配的字符串。
即下面的\2为前边第二个括号中的内容,2代表第几个,从1开始
a=re.search(r'(abc)(def)gh\2','abcdefghabc abcdefghdef').group()
print(a)#abcdefghdef
反斜杠后边跟普通字符实现特殊功能;(即预定义字符)
预定义字符有:\d \D \s \S \w \W \A \Z \b \B
预定义字符在字符集中仍有作用
\d 数字:[0-9]
temp=re.search("a\d+b","aaa234bbb")
print(temp.group())#a234b
\D 非数字:[^\d]
\s 匹配任何空白字符:[<空格>\t\r\n\f\v]
temp=re.search("a\s+b","aaa bbb")
print(temp.group())#a b
\S 非空白字符:[^\s]
\w 匹配包括下划线在内的任何字字符:[A-Za-z0-9_]
\W 匹配非字母字符,即匹配特殊字符
temp=re.search("\W","$")
print(temp.group())#$
\A 仅匹配字符串开头,同^
\Z 仅匹配字符串结尾,同$
\b 匹配\w和\W之间的边界
temp=re.search(r"\bas\b","a as$d")
print(temp.group())#$as
\B [^\b]
下面介绍其他的re常用函数
compile函数
编译正则表达式模式,返回一个对象的模式
rule = re.compile("abc\d+\w")
str = "aaaabc6def"
temp = rule.findall(str)
print(temp)#['abc6d']
match函数
在字符串刚开始的位置匹配,和^功能相同
temp=re.match("asd","asdfasd")
print(temp.group())#asd
finditer函数
将所有匹配到的字符串以match对象的形式按顺序放到一个迭代器中返回
temp=re.finditer("\d+","as11d22f33a44sd")
print(temp)#<callable_iterator object at 0x00000242EEEE9E48>
for i in temp:
print(i.group())
#11
#22
#33
#44
split函数
用于分割字符串,将分割后的字符串放到一个列表中返回
如果在字符串的首或尾分割,将会出现一个空字符串
temp=re.split("\d+","as11d22f33a44sd55")
print(temp)#['as', 'd', 'f', 'a', 'sd', '']
使用字符集分割
如下先以a分割,再将分割后的字符串们以b分割,所以会出现3个空字符串
temp=re.split("[ab]","ab123b456ba789b0")
print(temp)#['', '', '123', '456', '', '789', '0']
sub函数
将re匹配到的部分进行替换再返回新的字符串
temp=re.sub("\d+","_","ab123b456ba789b0")
print(temp)#ab_b_ba_b_
后边还可以再加一个参数表示替换次数,默认为0表示全替换
subn函数
将re匹配到的部分进行替换再返回一个装有新字符串和替换次数的元组
temp=re.subn("\d+","_","ab123b456ba789b0")
print(temp)#('ab_b_ba_b_', 4)
然后讲一下特殊分组
temp=re.search("(?P<number>\d+)(?P<letter>[a-zA-Z])","ab123b456ba789b0")
print(temp.group("number"))#123
print(temp.group("letter"))#b
以?P<name>的形式起名
temp=re.search("(?P<number>\d+)(?P<letter>[a-zA-Z]+)(?P=number)","ab123b123ba789b7789")
print(temp.group())#123b123
注意这里?P=number的两个分组必须匹配的一模一样,不只是规则一样,而是内容都一样
最后说一下惰性匹配和贪婪匹配
temp=re.search("\d+","123456")
print(temp.group())#123456
此时为贪婪匹配,即只要符合就匹配到底
temp=re.search("\d+?","123456")
print(temp.group())#1
在后面加一个?变为惰性匹配,即只要匹配成功一个字符就结束匹配
参考https://www.cnblogs.com/tina-python/p/5508402.html
python基础学习14----正则表达式的更多相关文章
- python基础学习笔记——正则表达式
1.什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则.(在Python中)它内嵌在Python中,并通过 r ...
- (一)python基础学习
根据廖雪峰老师的python教程写一些学习总结! Python基础学习 1.使用list和tuple (1)list Python内置的一种数据类型是列表:list.list是一种有序的集合,可以随时 ...
- Day1 Python基础学习
一.编程语言分类 1.简介 机器语言:站在计算机的角度,说计算机能听懂的语言,那就是直接用二进制编程,直接操作硬件 汇编语言:站在计算机的角度,简写的英文标识符取代二进制去编写程序,本质仍然是直接操作 ...
- 0003.5-20180422-自动化第四章-python基础学习笔记--脚本
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": " ...
- Day1 Python基础学习——概述、基本数据类型、流程控制
一.Python基础学习 一.编程语言分类 1.简介 机器语言:站在计算机的角度,说计算机能听懂的语言,那就是直接用二进制编程,直接操作硬件 汇编语言:站在计算机的角度,简写的英文标识符取代二进制去编 ...
- Python 基础学习 总结篇
Python 基础学习总结 先附上所有的章节: Python学习(一)安装.环境配置及IDE推荐 Python学习(二)Python 简介 Python学习(三)流程控制 Python学习(四)数据结 ...
- python基础学习(起步)
目录 python基础学习(起步) 变量 常量 变量的内存管理 python垃圾回收机制 变量的其他赋值方式 今日编程小题 本人能力有限,若有偏颇之处请读者大大不吝赐教! 祝大家每天都在成长! pyt ...
- python基础之坑爹正则表达式
python基础之坑爹正则表达式 概述 re模块就是python语言中的正则表达式,拆出来单独写一条blog是因为正则表达式本身就是比较庞大的知识,写具体些让自己以后方便查找. IP: ^(25[0- ...
- Python基础学习二
Python基础学习二 1.编码 utf-8编码:自动将英文保存为1个字符,中文3个字符.ASCll编码被囊括在内. unicode:将所有字符保存为2给字符,容纳了世界上所有的编码. 2.字符串内置 ...
- Python基础学习一
Python基础学习一 1.变量与常量 变量名:大小写英文.数字.下划线的组合,数字不能开头 常量名:习惯上常量用大写字母命名,例如"PI" 2.多行输出 转义符:反斜杠(),如果 ...
随机推荐
- docker-部署elk-6.1.3
1.更新daocker版本 2.pull官方的镜像 https://www.elastic.co/guide/en/elasticsearch/reference/6.1/docker.html ht ...
- Spring学习之路-从放弃到入门
AOP:方法拦截器 IOC:类管理容器 主要讲讲这一天看Spring视频学到的东西,以下的叫法全是自创的. 1.类实例管理容器 关于Spring,首先是对类的管理,在常规情况,生成一个类需要调用new ...
- ASP.NET开发,从二层至三层,至面向对象 (5)
此是一系列博文,最后一篇了.也是面向初学者而作,望你们能有更好,更多对ASP.NET面向对编程了解与认识. 前一篇中<ASP.NET开发,从二层至三层,至面向对象 (4)>http://w ...
- C#根据byte前两位获取图片扩展名
C#根据byte前两位获取图片扩展名 /// <summary> /// 根据byte前两位获取图片扩展名 /// </summary> /// <param name= ...
- 撩课-Web架构师养成系列第一篇
前言 Web架构师养成系列共15篇,每周更新一篇,主要分享.探讨目前大前端领域(前端.后端.移动端)企业中正在用的各种成熟的.新的技术.部分文章也会分析一些框架的底层实现,让我们做到知其然知其所以然. ...
- JDBC流程
最近要学习Mybatis的源码,因此对JDBC的使用进行总结. 一.JDBC概述 JDBC(Java DataBase Connectivity,java数据库连接)是一种用于执行SQL语句的Java ...
- POJ3693(SummerTrainingDay10-J 后缀数组)
Maximum repetition substring Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 10241 Ac ...
- js-ES6学习笔记-对象的扩展
1.ES6允许直接写入变量和函数,作为对象的属性和方法.这种写法用于函数的返回值,将会非常方便.CommonJS模块输出变量,就非常合适使用简洁写法. var ms = {}; function ge ...
- 百度自动推送js
<!DOCTYPE html> <!-- saved from url=(0014)about:internet --> <html> <head> & ...
- Ubuntu16.04搭建kubernetes v1.11.2集群
1.节点介绍 master cluster-1 cluster-2 cluster-3 hostname k8s-55 k8s-5 ...