正则表达式

import re
lst = re.findall(正则表达式,需要匹配的字符串)
findall     把所有匹配到的字符串都搜出来,返回列表
不能把分组内容和匹配内容同时显示出来
search 只把搜索到一个结果就返回,返回对象
可以把分组内容和匹配的内容同时显示出来
group 对象.group() 直接获取匹配到的内容
groups 对象.groups() 直接获取分组里边的内容

1.预定义字符集

str = "caca/#%*!~cac'cac123"

  • .匹配任意字符,除了换行符\n
  • \d 匹配数字
  • \D 匹配非数字
  • \w 匹配字母 数字 下划线(正则函数中,支持中文的匹配)
  • \W 匹配非字符 数字 下划线
  • \s 匹配任意的空白符:、n \t \r " " ' '
  • \S 匹配非任意的空白符
  • \n 匹配换行符:re.findall(r"\n",str)
  • \t 匹配空格:re.findall(r"\t",str)
  • [] 匹配[]中列举的字符(^在字符组中,代表除了)
    lst = re.findall("[abc]","jnjnnjnunun")=>None

    re.finadll("a[abc]c","aac abb")=>aac

    re.findall("a[0-9]b","a1b acb")=>a1b

    re.findall("a[a-g]b","a1b acb")=>acb

    re.findall("a[A-G]b","a1b acb aCb aYb")=>aCb

    re.findall("a[0-9a-zA-z]b","a-b a1b  aYb aqbalb")=>a1b aYb aqb alb

    re.finadll("a[0-9][*#/]b","a1/b a2b a29b a56b")=>a1/b

    # ^在字符组中,代表除了
re.findall('a[^-+*/]','a%b ccaa*bda&bd')=>a%b a&b # 如果想要匹配^ 或者 -,在原来的字符加上\
re.findall(r'e[\^\-]f',"e^f e-f")=>e^F e-f re.findall(r'a\\n','a\n')=>a\n

2.多个字符匹配

量词在那个字符后面就是谁的量词

  • ? 匹配0个或者1个字符
  • + 匹配1个或者多个
  • * 匹配0个或者多个
  • {m,n} 匹配m到n字符
import re
# 1<=x<=2
re.findall('a{1,3}b','aaab ab aab abbb aaz aabb')=>aaab ab aab ab aab
# x=2 前面修饰的a必须是两个字符
re.findall('a{2}b','aaab ab aab abbb aaz aabb')=>aab aab aab
# x>=2 至少是两个字符
re.findall('a{2,}b','aaab ab aab abbb aaz aabb')=>aaab aab aab

3.贪婪模式 与 非贪婪模式

贪婪模式 与 非贪婪模式:
贪婪模式:默认向更多次匹配,底层用的是回溯算法
非贪婪模式:默认向更少次匹配,用一个?来进行修饰(修饰在两次的身后) 回溯算法:从左向右进行匹配,一直到最后,直接最后再也匹配不到了,回头,寻找最后一个 strvar = "张三李四王五张四张五子acaca子443232"
re.findall("张.",strvar)=>张三 张四 张五 # 贪婪模式
re.findall("张.?",strvar)=>张三 张四 张五
re.findall("张.+",strvar)=>张三李四王五张四张五子acaca子443232
re.findall("张.*",strvar)=>张三李四王五张四张五子acaca子443232
re.findall("张.{1,21}",strvar)=>张三李四王五张四张五子acaca子443232
re.findall("张.*子",strvar)=>张三李四王五张四张五子acaca子 # 非贪婪模式
re.findall("张.??",strvar)=>张 张 张
re.findall("张.+?",strvar)=>张三 张四 张五
re.findall("张.*",strvar)=>张 张 张
re.findall("张.{1,21}?",strvar)=>张三 张四 张五
re.findall("张.*?子",strvar)=>张三李四王五张四张五子

4.边界符

# \b backspace 本身就是一个转义字符

边界符 卡单词word
卡住左边界 \bw
卡住右边界 d\b import re
strvar = "word pwd scf"
re.findall(r".*d\b",strvar) 'word pwd'
re.findall(r".*?d\b",strvar) word,pwd
re.findall(r"\bw",strvar) 'w'
re.findall(r"\bw.*?",strvar) 'w'
# 正则表达式中写字符时,要谨慎,下面例子必须匹配到第一个空格时,才结束
re.findall(r"\bw.*? ",strvar) 'word ' re.findall(r"\bw\S",strvar) 'wo'
re.findall(r"\bw\S*",strvar) 'word'

^ 、 $

^ 必须以...开头
$ 必须以...结尾
如果出现了^ $,要把这个字符串看成一个整体

5.正则表达式-分组

  • 正常分组
import re
strvar = "wu_good alex_good secret_good"
# 1.分组练习
re.findall('.*?_good',strvar) =>"wu_good" "alex_good" "secret_good"
# () 显示括号里边匹配到的内容
re.findall('(.*?)_good',strvar) =>"wu" "alex" "secret"
# ?: 不显示括号里边的内容
re.findall('(?:.*?)_good',strvar) =>"wu_good" "alex_good" "secret_good" # 2. | 代表或,a|b代表 a 或 b
strvar = "abcddd"
re.findall("a|b",strvar) => a,b
# 注意事项:为啦避免优先匹配前面的字符串,导致字符串匹配不完整,把较难匹配到的字符串写在前面,容易匹配到的字符串放在后边
# 匹配abc 或者abcd
strvar = "abc121548112ddabcd21513"
re.findall("abc|abcd",strvar) => abc,abc
re.findall("abcd|abc",strvar) => abc,abcd # 3.练习
# 匹配小数
re.findall(r"\d+\.\d+",str)
# 匹配小数和整数
re.findall(r"\d+\.\d+|\d+",strvar)
re.findall(r"\d+(?:\.\d+)?",strvar)
# 匹配135或者171的手机号
re.findall(r"(?:135|171)[0-9]{8}",strvar)
re.findall(r"^(?:135|171)[0-9]{8}$",strvar)
# 匹配www.baidu.com 或者 www.oldboy.com
re.findall(r"www.baidu.com|www.oldboy.com")
re.findall(r"www_(?:baidu|oldboy)_com") # 获取第一个
obj = re.search(r"(?:www).(?:baidu|oldboy).(?:com)")
obj.group() =>www.baidu.com
# 获取分组()里边的数据
obj.groups() =>['www','baidu','com']
# “5*6-7/3” 匹配5*6 或者 7/3
print(re.findall('(?:\d+[*/]\d)|(?:\d/\d)',"5*6-7/3"))
  • 命名分组
import re
strvar = "<div>123456</div>"
lst = re.findall(r"<(.*?)>(.*?)<(.*?)>",strvar)=> ['div','123456','/div'] # 1.反向引用
# \1代表反向引用,将第一个括号匹配的字符串,在\1位置处再引用一次
lst = re.findall(r"<(.*?)>(.*?)<(/\1)>",strvar)=> ['div','123456','/div'] strvar = "a1b2cab"
re.search(r"(.*?)\d(.*?)\d(.*?)\1\2",strvar) # 2.命名分组(给小组命名)
语法:(?P<组名>正则表达式)给这个组起一个名字
(?P=组名) 引用之前组的名字,把该组名匹配到的内容放到当前位置 strvar = "a1b2cab"
re.search(r"(?P<tag1>.*?)\d(?P<tag2>.*?)\d(.*?)\1\2",strvar)
re.search(r"(?P<tag1>.*?)\d(?P<tag2>.*?)\d(.*?)(?P=tag1)(?P=tag2)",strvar)

6正则函数

  • findall()
  • search() 通过正则匹配出第一个对象就返回,通过group去除对象中的值,groups把括号里匹配到的内容丢到元组中返回
  • match() search只要在正则表达式的前面加上^ 就和match一样
  • split() 切割
import re
strvar = "alex|xboy&wusir-egon"
re.split("[|&-]",strvar)#alex xboy wusir egon
strvar = "alex242141xboy232523wusir1215egon"
re.split("[\d+]",strvar)#alex xboy wusir egon " "
  • sub() 替换(正则表达式,替换的字符串,原字符串,[可选的替换次数})
import re
strvar = "alex|xboy&wusir-egon"
re.sub("[|&-]","%",strvar)# "alex%xboy%wusir%egon"
# 替换一次
re.sub("[|&-]","%",strvar)# re.sub("[|&-]","%",strvar,1)# "alex%xboy&wusir-egon"
  • subn() 替换 与sub用法一样,区别在于返回值不同,返回的是元组
import re
strvar = "alex|xboy&wusir-egon"
re.sub("[|&-]","%",strvar)# "alex%xboy%wusir%egon",3
# 替换一次
re.sub("[|&-]","%",strvar)# re.sub("[|&-]","%",strvar,1)# "alex%xboy&wusir-egon",1
  • finditer 匹配字符串中的相应内容,返回迭代器
from collections import Iterator
strvar = "safadsadsadas你好23342"
it = re.finditar(r"\d+",strvar)
isinstance(it,Iterabor)
for i in it:
i.group()
  • compile 指定一个统一的匹配规则
正常情况下,正则表达式执行一次,编译一次
如果反复使用,会浪费系统资源,比如内存,cpu compile 可以使正则编译一次,无序反复编译 strvar = "safadsadsaddsad155as你好23342"
pattern = re.compile(r"\d+")# re.compile('\\d+')返回的是对象
obj = pattern.search(strvar)
obj.group()#155
lst = pattern.findall(strvar)# ["155","23342"]

正则表达式修饰符 配合compile使用

  • re.I 使匹配对大小写不敏感
strvar = "<h1>123</H1>"
pattern = re.compile("<h1>.*?</h1>",flag=re.I)
pattern.search(strvar).group() # 123
  • re.M 使每一行都能单独匹配(多行匹配),影响^ $的使用
strvar = """<h1>123</H1>
<p>123</p>
<div>123</div>
"""
pattern = re.compile("^<.*?>(.*?)<.*?>$")
# 因为
pattern.findall(strvar) # []
# 使用re.M
pattern = re.compile("^<.*?>(.*?)<.*?>$",flag=re.M)
pattern.findall(strvar) # 123 123 123
  • re.S 使.匹配包含换行在内的所有内容
strvar ="""give
112233mefive
"""
pattern = recompile("(.*?)mefive")
# 因为.匹配不到\n换行符
pattern.search(strvar).group()# 112233mefive
# 使用re.S 完善.
pattern = recompile("(.*?)mefive",flags=re.S)
pattern.search(strvar).group()# "give \n 112233mefive"

四、python学习-正则表达式的更多相关文章

  1. python学习——正则表达式

    正则表达式                        正则表达式的主要作用就是对字符串进行匹配,通过匹配,进行筛选,选择出符合规则的字符串.其实正则表达式的作用就像是一个过滤器一样.你输入好自己的 ...

  2. python学习 正则表达式

    一.re 模块中 1.re.match #从开始位置开始匹配,如果开头没有match()就返回none 语法:re.match(pattern, string, flags=0) pattern 匹配 ...

  3. Python学习 ——正则表达式

    正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. re 模块使 Python 语言拥有全部的正则表达式功能. compile 函数根据一个模式字符串和可选的标志参数生 ...

  4. python学习-正则表达式(十)

    1.查看re模块的全部属性和函数 >>>import re,pprint >>>pprint.pprint(re.__all__) ['match', 'fullm ...

  5. [python 学习]正则表达式

    re 模块函数re 模块函数和正则表达式对象的方法match(pattern,string,flags=0) 尝试使用带有可选的标记的正则表达式的模式来匹配字符串.如果匹配成功,就返回匹配对象:如果失 ...

  6. 【Python学习笔记四】获取html内容之后,如何提取信息:使用正则表达式筛选

    在能够获取到网页内容之后,发现内容很多,那么下一步要做信息的筛选,就和之前的筛选图片那样 而在python中可以通过正则表达式去筛选自己想要的数据 1.首先分析页面内容信息,确定正则表达式.例如想获取 ...

  7. Python学习笔记——正则表达式入门

    # 本文对正则知识不做详细解释,仅作入门级的正则知识目录. 正则表达式的强大早有耳闻,大一时参加一次选拔考试,题目就是用做个HTML解析器,正则的优势表现得淋漓尽致.题外话不多讲,直接上干货: 1. ...

  8. 孤荷凌寒自学python第六十四天学习mongoDB的基本操作并进行简单封装3

    孤荷凌寒自学python第六十四天学习mongoDB的基本操作并进行简单封装3 (完整学习过程屏幕记录视频地址在文末) 今天是学习mongoDB数据库的第十天. 今天继续学习mongoDB的简单操作, ...

  9. 大学四年的Python学习笔记分享之一,内容整理的比较多与仔细

    翻到以前在大学坚持记录的Python学习笔记,花了一天的时间整理出来,整理时不经回忆起大学的时光,一眨眼几年就过去了,现在还在上学的你们,一定要珍惜现在,有个充实的校园生活.希望这次的分享对于你们有学 ...

随机推荐

  1. PBN转弯保护区作图回顾

    假期的最后一天,是该小结一下的时候了. 风螺旋有了自己中式风格的Logo,大家是否喜欢? 过去的春节假期,我们从学习CAD入手,回顾了风螺旋在PBN中的多种情况,画了很多的图,写了不少的文字,或许现在 ...

  2. 执行Python程序时模块报错

    1. 在执行python程序时遇到 'ModuleNotFoundError: No module named 'xxxxx'' : 例如: 图片中以导入第三方的 'requests' 模块为例,此报 ...

  3. 下载com.springsource.org.aspectj.weaver-1.6.8.RELEASE.jar

    看别人都说在repo.maven.com下载,没想到竟然要登录 索性我直接在国内阿里云的镜像仓库下载好了,速度又快又方便 搜索aspectj 下载地址:https://maven.aliyun.com ...

  4. UML类图介绍&类的六大关系

    UML类图介绍&类的六大关系 官方定义 UML(统一建模语言),是一种用于软件系统分析和设计的语言工具,用于帮助软件开发人员进行思考和记录思路的方式 UML 图形化的语言 基本介绍 UML图: ...

  5. sql注入和union all关联查询的学习总结

    1.后台从页面取值进行sql查询时最好不要直接拼,如下代码: String sql = "SELECT wo.* " + " from push_command pu & ...

  6. 在16G笔记本上安装GaussDB 200

    云主机太贵(最便宜的每月几千吧),长期如果需要GaussDB200有个功能测试或学习环境,那么性价比最高的方式还是在自己的笔记本电脑上尝试安装一个本地的数据库进行学习和功能验证. 01 安装环境信息 ...

  7. Python爬虫系统化学习(4)

    Python爬虫系统化学习(4) 在之前的学习过程中,我们学习了如何爬取页面,对页面进行解析并且提取我们需要的数据. 在通过解析得到我们想要的数据后,最重要的步骤就是保存数据. 一般的数据存储方式有两 ...

  8. Cloudam云端携手高校探索云计算在生命科学领域的应用

    随着云计算服务和实践的成熟,越来越多的行业对于云计算的需求也日益增加.不同行业的需求与云计算融合,就需要更大的算力支撑.这也意味着,云计算的需求市场日渐扩大,Cloudam云端自主研发的云E算力平台应 ...

  9. HDOJ-1043 Eight(八数码问题+双向bfs+高效记录路径+康拓展开)

    bfs搜索加记录路径 HDOJ-1043 主要思路就是使用双向广度优先搜索,找最短路径.然后记录路径,找到结果是打印出来. 使用康拓序列来来实现状态的映射. 打印路径推荐使用vector最后需要使用a ...

  10. Learn Python the Hard Way,ex37-1

    本练习为复习python的符号和关键字 关键字有: #and or False True print(1==0 and 2==0, 1==0 or 2==0) print(False) print(T ...