python之re模块(正则表达式)
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
re 模块使 Python 语言拥有全部的正则表达式功能。
正则表达式中,普通字符匹配本身,非打印字符\n 、\t等,还有些特殊字符
特殊元字符
. 默认情况下,他匹配除换行符之外的任何字符,当有标志re.S 被指定时可以匹配任何字符。
^ 从字符串开头匹配
$ 匹配字符串的结尾或紧跟在字符串末尾的换行符之前
* 匹配0次,1次或者多次前面的字符。
?匹配0次或者1次前面的字符。
+ 匹配1次或者多次前面的字符、
{n} 前面的字符出现n次。
{n,m} 前面的字符至少出现n次,至多出现m次
| 模式选择符 如 A|B A和B可以是任意RE,创建一个匹配A或B的正则表达式 。'|'
操作从不贪婪,一旦A匹配,B将不会被进一步测试
() 模式单元符
\ 用来逃避特殊字符(允许匹配像'*'
,'?'
等等字符 ),使用方法 \* \?
[] 原子表,用来指定一组字符,[abk]表示匹配‘a’,‘b’或‘k’,[a-z] 匹配任意一个小写字母,[A-Z]匹配任意一个大写,[0-9]任意一个数字
特殊字符在原子表失去特殊意义,如[.+?*()]匹配其中任意一个字符
[^.?*({] 原子表内以^开头表示不匹配在表中的字符
通用字符
\w 匹配热一个字母、数字或者下划线字符
\W 匹配除了字母、数字或者下划线的一个其他字符
\d 匹配一个10进制数
\D 匹配任何不是十进制数字的字符。
\s 匹配空白字符 相当于 [ \t\n\r\f\v]
\S 匹配任何不是空白字符的字符 相当于[^ \t\n\r\f\v]
\Z 匹配字符串末尾
.* 贪婪匹配模式 ,匹配尽可能多的
.*?非贪婪匹配模式,只匹配的第一个满足的就行
正则表达式常见函数
re.compile(pattern,flags = 0) 对正则表达式进行预编译,用在多次需要调用的场合,相当于一个模板放在那里,想用就用。
flags可以为以下几种
re.A(
仅匹配ASCII码), re.I
(匹配时忽略大小写),re.L
(区域依赖), re.M
(多行匹配),re.S
(让.匹配任意字符), re.U
(Unicode匹配)和re.X
(详细)表达
prog = re.compile(pattern)
result = prog.match(string)
#另一种写法
result = re.match(pattern, string)
re.match(pattern,string,flags = 0 )从字符串开头处进行匹配
>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist") #原始字符串符号(r"text"
)使正则表达式保持原始格式,无特殊用法
>>> m.group(0) # The entire match
'Isaac Newton'
>>> m.group(1) # The first parenthesized subgroup.
'Isaac'
>>> m.group(2) # The second parenthesized subgroup.
'Newton'
>>> m.group(1, 2) # Multiple arguments give us a tuple.
('Isaac', 'Newton')
>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
>>> m.group('first_name') #正则表达式使用(?P<name>...)
语法,则groupN 参数也可以是通过其组名称标识组的字符串
'Malcolm'
>>> m.group('last_name')
'Reynolds'
>>> m = re.match(r"(\d+)\.(\d+)", "24.1632")
>>> m.groups() #返回一个包含匹配所有子组的元组
('', '')
re.search(pattern,string,flags = 0 )字符串整体匹配,返回第一个匹配成功的 ,match函数中的用法同样适用
#match.
start
([ 组] )match.
end
([ 组] )
>>> email = "tony@tiremove_thisger.net"
>>> m = re.search("remove_this", email)
>>> email[:m.start()] + email[m.end():] #返回按组匹配的子串的开始和结束索引
'tony@tiger.net'
re.findall(pattern,string,flags = 0 )匹配符合模式的多个,返回列表类型的结果
>>> text = "He was carefully disguised but captured quickly by police."
>>> re.findall(r"\w+ly", text)
['carefully', 'quickly']
re.sub(pattern,rep,string , max )根据正则表达式来实现替换某些字符串,rep代表替换的内容,max,表示最多替换次数,不写就全部替换。
>>> def dashrepl(matchobj):
... if matchobj.group(0) == '-': return ' '
... else: return '-'
>>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')
'pro--gram files'
>>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.I)
'Baked Beans & Spam'
re.split(pattern,string,maxsplit = 0,flags = 0 )根据模式拆分字符串
>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.I)
['', '', '']
具体的案例稍后补充.........
python之re模块(正则表达式)的更多相关文章
- 【Python开发】Python之re模块 —— 正则表达式操作
Python之re模块 -- 正则表达式操作 这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式 ...
- Python之re模块 —— 正则表达式操作
这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式或用作转义字符,这里跟Python的语法冲突, ...
- Python之re模块正则表达式
re模块用于对python的正则表达式的操作 字符: .匹配除换行符以外的任意字符 \w匹配字母或数字或下划线或汉字 \s匹配任意空白符 \b匹配单词的开始或结束 ^匹配字符串的开始 $匹配字符串的结 ...
- Python 之Re模块(正则表达式)
一.简介 正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配. 二.正则表达式中常用的字符含义 1.普通字符和11个元字符: ...
- 第11.18节 Python 中re模块的匹配对象
匹配对象是Python中re模块正则表达式匹配处理的返回结果,用于存放匹配的情况.老猿认为匹配对象更多的应该是与组匹配模式的功能对应的,只是没有使用组匹配模式的正则表达式整体作为组0. 为了说明下面的 ...
- Python的regex模块——更强大的正则表达式引擎
Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个: 固化分组 Atomic grouping 占有优先量词 Possessive quantifi ...
- Python中的re模块--正则表达式
Python中的re模块--正则表达式 使用match从字符串开头匹配 以匹配国内手机号为例,通常手机号为11位,以1开头.大概是这样13509094747,(这个号码是我随便写的,请不要拨打),我们 ...
- day18 python之re模块与正则表达式
正则表达式 正则表达式,就是匹配字符串内容的一种规则. 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串 ...
- 正则表达式与Python中re模块的使用
正则表达式与Python中re模块的使用 最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则 ...
- python全栈开发之正则表达式和python的re模块
正则表达式和python的re模块 python全栈开发,正则表达式,re模块 一 正则表达式 正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的 ...
随机推荐
- Java实现 LeetCode 327 区间和的个数
327. 区间和的个数 给定一个整数数组 nums,返回区间和在 [lower, upper] 之间的个数,包含 lower 和 upper. 区间和 S(i, j) 表示在 nums 中,位置从 i ...
- Java实现 LeetCode 122 买卖股票的最佳时机 II
122. 买卖股票的最佳时机 II 给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格. 设计一个算法来计算你所能获取的最大利润.你可以尽可能地完成更多的交易(多次买卖一支股票). 注意: ...
- 第六届蓝桥杯JavaC组国(决)赛真题
解题代码部分来自网友,如果有不对的地方,欢迎各位大佬评论 题目1.机器人数目 少年宫新近邮购了小机器人配件,共有3类,其中, A类含有:8个轮子,1个传感器 B类含有: 6个轮子,3个传感器 C类含有 ...
- Java实现 蓝桥杯 历届试题 连号区间数
问题描述 小明这些天一直在思考这样一个奇怪而有趣的问题: 在1~N的某个全排列中有多少个连号区间呢?这里所说的连号区间的定义是: 如果区间[L, R] 里的所有元素(即此排列的第L个到第R个元素)递增 ...
- iOS-地图定位 && 解码与反解码
前段时间,公司开发的App用到了地图和定位,所以记录一下,作为回顾总结. 对于地图和定位,苹果公司提供给了两个框架: MapKit:用于地图展示 Core Location ...
- netty实现消息中心(一)思路整理
一.需求 需要实现直播间的以下功能: 群发消息(文本.图片.推荐商品) 点对点私发消息(文本.图片.推荐商品) 单个用户禁言 全体用户禁言 撤回消息 聊天记录持久化 二.技术实现 服务端消息中心采用n ...
- Jenkins入门教程(一):Windos下Jenkins的安装教程
Jenkins的安装教程 Jenkins安装前的准备 1.安装jenkins前首先确保你的电脑已经安装了JDK,由于jenkins是基于java开发的 JDK下载地址 2.下载jenkins的安装包 ...
- IAT表
0X0 0 DLL介绍 DLL翻译器为动态链接库,原来不存在DLL的概念只有,库的概念,编译器会把从库中获取的二进制代码插入到应用程序中.在现在windows操作系统使用了数量庞大的库函数(进程,内存 ...
- (二)Java编程基础
目录 一.关键字与保留字 二.标识符与变量 三.基本数据类型的转换 四.运算符 五.分支语句 五.循环语句 六.跳转语句 七.Java从键盘读取输入 一.关键字与保留字 定义:①关键字:Java关键字 ...
- Linux下自己和自己用各种方法进行文件的上传下载
环境: Ubuntu 16.04 1.SCP # 上传 scp /home/sea/Desktop/test.sh sea@192.168.1.31:/home/sea/Desktop/test.sh ...