Python之re正则模块二

13、编译的标志

可以用re.I、re.M等参数，也可以直接在表达式中添加"?(iLmsux)"标志

*s:单行，“.”匹配包括换行符在内的所有字符

*i：忽略大小写

*L：让"\w"能匹配当地字符，貌似对中文支持不好

*m：多行

*x：忽略多余的空白字符，让表达式更易阅读

*u：Unicode

例子：

>>> re.findall(r"[a-z]+","%123Abc%45xyz&")

['bc', 'xyz']

>>> re.findall(r"[a-z]+","%123Abc%45xyz&",re.I)

['Abc', 'xyz']

>>>

>>> re.findall(r"(?i)[a-z]+","%123Abc%45xyz&",re.I)

['Abc', 'xyz']

更好的格式：

>>> pattern=r"""

...     (\d+) #number

...     ([a-z]+) #letter

... """

>>>

>>> re.findall(pattern,"%123Abc\n%45xyz&",re.i | re.S |re.x)

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

AttributeError: 'module' object has no attribute 'i'
#由错误可见是大写

>>> re.findall(pattern,"%123Abc\n%45xyz&",re.I | re.S |re.X)

[('', 'Abc'), ('', 'xyz')]

>>>

组操作

命名组：(?P<name>...)

>>> for m in re.finditer(r"(?P<digit>(\d+))(?P<letter>([a-z]+))","%123Abc%45xyz&",re.I):

...     print m.groupdict()

...

{'digit': '', 'letter': 'Abc'}

{'digit': '', 'letter': 'xyz'}

无捕获组:(?:...)，作为匹配条件，但不返回：

>>> for m in re.finditer(r"(?:(\d+))(?P<letter>([a-z]+))","%123Abc%45xyz&",re.I):

...     print m.groupdict()

...

{'letter': 'Abc'}

{'letter': 'xyz'}

反向引用:\<number>或者(?P=name),引用前面的组：

>>> for m in re.finditer(r"<(\w)>\w+</(\1)>","%<a>123Abc</a>%<b>45xyz</b>&%"):

...     print m.group()

...

<a>123Abc</a>

<b>45xyz</b>

>>> for m in re.finditer(r"<(?P<tag>\w)>\w+</(?P=tag)>","%<a>123Abc</a>%<b>45xyz</b>&%"):

...     print m.group()

...

<a>123Abc</a>

<b>45xyz</b>

正声明(?=...)：组内容必须出现在右侧，不返回

负声明(?!...)：组内容不能出现在右侧，不返回

反向正声明(?<=):组内容必须出现在左侧，不返回

反向负声明(?<!):组内容不能出现左侧，不返回

>>> for m in re.finditer(r"\d+(?=[ab])","%123Abc%45xyz%780b&",re.I):

...     print m.group()

...

123

780

>>> for m in re.finditer(r"(?<!\d)[a-z]{3,}","%123Abc%45xyz%bysc&",re.I):

...     print m.group()

...

bysc

修改

split：用pattern做分割符切割字符串。如果用“(pattern)”,那么分隔符也会返回。

>>> re.split(r"\W","abc,123,x")

['abc', '', 'x']

>>> re.split(r"(\W)","abc,123,x")

['abc', ',', '', ',', 'x']
#将pattern使用括号引用起来，也返回分隔符

split(pattern, string, maxsplit=0)

    Split the source string by the occurrences of the pattern,

    returning a list containing the resulting substrings.

sub：替换子串，可指定替换次数：

>>> re.split(r"(\W)","abc,123,x")

['abc', ',', '', ',', 'x']

>>> re.sub(r"[a-z]+","*","abc,123,x")

'*,123,*'

>>>

>>> re.sub(r"[a-z]+","*","abc,123,x",1)

'*,123,x'

sub(pattern, repl, string, count=0)

    Return the string obtained by replacing the leftmost

    non-overlapping occurrences of the pattern in string by the

    replacement repl.  repl can be either a string or a callable;

    if a string, backslash escapes in it are processed.  If it is

    a callable, it's passed the match object and must return

    a replacement string to be used.

subn()和sub()差不多，不过返回"(新字符串，替换次数)"：

>>> re.subn(r"\W","*","abc,123,x")

('abc*123*x', 2)

还可以将替换字符串改成函数，以便替换成不同的结果：

>>> def repl(m):

...     print m.group()

...     return "*" *len(m.group())

...

>>> re.subn(r"[a-z]+",repl,"abc,123,x")

abc

x

('***,123,*', 2)

>>>

Python之re正则模块二的更多相关文章

Python自动化开发 - 常用模块(二)
本节内容 1.shutil模块 2.shelve模块 3.xml处理模块 4.configparser模块 5.hashlib模块 6.subprocess模块 7.re模块一.shutil模块高 ...
python中常用的模块二
一.序列化指:在我们存储数据的时候,需要对我们的对象进行处理,把对象处理成方便存储和传输的数据格式,这个就是序列化, 不同的序列化结果不同,但目的是一样的,都是为了存储和传输. 一,pickle.可 ...
python之路----常用模块二
collections模块在内置数据类型(dict.list.set.tuple)的基础上,collections模块还提供了几个额外的数据类型:Counter.deque.defaultdict. ...
Python基础-re正则模块
一.简介: 正则表达式:是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过re模块实现,正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行. 二.字 ...
python的logging日志模块(二)
晚上比较懒,直接搬砖了. 1.简单的将日志打印到屏幕 import logging logging.debug('This is debug message') logging.info('Thi ...
Python之re正则模块
正则表达式可以帮助我们更好的描述复制的文本格式,可以更好地利用它们对文本数据进行检索.替换.提取和修改操作. http://www.cnblogs.com/huxi/archive/2010/07/0 ...
Python 基础之正则之二匹配分组,正则相关函数及表达式修饰符
四.匹配分组 [元字符] 分组符号 a|b 匹配字符a 或字符b (如果两个当中有重合部分,把更长的那个放前面) (ab) 匹配括号内的表达式 ,将()作为一个分组 num 引用分组 ...
进击的Python【第五章】：Python的高级应用（二）常用模块
Python的高级应用(二)常用模块学习本章学习要点: Python模块的定义 time &datetime模块 random模块 os模块 sys模块 shutil模块 ConfigPar ...
小白的Python之路 day5 re正则模块
re正则模块一.概述就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,要讲他的具体用法要讲一本书!它内嵌在Python中,并通过 re 模块实现.你可以为想要匹配的相应字符串 ...

随机推荐

Quartz.NET实现作业调度
一.Quartz.NET介绍 Quartz.NET是一个强大.开源.轻量的作业调度框架,是 OpenSymphony 的 Quartz API 的.NET移植,用C#改写,可用于winform和asp ...
C#设计模式之七适配器模式（Adapter）【结构型】
一.引言从今天开始我们开始讲[结构型]设计模式,[结构型]设计模式有如下几种:适配器模式.桥接模式.装饰模式.组合模式.外观模式.享元模式.代理模式.[创建型]的设计模式解决的是对象创建的问题, ...
java web 学习总结之 Servlet/JSP 编码问题
Servlet和JSP编码问题字节流: 1.得到OutputStream 字节流 OutputStream os = response.getOutputStream(); 用默认编码输出数据 ...
Echarts数据可视化radar雷达坐标系，开发全解+完美注释
全栈工程师开发手册 (作者:栾鹏) Echarts数据可视化开发代码注释全解 Echarts数据可视化开发参数配置全解 6大公共组件详解(点击进入): title详解. tooltip详解.toolb ...
ios获取内核数目
#include <mach/mach_host.h> unsigned int countCores() { host_basic_info_data_t hostInfo; mach_ ...
【源码】canal和otter的高可靠性分析
一般来说,我们对于数据库最主要的要求就是:数据不丢.不管是主从复制,还是使用类似otter+canal这样的数据库同步方案,我们最基本的需求是,在数据不丢失的前提下,尽可能的保证系统的高可用,也就是在 ...
深入浅出 SpringMVC - 2 提升篇
前言: 本篇笔记是继深入浅出 SpringMVC - 1 后的续篇,主要介绍了 SpringMVC 的实际小应用,包括 SpringMVC 的数据格式化.使用 JSR 303 验证标准在 Spri ...
mysql分表场景分析与简单分表操作
为什么要分表首先要知道什么情况下,才需要分表个人觉得单表记录条数达到百万到千万级别时就要使用分表了,分表的目的就在于此,减小数据库的负担,缩短查询时间. 表分割有两种方式: 1水平分割:根据一列或多 ...
Vue.js2.0中的变化（持续更新中）
最近自己在学习Vue.js,在看一些课程的时候可能Vue更新太块了导致课程所讲知识和现在Vue的版本不符,从而报错,我会在以后的帖子持续更新Vue的变化与更新,大家也可以一起交流,共同监督学习! 1. ...
（转）利用JConsole工具监控java程序内存和JVM
转自:http://www.cnblogs.com/luihengk/p/5446279.html 一.找到java应用程序对应的进程PI 性能测试应用程序访问地址:http://192.168.29 ...

Python之re正则模块二

Python之re正则模块二的更多相关文章

随机推荐

热门专题