Python开发【第一篇】Python基础之正则表达式补充

正则表达式

一简介：
就其本质而言，正则表达式（或RE）是一种小型的、高度专业化的标称语言，
（在Python中）它内嵌在Python中，并通过re模块实现。正则表达式模式被
编译成一系列的字节码，然后由用C编写的匹配引擎执行。

先导入后执行：
import re

二、字符匹配：

字符匹配（普通字符，元字符）：
普通字符：大多数字符和字母都会和自身匹配
>>> re.findall('alex','yuanaleSxalexwupeiqi')
['alex']

2元字符：. ^ $ * + ? {} [] | () \

我们首先考察的元字符是“[”和"]"。它们常用来指定一个字符类别，所有字符类
别就是你想匹配的一个字符集。字符可以单个列出，也可以用“-”号分隔的两个给定
字符来表示一个字符区间。例如，[abc]将匹配“a”,"b",或"c"中的任意一个字符；
也可以用区间[a-c]来表示同一字符集，和前者效果一致。如果你只想匹配小写
字母，那么RE应写成[a-z].
元字符在类别里并不起作用。例如，[akm$]将匹配字符"a","k","m",或"$"中
的任意一个；"$"通常用作元字符，但在字符类别中，其特性被除去，恢复成普通字符。

():
#!python
>>> p = re.compile('(a(b)c)d')
>>> m = p.match('abcd')
>>> m.group(0)
'abcd'
>>> m.group(1)
'abc'
>>> m.group(2)
'b'
[]:元字符[]表示字符类，在一个字符类中，只有字符^、-、]和\有特殊含义。
字符\仍然表示转义，字符-可以定义字符范围，字符^放在前面，表示非.

. 匹配到换行符之外得任何一个字符
+ 匹配+号前内容1次至无限次
? 匹配?号前内容0次到1次
{m} 匹配前面的内容m次
{m,n} 匹配前面的内容m到n次
*?,+?,??,{m,n}? 前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

从前面的描述可以看到'*','+'和'*'都是贪婪的，但这也许并不是我们说要的，
所以，可以在后面加个问号，将策略改为非贪婪，只匹配尽量少的RE。示例，
体会两者的区别：
>>> re.findall(r"a(\d+?)","a23b") #非贪婪模式
['2']
>>> re.findall(r"a(\d+)","a23b")
['23']

>>> re.search('<(.*)>', '<H1>title</H1>').group()
'<H1>title</H1>'
re.search('<(.*?)>', '<H1>title</H1>').group()
'<H1>'

注意比较这种情况：
>>> re.findall(r"a(\d+)b","a23b")
['23']
>>> re.findall(r"a(\d+?)b","a23b") #如果前后均有限定条件，则非匹配模式失效

\:
反斜杠后边跟元字符去除特殊功能。
反斜杠后边跟普通字符实现特殊功能。
引用序号对应的字组所匹配的字符串。
re.search(r"(alex)(eric)com\2","alexericcomeric")

\d 匹配任何十进制数；它相当于类 [0-9]。
\D 匹配任何非数字字符；它相当于类[^0-9]。
\s 匹配任何空白字符；它相当于类[\t\n\r\f\v]。
\S 匹配任何非空白字符；它相当于类[^ \t\n\r\f\v]。
\w 匹配任何字母数字字符；它相当于类[a-zA-Z0-9]。
\W 匹配任何非字母数字字符；它相当于类[^a-zA-Z0-9]。
\b: 匹配一个单词边界，也就是指单词和空格间的位置。
匹配单词边界（包括开始和结束），这里的“单词”，是指连续的字母、数字和下划线租场的字符串。注意\b的定义是\w和\W的交界，
这是个零宽界字符（zero-width assertions）只用以匹配单词的词首和词尾。
单词被定义为一个字母数字序列，因此词尾就是用空白符或非字母数字符来标示的。

r是按照原生字符来匹配。
>>> re.findall('I','I am hanIsome')
['I', 'I']
>>> re.findall(r'I\b','I am hanIsome')
['I']
>>> re.findall(r'I\b','I&am hanIsome')
['I']

练习：

匹配除换行符以外的任意字符:
re.findall('al.x','yuanaleSxalexwupeiqi')
^起始位置匹配：
re.findall('^al.x','alexyuanaleSxalexwupeiqi'
$末尾位置匹配：

*匹配0到多次：
re.findall('al.*x','yuanaleSxalexwupeiqi')
匹配+号前内容1次至无限次：
re.findall('al.+x','yuanaleSxaleexwupeiqi')
匹配?号前内容0次到1次：
re.findall('al.?x','yuanaleSxalxwupeiqi')
re.findall('al.?x','yuanaleSxalwxwupeiqi')
匹配前面的内容m到n次：
re.findall('al.{1,5}x','yuanSxalweeeexwupeiqi')
re.findall('ald{,6}x','yuanSxalddddddxwupeiqi')（注：匹配前面的d，0到6次）
[]匹配：
re.findall('a[bc]d','abd')
re.findall('a[a-c]d','abd')
re.findall('a[a-z]+d','agbd')
re.findall('a[a*]d','a*d') （注：特殊）
re.findall('a[1-9]d','a4d')
^尖角符在[]是非：
re.findall('a[^f]d','abd')
\匹配：
re.findall('a[\d]d','a2d')(注：\d代表数字的意思)
re.findall('a\wd','a_d')（注：包括下划线）
re.findall(r'I\b','I am hanIsome')（用到了原生字符r匹配空格）

三、函数

1)
match: re.match(pattern, string, flags=0)
flags 编译标志位，用于修改正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。
#.group（）是拿到匹配到得值，是match的一个方法。
re.match('com','comwww.runcomoob').group()
re.match('com','Comwww.runComoob',re.I).group()

2)
search:re.search(pattern,string,flags=0)
re.search('\dcom','www.4comrunoob.5com').group()

注意：
findall 是应用最广得。
re.match('com','comwww.runcomoob')
re.search('\dcom','www.4comrunoob.5com')
一旦匹配成功，就是一个match object 对象，而match object对象拥有以下方法：
group()返回被 RE 匹配的字符串
start()返回匹配开始的位置
end()返回匹配结束的位置
span()返回一个元组包含匹配（开始，结束）的位置
group()返回re整体匹配的字符串，可以一次输入多个组号，对应组号匹配的字符串。
1. group()返回re整体匹配的字符串。
2. group (n,m)返回组号为n，m所匹配的字符串，如果组号不存在，则返回indexError异常
3.groups()groups()方法返回一个包含正则表达式中所有小组字符串的元组，从1到所含的小组好，通常groups()不需要参数，返回一个元组，元组中的元就是正则表达式中定义的组。
import re
a = "123abc456"
re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0) #123abc456,返回整体
re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1) #123
re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2) #abc
re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3) #456

group(1)列出第一个括号匹配部门，group(2)列出第二个括号匹配部分，group(3)列出第三个括号匹配部分。

3)
findall：
re.findall 以列表形式返回所有匹配的字符串
re.findall 可以获取字符串中所有匹配的字符串。如：

p = re.compile(r'\d+')
print p.findall('one1two2three3four4')

re.findall(r'\w*oo\w*', text);获取字符串中，包含'oo'的所有单词。

import re
text = "JGood is a handsome boy, he is handsome and cool,clever,and so on ...."
print re.findall(r'\w*oo\w*',text) #结果：['JGood','cool']
#print re.findall(r'(\w)*oo(\w)*',text) # ()表示子表达式结果：[('G','d'),('c','l')]

finditer():

>>> p = re.compile(r'\d+')
>>> iterator = p.finditer('12 drumm44ers drumming, 11... 10 ...')
>>> for match in iterator:
match.group(),match.span()

4)
sub subn:

re.sub(pattern, repl, string, max=0)
re.sub("g.t","have",'I get A, I got B, I gut C')

re.sub("g.t","have",'I get A, I got B, I gut C',2)
#后面2 数字，是最大替换次数

re.subn("g.t","have",'I get A, I got B, I gut C')
subn不仅全替换了，而且把替换得次数也打印出来。

5)
split:
p = re.compile(r'\d+')
p.split('one1two2tree3four4')

re.split('\d+','one1two2three3four')

6)
re.compile(strPattern[, flag]):
这个方法是Pattern类的工厂方法，用于将字符串形式的正则表达式编译为
Pattern对象。第二个参数flag是匹配模式，取值可以使用按位或运算符'|'
表示同时生效，比如re.I | re.M
可以把正则表达式编译成一个正则表达式对象。可以把那些经常使用的正则
表达式编译成正则表达式对象，这样可以提高一定的效率。下面是一个正则表达式对象的一个例子：

import re
text = "JGood is a handsome boy, he is cool, clever, and so on..."
regex = re.compile(r'\w*oo\w*')
print regex.findall(text) #查找所有包含'oo'的单词

原生字符串 r:

a = re.search(r'\bblow','blow')

正则分组：
去已经匹配到的数据中再提取数据

Python开发【第一篇】Python基础之正则表达式补充的更多相关文章

Python开发第一篇 python的前世今生
Python前世今生 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为ABC ...
Python【第一篇】基础介绍
一.本节主要内容 Python介绍发展史 Python 2 or 3? 安装 Hello World程序变量用户输入模块初识 .pyc文件数据类型初识数据运算表达式if ...else语 ...
python开发第一篇：初识python
一. Python介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,作为AB ...
Python开发第一篇
Python 是什么? 首先他可能是比较好的一个编程开发语言!
Python unittest第一篇：基础入门+命令行编译
unittest单元测试框架最初受JUnit启发,与其他语言的主要单元测试框架具有相似的风格. 它支持测试自动化,支持开启或关闭某个测试,支持结合测试.另外它可以生成各个单元测试的报告.为了实现以上功 ...
图解Python 【第一篇】：Python基础1
本节内容一览图一.Python简介 Python前世今生 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间, ...
《python开发技术详解》|百度网盘免费下载|Python开发入门篇
<python开发技术详解>|百度网盘免费下载|Python开发入门篇提取码:2sby 内容简介 Python是目前最流行的动态脚本语言之一.本书共27章,由浅入深.全面系统地介绍了利 ...
各位大佬Python的第一部分道基础题已经整理好了，希望大家面试的时候能用的上。
Python的第一部分道基础题,希望大家面试的时候能用的上. 1.为什么学习Python? Python是目前市面上,我个人认为是最简洁.最优雅.最有前途.最全能的编程语言,没有之一. 2.通过什么途 ...
python第一篇-------python介绍
一.python介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,Guido开始写Python语言的编译器.Python这个名字,来自Guido所 ...
web前端学习python之第一章_基础语法(二)
web前端学习python之第一章_基础语法(二) 前言:最近新做了一个管理系统,前端已经基本完成, 但是后端人手不足没人给我写接口,自力更生丰衣足食, 所以决定自学python自己给自己写接口哈哈哈 ...

随机推荐

2.1.5　用SSS扫描器实施扫描
SSS(Shadow Security Scaner)是一款著名的系统漏洞扫描器,可对很大范围内的系统漏洞进行安全.高效.可靠的安全检测,其系统扫描的速度与精度足以让用户敢和专业安全机构的人以及那些专 ...
Android 高级UI设计笔记12：ImageSwitcher图片切换器
1. ImageSwitcher ImageSwitcher是Android中控制图片展示效果的一个控件,如:幻灯片效果...,颇有感觉啊.做相册一绝 2. 重要方法 setImageURI(Uri ...
解决eclipse下pydev的unresolved import的问题
有些模块,比如PIL,已经装入过,但是在pydev中无法自动提示,甚至有报 unresolved import的问题,虽然不会引起运行时问题,但是无法实现自动提示,还是一件很麻烦的事情. 下面有个 ...
NSOperation与GCD之间的关系
NSOperation与GCD的相同之处 1.NSOperation和NSOperationQueue实现多线程的步骤: 先将需要执行的操作封装到一个NSOperation对象中. 然后将NSOper ...
前端开发调试工具控制台之console命令详解
控制台(Console)是Firebug的第一个面板,也是最重要的面板,主要作用是显示网页加载过程中产生各类信息. 一.显示信息的命令 Firebug内置一个console对象,提供5种方法,用来显示 ...
《UNIX环境高级编程》学习心得三
输入和输出 1.文件描述符文件描述符(file descriptor)可以理解为内核在某个进程中访问一个文件时,内核向进程返回的一个非负整数.在内核使用open或creat打开一个现有文件或者创建一 ...
VC++ UTF-8与GBK格式转换
// 注释:多字节包括GBK和UTF-8 int GBK2UTF8(char *szGbk,char *szUtf8,int Len) { // 先将多字节GBK(CP_ACP或ANSI)转换成宽字符 ...
Tornado web.authenticated 用户认证浅析
在Web服务中会有用户登录后的一系列操作, 如果一个客户端的http请求要求是用户登录后才能做得操作, 那么 Web服务器接收请求时需要判断该请求里带的数据是否有用户认证的信息. 使用Tornado框 ...
基于Socket的UDP发包程序
UDP(User Datagram Protocol,用户数据报协议)是在互联网中常用的传输层协议,该协议提供了向另一用户程序发送的消息的最简便的协议机制.与TCP一样,其默认的下层协议是IP.UDP ...
【CSS3】---结构性伪类选择器-first-child+last-child
结构性伪类选择器—first-child “:first-child”选择器表示的是选择父元素的第一个子元素的元素E.简单点理解就是选择元素中的第一个子元素,记住是子元素,而不是后代元素. 示例演示 ...

Python开发【第一篇】Python基础之正则表达式补充

正则表达式

Python开发【第一篇】Python基础之正则表达式补充的更多相关文章

随机推荐

热门专题