2016/1/28学习内容

第四章 Python字符串与正则表达式之正则表达式

正则表达式是字符串处理的有力工具和技术，正则表达式使用预定义的特定模式去匹配一类具有共同特征的字符串，主要用于字符串处理，可以快速，准确地完成复杂的查找，替换等处理要求。

Python中，re模块提供了正则表达式操作所需要的基本功能

正则表达式元字符

元字符: .

匹配除换行符意外的任意单个字符

元字符: *

匹配位于*之前的0个或多个字符

元字符： +

匹配位于+之前的1个或多个字符

元字符: |

匹配位于|之前或之后的字符

元字符: ^

匹配行首，匹配以^后面的字符开头的字符串

元字符: $

匹配行尾，匹配以$之前的字符结束的字符串

元字符: ?

匹配位于?之前的0个或1个字符

元字符: \

表示位于\之后的为转义字符

元字符: []

匹配位于[]中的任意一个字符

元字符: -

用在[]之内用来表示范围

元字符：()

将位于()内的内容作为一个整体对待

元字符: {}

按{}中的次数进行匹配

元字符: \b \B

匹配单词头或单词尾 \\不明意义

非单词头，单词尾

元字符： \d \D

匹配任何数字相当于[0-9]

相反

元字符: \s \S

匹配任何空白字符

相反

元字符: \w \W

匹配任何字母，数字，下划线，相当于[a-zA-Z0-9_]

相反

如果原字符串中有\d出现，想查找它，需要在正则中用\\\d
如果原子符串中有+[]等符号出现，想查找他，需要在正则前加一个\即可

注意事项

数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式”ab*”如果用于查找”abbbc”，将找到”abbb”。

而如果使用非贪婪的数量词”ab*?”，将找到”a”,加个问号代表尽可能少的匹配。

除非结尾有特定要求，一般都是贪婪的。

反斜杠的困扰

与大多数编程语言相同，正则表达式里使用”\”作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”\”，那么使用编程语言表示的正则表达式里将需要4个反斜杠”\\”：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的9原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r”\”表示。同样，匹配一个数字的”\d”可以写成r”\d”。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

re模块主要方法

compile(pattern,string[,flags]) //??

创建模式对象

search(pattern,string[,flags]) //??

在整个字符串中寻找模式，返回match对象或None

从全部

match(pattern，string[,flags]) //??

从字符串的开始出匹配模式，返回match对象或None

只是从开头

findall(pattern,string[,flags])

列出字符串中模式的所有匹配项

split(pattern,string[,maxsplit=0])

根据模式匹配项分割字符串

sub(pattern,repl,string[,count=0])

将字符串中所有pat的匹配项用repl替换

escape(string)

将字符串中所有特殊正则表达式字符转义

flags的值

其中函数参数flags的值可以是re.I(忽略大小写),re.L，re.M(多行匹配模式)，re.S(使元字符“.”匹配任意字符，包括换行),re.U(匹配Unicode),re.X(忽略模式中的空格,并可以使用#注释)的不同组合（使用“|”进行组合

直接使用re模块方法

import re

text='alpha. beta....gamma delta'

print(re.split('[\. ]+',text))

#['alpha', 'beta', 'gamma', 'delta']

print(re.split('[\. ]+',text,2))  #分隔两次

#['alpha', 'beta', 'gamma delta']

print(re.split('[\. ]+',text,1))  #分隔一次

#['alpha', 'beta....gamma delta']

pat='[a-zA-Z]+'

print(re.findall(pat,text))     #查找所有单词

#['alpha', 'beta', 'gamma', 'delta']

pat='{name}'

text='Dear {name}...'

print(re.sub(pat,'zhou yong',text)) #字符串替换

#Dear zhou yong...

s='a s d'

print(re.sub('a|s|d','good',s)) #字符串替换

#good good good

print(re.escape('http://www.python.org'))

#http:\/\/www\.python\.org

print(re.match('done|quit','done'))

#<_sre.SRE_Match object; span=(0, 4), match='done'>

print(re.match('done|quit','don!'))

#None

print(re.search('done|quit','dddone'))

#<_sre.SRE_Match object; span=(2, 6), match='done'>

下面的代码使用不同的方法删除字符串中多余的空格，如果遇到连续多个空格则只保留一个

import re

s='aaa   \t  bb     c d e ffff   '

#直接使用re模块的字符串替换方法

print(re.sub('\s+',' ',s))

#删除两顿的字符

print(' '.join(re.split('\s+',s.strip())))

下面的代码使用以”\”开头的元字符来实现字符串的特定搜索

import re

example="ShanDong Institute of Business and Technology is a very beautiful school. o "

print(re.findall(r'\ba.+?   \b',example))

#['and', 'a ']

#因为用的是+号一定要选择一个所以是'a '

print(re.findall(r'\ba.*?\b',example))  #以a开头的完整单词  .*?代表非贪婪匹配

#['and', 'a']

print(re.findall(r'\Bo.*?\b',example))  #不以o开头且含有o字母的单词剩余部分

#['ong', 'ology', 'ool']

print(re.findall(r'\b\w.*?\b',example)) #所有单词

#['ShanDong', 'Institute', 'of', 'Business', 'and', 'Technology', 'is', 'a', 'very', 'beautiful', 'school', 'o']

print(re.split('\s',example.strip()))   #使用空白字符分割字符

#['ShanDong', 'Institute', 'of', 'Business', 'and', 'Technology', 'is', 'a', 'very', 'beautiful', 'school.', 'o']

example="Python 2.7.8,Python 3.4.2" #查找并返回x.x.x形式的数字

print(re.findall(r"\d\.\d\.\d",example))

#['2.7.8', '3.4.2']

使用正则表达式对象

首先使用re模块的compile()方法将正则表达式编译生成正则表达式对象，然后再使用正则表达式对象提供的方法进行字符串处理，可以提高速度。

类似直接使用

import re

example='BBB'

pattern=re.compile(r'\bB\w+\b')

pattern.findall(example)

pattern.match(example)

pattern.search(example)

pattern.sub("*",example)

pattern.split(example)

子模式与match对象

子模式

使用圆括号”()”表示一个子模式，园括号内的内容作为一个整体出现，例如（red)+

小心使用圆括号，不要以为他是[]的替代品，注意代码的最后

无捕获分组..(?:string)

import re

telNumber="0535-1234567 010-12345678 025-87654321"

pattern=re.compile(r'\d{3,4}-\d{7,8}')

print(pattern.findall(telNumber))

#['0535-1234567', '010-12345678', '025-87654321']

pattern=re.compile(r'(\d{3,4})-(\d{7,8})')

print(pattern.findall(telNumber))           #用括号会输出一个tuple

#[('0535', '1234567'), ('010', '12345678'), ('025', '87654321')]

#

print(re.findall(r"[red]+","redredred"))

#['redredred']

print(re.findall(r"(red)+","redredred"))            #小心使用分组，输出结果只输出分组中的一部分

#['red']

#让正则把red看做一个整体，但又不分组.要用无捕获分组

print(re.findall(r"(?:red)+","redredred"))

#['redredred']

match对象

正则表达式模块或正则表达式对象的match()和search()方法匹配成功后都会返回match对象。match

对象的主要方法有

group()

返回匹配的一个或多个子模式内所有命名子模式内容的字典

groups()

返回所有子模式构建的元组

groupdict()

返回包含所有命名子模式内容的字典

start()

子模式内容的起始位置

end()

返回指定子模式内容的结束位置的前一个位置

span()

起始位置，结束位置的元组

子模式扩展语法

(?P

(?iLmsux)

设置匹配标志，可以是几个字母的组合，每个字母的含义与编译标志相同

例如忽略大小写之类

(?:…)

匹配但不捕获该匹配的子表达式

(?P=groupname)

表示在此之前的命名为groupname的子模式

用于表示查找结果相同的，见下面代码例子

(?#…) 不知道怎么用

表示注释

(?=…)

用于正则表达式之后，表示如果=后的内容在字符串中出现则匹配，但不返回=之后的内容

(?!…)

用于正则表达式之后，表示如果！后的内容在字符串中不出现则匹配，但不反回！之后的内容

(?<=…)

用于正则表达式之前，与(?=…)含义相同

前向界定必须用常数

(?

下面通过几个示例来演示子模式扩展语法的应用

pattern=re.compile(r'(?<=\w\s)way(?=\s\w)')   #查找不在句子开头和结尾的单词way是待查找单词

# 字母符号way符号字母 满足\w\sway\s\w，一定在句子中间

pattern=re.compile(r'\b(?i)n\w+\b')#查找以n或N字母开头的所有单词

pattern=re.compile(r'(\b\w*(?P<f>\w+)(?P=f)\w*\b)') #查找具有连续相同字母的单词

[Python笔记][第四章Python正则表达式]的更多相关文章

[Python学习笔记][第四章Python字符串]
2016/1/28学习内容第四章 Python字符串与正则表达式之字符串编码规则 UTF-8 以1个字节表示英语字符(兼容ASCII),以3个字节表示中文及其他语言,UTF-8对全世界所有国家需要 ...
Python笔记·第四章—— 细数Python中的数据类型以及他们的方法
一.数据类型的种类及主要功能 1.数字类型数字类型主要是用来计算,它分为整数类型int和浮点类型float 2.布尔类型布尔类型主要是用于判断,它分为真True和False两种 3.字符串类型字 ...
devi into python 笔记（四）python的类
import 与 from ... import ...: #types只是一个包,FunctionType只是这个包里的一个函数.这里用它来演示 import types #如果要用Function ...
[Python笔记][第三章Python选择与循环]
1月28日学习 Python选择与循环选择结构多分枝选择结构 if 表达式 1: 语句块 1 elif 表达式 2: 语句块 2 elif 表达式 3: 语句块 3 ... else : 语句块 ...
0003.5-20180422-自动化第四章-python基础学习笔记--脚本
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": " ...
[Python学习笔记][第五章Python函数设计与使用]
2016/1/29学习内容第四章 Python函数设计与使用之前的几页忘记保存了很伤心变量作用域 -一个变量已在函数外定义,如果在函数内需要修改这个变量的值,并将这个赋值结果反映到函数之外,可 ...
孤荷凌寒自学python第二十四天python类中隐藏的私有方法探秘
孤荷凌寒自学python第二十四天python类中隐藏的私有方法探秘 (完整学习过程屏幕记录视频地址在文末,手写笔记在文末) 今天发现了python的类中隐藏着一些特殊的私有方法. 这些私有方法不管我 ...
孤荷凌寒自学python第十四天python代码的书写规范与条件语句及判断条件式
孤荷凌寒自学python第十四天python代码的书写规范与条件语句及判断条件式 (完整学习过程屏幕记录视频地址在文末,手写笔记在文末) 在我学习过的所有语言中,对VB系的语言比较喜欢,而对C系和J系 ...
Android群英传笔记——第四章：ListView使用技巧
Android群英传笔记--第四章:ListView使用技巧最近也是比较迷茫,但是有一点点还是要坚持的,就是学习了,最近离职了,今天也是继续温习第四章ListView,也拖了其实也挺久的了,list ...

随机推荐

<.net>委托初探
最近在学<.net深入体验与实战精要>. 今天就来初步讲解下委托. 一句话:委托定义了方法类型,可以将方法当做另一个方法的参数进行传递.委托包涵的只是方法的地址,而不是数据.类似于c指针. ...
C#高级编程第2章-核心C#
内容提要: 声明变量:变量的初始化和作用域:C#的预定义数据类型:在C#程序中使用条件语句.循环和跳转语句指定执行流:枚举:名称空间: Main()方法:基本命令行C#编译器选项:使用System.C ...
Microsoft Visual Studio 产品密钥
Microsoft Visual Studio 2010 产品密钥:YCFHQ-9DWCY-DKV88-T2TMH-G7BHP Microsoft Visual Studio 2013 产品密钥:BW ...
C# XML 根级别上的数据无效
XmlDocument加载xml方法 XmlDocument doc = new XmlDocument(); //加载xml 字符串 doc.LoadXml(_Store); //加载xml文件 d ...
LNMP优化
LNMP优化 LNMP优化从系统安全,系统资源占用率,及web服务并发负载这三个方面体现,并且主要体现在web服务并发负载这一方面. 1:首先进行linux优化加固 Linux ...
全世界最详细的图形化VMware中linux环境下oracle安装（二）【weber出品必属精品】
<ORACLE 10.2.05版本的升级补丁安装> 首先我们解压 $ unzip p8202632_10205_LINUX.zip 解压后我们会发现多出了个文件夹,他是:Disk1,进入D ...
0301——UItableView
- (void)viewDidLoad { [super viewDidLoad]; self.myTableView = [[UITableView alloc]initWithFrame:CGRe ...
EF 执行顺序--先删除在更新和添加
public void AcceptAllChanges() { if (this.ObjectStateManager.SomeEntryWithConceptualNullExists()) { ...
Service Lane
Link https://www.hackerrank.com/challenges/service-lane def main(): n, t = map(int, raw_input().spli ...
find the safest road--hdu1596
find the safest road Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...

[Python笔记][第四章Python正则表达式]

2016/1/28学习内容

第四章 Python字符串与正则表达式之正则表达式

正则表达式元字符

元字符: .

元字符: *

元字符： +

元字符: |

元字符: ^

元字符: $

元字符: ?

元字符: \

元字符: []

元字符: -

元字符：()

元字符: {}

元字符: \b \B

元字符： \d \D

元字符: \s \S

元字符: \w \W

注意事项

数量词的贪婪模式与非贪婪模式

反斜杠的困扰

re模块主要方法

compile(pattern,string[,flags]) //??

search(pattern,string[,flags]) //??

match(pattern，string[,flags]) //??

findall(pattern,string[,flags])

split(pattern,string[,maxsplit=0])

sub(pattern,repl,string[,count=0])

escape(string)

flags的值

直接使用re模块方法

使用正则表达式对象

子模式与match对象

子模式

match对象

子模式扩展语法

(?P

(?iLmsux)

(?:…)

(?P=groupname)

(?#…) 不知道怎么用

(?=…)

(?!…)

(?<=…)

(?

下面通过几个示例来演示子模式扩展语法的应用

[Python笔记][第四章Python正则表达式]的更多相关文章

随机推荐

热门专题