Python开发【模块】：re正则

re模块

序言：

re模块用于对python的正则表达式的操作

'.'     默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行

'^'     匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)

'$'     匹配字符结尾，或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以

'*'     匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac")  结果为['abb', 'ab', 'a']

'+'     匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']

'?'     匹配前一个字符1次或0次

'{m}'   匹配前一个字符m次

'{n,m}' 匹配前一个字符n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']

'|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'

'(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c

'[a-z]' 匹配a到z任意一个字符

'[^()]' 匹配除()以外的任意一个字符

r' '    转义引号里的字符 针对\字符  详情查看⑦

'\A'    只从字符开头匹配，re.search("\Aabc","alexabc") 是匹配不到的

'\Z'    匹配字符结尾，同$

'\d'    匹配数字0-9

'\D'    匹配非数字

'\w'    匹配[A-Za-z0-9]

'\W'    匹配非[A-Za-z0-9]

'\s'    匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'

'(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city")

结果{'province': '3714', 'city': '81', 'birthday': '1993'}

re.IGNORECASE  忽略大小写 re.search('(\A|\s)red(\s+|$)',i,re.IGNORECASE)

标志位即模式修正符，不改变正则表达式的情况下，通过模式修正符改变正则表达式的含义，从而实现一些匹配结果的调整等功能：　

# flags

I = IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # ignore case　　匹配时忽略大小写

L = LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale   做本地化识别匹配

U = UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode locale       根据Unicode字符及解析字符

M = MULTILINE = sre_compile.SRE_FLAG_MULTILINE # make anchors look for newline   多行匹配

S = DOTALL = sre_compile.SRE_FLAG_DOTALL # make dot match newline      让.匹配包括换行符，即用了该模式修正后，"."匹配就可以匹配任意的字符了

X = VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments

贪婪模式、懒惰模式：

import re

result1 =  re.search("p.*y","abcdfphp435pythony_py")   # 贪婪模式

print(result1)

# <_sre.SRE_Match object; span=(5, 21), match='php435pythony_py'>

result2 =  re.search("p.*?y","abcdfphp435pythony_py")   # 懒惰模式

print(result2)

# <_sre.SRE_Match object; span=(5, 13), match='php435py'>

match：

从起始位置开始根据模型去字符串中匹配指定内容：

#match

import re                               

obj = re.match('\d+', '123uua123sf')       #从第一个字符开始匹配一个到多个数字

print(obj)

#<_sre.SRE_Match object; span=(0, 3), match='123'>

if obj:                                   #如果有匹配到字符则执行，为空不执行

    print(obj.group())                    #打印匹配到的内容

#123

匹配ip地址：

import re

ip = '255.255.255.253'

result=re.match(r'^([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.'

                r'([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])$',ip)

print(result)

# <_sre.SRE_Match object; span=(0, 15), match='255.255.255.253'>

search：

根据模型去字符串中匹配指定内容（不一定是最开始位置），匹配最前

#search

import  re

obj = re.search('\d+', 'a123uu234asf')     #从数字开始匹配一个到多个数字

print(obj)

#<_sre.SRE_Match object; span=(1, 4), match='123'>

if obj:                                   #如果有匹配到字符则执行，为空不执行

    print(obj.group())                    #打印匹配到的内容

#123

import  re

obj = re.search('\([^()]+\)', 'sdds(a1fwewe2(3uusfdsf2)34as)f')     #匹配最里面（）的内容

print(obj)

#<_sre.SRE_Match object; span=(13, 24), match='(3uusfdsf2)'>

if obj:                                   #如果有匹配到字符则执行，为空不执行

    print(obj.group())                    #打印匹配到的内容

#(3uusfdsf2)

group与groups的区别：

#group与groups的区别

import  re

a = "123abc456"

b = re.search("([0-9]*)([a-z]*)([0-9]*)", a)

print(b)

#<_sre.SRE_Match object; span=(0, 9), match='123abc456'>

print(b.group())

#123abc456

print(b.group(0))

#123abc456

print(b.group(1))

#123

print(b.group(2))

#abc

print(b.group(3))

#456

print(b.groups())

#('123', 'abc', '456')

findall：

上述两中方式均用于匹配单值，即：只能匹配字符串中的一个，如果想要匹配到字符串中所有符合条件的元素，则需要使用 findall；findall没有group用法

#findall

import  re

obj = re.findall('\d+', 'a123uu234asf')     #匹配多个

if obj:                                   #如果有匹配到字符则执行，为空不执行

    print(obj)                             #生成的内容为列表

#['123', '234']

sub：

用于替换匹配的字符串(pattern, repl, string, count=0, flags=0)

#sub

import  re

content = "123abc456"

new_content = re.sub('\d+', 'ABC', content)

print(new_content)

#ABCabcABC

split：

根据指定匹配进行分组(pattern, string, maxsplit=0, flags=0)

#split

import  re

content = "1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )"

new_content = re.split('\*', content)       #用*进行分割，分割为列表

print(new_content)

#['1 - 2 ', ' ((60-30+1', '(9-2', '5/3+7/3', '99/4', '2998+10', '568/14))-(-4', '3)/(16-3', '2) )']

content = "'1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )'"

new_content = re.split('[\+\-\*\/]+', content)

# new_content = re.split('\*', content, 1)

print(new_content)

#["'1 ", ' 2 ', ' ((60', '30', '1', '(9', '2', '5', '3', '7', '3', '99', '4', '2998', '10', '568', '14))',

#  '(', '4', '3)', '(16', '3', "2) )'"]

inpp = '1-2*((60-30 +(-40-5)*(9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2))'

inpp = re.sub('\s*','',inpp)                #把空白字符去掉

print(inpp)

new_content = re.split('\(([\+\-\*\/]?\d+[\+\-\*\/]?\d+){1}\)', inpp, 1)

print(new_content)

#['1-2*((60-30+', '-40-5', '*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2))']

补充r' ' 转义：

fdfdsfds\fds

sfdsfds& @$

lzl.py

首先要清楚，程序读取文件里的\字符时，添加到列表里面的是\\：

import re,sys

li = []

with open('lzl.txt','r',encoding="utf-8") as file:

    for line in file:

        li.append(line)

print(li)                   # 注意：文件中的单斜杠，读出来后会变成双斜杠

# ['fdfdsfds\\fds\n', 'sfdsfds& @$']

print(li[0])                # print打印的时候还是单斜杠

# fdfdsfds\fds

r字符的意义，对字符\进行转义，\只做为字符出现：

import re,sys

li = []

with open('lzl.txt','r',encoding="utf-8") as file:

    for line in file:

        print(re.findall(r's\\f', line))  #第一种方式匹配

        # print(re.findall('\\\\', line))  #第二种方式匹配

        li.append(line)

print(li)                   # 注意：文件中的单斜杠，读出来后会变成双斜杠

# ['s\\f']

# []

# ['fdfdsfds\\fds\n', 'sfdsfds& @$']

补充：看完下面的代码你可能更懵了

import re

re.findall(r'\\', line)  # 正则中只能这样写 不能写成 r'\' 这样

print(r'\\')            # 只能这样写 不能写成r'\' \只能是双数

# \\        结果

# 如果想值打印单个\ 写成如下

print('\\')             # 只能是双数

# \         结果

总结：文件中的单斜杠\，读出到程序中时是双斜杠\\，print打印出来是单斜杠\；正则匹配文件但斜杠\时,用r'\\'双斜杠去匹配，或者不用r直接用'\\\\'四个斜杠去匹配

compile函数：

说明：

Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先使用re.compile()函数，将正则表达式的字符串形式编译为Pattern实例，

然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作

举一个简单的例子，在寻找一个字符串中所有的英文字符：

import re

pattern = re.compile('[a-zA-Z]')

result = pattern.findall('as3SiOPdj#@23awe')

print(result)

# ['a', 's', 'S', 'i', 'O', 'P', 'd', 'j', 'a', 'w', 'e']

匹配IP地址（255.255.255.255）：　　

import re

pattern = re.compile(r'^(([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.){3}([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])$')

result = pattern.match('255.255.255.255')

print(result)

# <_sre.SRE_Match object; span=(0, 15), match='255.255.255.255'>

Python开发【模块】：re正则的更多相关文章

python——re模块（正则表达）
python——re模块(正则表达) 两个比较不错的正则帖子: http://blog.csdn.net/riba2534/article/details/54288552 http://blog.c ...
Python之模块、正则
一.模块import 模块的实质就是把要导入模块里面的代码,从上到下执行一遍,找模块的顺序是,先从当前目录下找,找不到的话,再环境变量里面找导入的模块名字最好不要有.,a.import sysprin ...
python开发学习-day05(正则深入、冒泡排序算法、自定义模块、常用标准模块)
s12-20160130-day05 *:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: ...
python开发模块基础：re正则
一,re模块的用法 #findall #直接返回一个列表 #正常的正则表达式 #但是只会把分组里的显示出来#search #返回一个对象 .group()#match #返回一个对象 .group() ...
python re模块与正则
1. re模块 1.1 转义符正则表达式中的转义符在python的字符串中也刚好有转移的作用,但是正则表达式中的转义符和字符串中的转义符并没关系,且还容易有冲突. 为了避免这种冲突,我们所有的正则都 ...
python开发模块基础：正则表达式
一,正则表达式 1.字符组:[0-9][a-z][A-Z] 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示字符分为很多类,比如数字.字母.标点等等.假如你现在要求一个位置&q ...
python开发模块基础：异常处理&hashlib&logging&configparser
一,异常处理 # 异常处理代码 try: f = open('file', 'w') except ValueError: print('请输入一个数字') except Exception as e ...
python开发模块基础：os&sys
一,os模块 os模块是与操作系统交互的一个接口 #!/usr/bin/env python #_*_coding:utf-8_*_ ''' os.walk() 显示目录下所有文件和子目录以元祖的形式 ...
python开发模块基础：序列化模块json,pickle,shelve
一,为什么要序列化 # 将原本的字典.列表等内容转换成一个字符串的过程就叫做序列化'''比如,我们在python代码中计算的一个数据需要给另外一段程序使用,那我们怎么给?现在我们能想到的方法就是存在文 ...
python开发模块基础：time&random
一,time模块和时间有关系的我们就要用到时间模块.在使用模块之前,应该首先导入这个模块常用方法1.(线程)推迟指定的时间运行.单位为秒. time.sleep(1) #括号内为整数 2.获取当前 ...

随机推荐

Z字形扫描矩阵
问题描述在图像编码的算法中,需要将一个给定的方形矩阵进行Z字形扫描(Zigzag Scan).给定一个n×n的矩阵,Z字形扫描的过程如下图所示: 对于下面的4×4的矩阵, 1 5 3 9 3 7 5 ...
js省市二级联动
html: <script src="js/city.js"></script> ...... <body> <div class=&qu ...
在工程名.h头文件中写public:
class CaccessimageApp : public CWinApp { public: _ConnectionPtr m_pConnection; CaccessimageApp(); // ...
OpenCV学习：实现简单的图像叠加
本实例使用简单的线性叠加方法来实现两幅图像的叠加,主要使用的知识如下: 1)线性融合 2)addWeighted函数 //! computes weighted sum of two arrays ( ...
Java精选笔记_集合【Map(映射)接口】
Map(映射)接口简介该集合存储键值对,一对一对的往里存,并且键是唯一的.要保证map集合中键的唯一性. 从Map集合中访问元素时,只要指定了Key,就能找到对应的Value. 关键字是以后用于检 ...
YARN 中的应用程序提交
YARN 中的应用程序提交本节讨论在应用程序提交到 YARN 集群时,ResourceManager.ApplicationMaster.NodeManagers 和容器如何相互交互.下图显示了一个 ...
phpstrom配置
Android 实现动态匹配输入的内容 AutoCompleteTextView和MultiAutoCompleteTextView
AutoCompleteTextView1.功能:动态匹配输入的内容,如百度搜索引擎当输入文本时可以根据内容显示匹配的热门信息.2.独特属性:android:completionThreshold 设 ...
解决instance中文命名导致nova list报错问题
当创建instance之后,如果使用英文命名,执行nova list的时候,无问题,但是,如果instance中出现中文,执行nova list的时候,会报以下错误: [root@controller ...
django restframwork教程之Request和Response
从这一篇文章开始,我们会覆盖整个REST framwork框架的核心,接下来让我们介绍一些基础的构建块 Request 对象 REST framework 引入了一个扩展HttpRequest的请求对 ...

Python开发【模块】：re正则

re模块

Python开发【模块】：re正则的更多相关文章

随机推荐

热门专题