re模块有什么用？

在文本或者字符串内获取你所需要的东西

s = '孙悟空找猪八戒找媳妇高翠兰,然后吃西瓜'

import re

res = re.findall('媳妇(.{3})', s)

print(res)

['高翠兰']

re模块的基础使用

import re

s = '孙悟空找猪八戒找媳妇高翠兰,然后吃西瓜,再吃西瓜'

res = re.findall('西瓜', s)

print(res)

['西瓜', '西瓜']

元字符

元字符会有特殊的意义
常用的元字符

    1. ^  从开头进行匹配

    2. $  从结尾进行匹配

    3. |  相当于or，或者的意思

    4. [] 找到[]内的任意一个元素的所有元素，^放在里面就是反取

    5. .  任意一个字符

    6. {3}大括号前面的字符匹配3次，{m,n}匹配前一个字符m至n次，{m,}则匹配m至无限次

    7. *  前面的字符匹配0-无穷个

    8. +  前面的字符匹配1-无穷个

    9. ?  前面的字符匹配0-1个

    10. \d 匹配数字[0-9]

    11. \s 空白字符（包括\t\r\n\f\v）

    12. \w 匹配字符,字母，数字，下划线

    13. 上面三个如果是大写，就是反取，[]内使用^也是反取

    14. .*? 用了你会爱上它

^ $ |

s = '孙悟空找猪八戒找媳妇西高翠兰,然后吃西瓜,再吃西瓜'

# ^ 匹配开头的

res = re.findall('^孙悟空', s)

print(res)

# $ 匹配结尾的

res = re.findall('$猪八戒', s)

print(res)

# | 相当于or

res = re.findall('猪八戒|孙悟空', s)

print(res)

['孙悟空']

[]

['孙悟空', '猪八戒']

[] .

# [] 找到[]内任意一个元素的所有元素

s = 'abcdefgabckdjfkljsadalasjkdlfjklbkljklfjc'

res = re.findall('[a, b, c]', s)

print(res)

# [^a-z]反取

#匹配出除字母外的字符，^元字符如果写到字符集里就是反取

a = re.findall("[^a-z]", "匹配s这s个字符串是否s匹配f规则re则")  # 反取，匹配出除字母外的字符

print(a)

# .  任意一个字符

s = '孙悟空找猪八戒找媳妇高翠兰,然后吃西瓜,再吃西瓜'

res= re.findall('媳妇...', s)

print(res)

['a', 'b', 'c', 'a', 'b', 'c', 'a', 'a', 'a', 'b', 'c']

['匹', '配', '这', '个', '字', '符', '串', '是', '否', '匹', '配', '规', '则', '则']

['媳妇高翠兰']

{} * + ?

# {3} 大括号前面的字符匹配三次

s = '孙悟空找猪八戒找媳妇妇妇妇高翠兰,然后吃西瓜,再吃西瓜'

res = re.findall('媳妇{3}', s)

print(res)

# * 前面的字符匹配 0-无穷个

s = '孙悟空找猪八戒找媳高翠兰,然后吃西瓜,再吃西瓜'

res = re.findall('媳妇*',s)

print(res)

# + 前面的字符匹配 1-无穷个

res = re.findall('媳妇+', s)

print(res)

# ? 前面的字符匹配0-1个

s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后吃西瓜,再吃西瓜'

res = re.findall('媳妇?', s)

print(res)

['媳妇妇妇']

['媳']

[]

['媳妇']

\d \s \w

# \d 数字

# 符号可以连在一起使用

s = '孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西234234瓜,再吃   西瓜'

res = re.findall('\d+', s)

print(res)

# \D

res = re.findall('\D*', s)

print(res)

['234234']

['孙悟空找猪八戒找媳妇妇妇高翠兰,然后asdfasdf吃西', '', '', '', '', '', '', '瓜,再吃   西瓜', '']

# \s 空

s = '孙悟空找猪八戒找媳妇妇妇高翠兰,,再吃   西瓜'

res = re.findall('\s+', s)

print(res)

# \S 费控

res = re.findall('\S*', s)

print(res)

['   ']

['孙悟空找猪八戒找媳妇妇妇高翠兰,,再吃', '', '', '', '西瓜', '']

# \w 字符，字母，数字，下划线

s = '孙悟空找猪八戒找媳妇高$$$$$@@@@翠兰,然____后asddf吃西234234瓜'

res = re.findall('\w+', s)

print(res)

# \W 非字符，字母，数字，下划线

res = re.findall('\W+', s)

print(res)

['孙悟空找猪八戒找媳妇高', '翠兰', '然____后asddf吃西234234瓜']

['$$$$$@@@@', ',']

终极

贪婪模式

一直找
.* 代表所有的

s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜妇'

# 从第一个猪找到最后一个妇去了

res = re.findall('猪.*妇', s)

print(res)

['猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜妇']

非贪婪模式

?就是停止符，找到一个就停止

s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜妇'

res = re.findall('猪.*?妇', s)

print(res)

['猪八戒找媳妇']

睡眠革命

re模块高级

comple

写一个通用的规则模版

import re

s = '孙悟空找猪八戒找媳妇妇妇高$$$$$@@@@翠兰,然____后asdfasdf吃西234234瓜,再吃   西瓜妇'

res1 = re.compile('\d+')

res2 = re.compile('\w+')

res3 = re.compile('\s+')

result1 = res1.findall(s)

result2 = res2.findall(s)

result3 = res3.findall(s)

print(result1)

print(result2)

print(result3)

phone_compile = re.compile('1\d{10}')

email_compile = re.compile('\w+@\w+.\w+')

test_s = '12345678900  nickchen121@163.com  22812373393@qq.com'

res_phone = phone_compile.findall(test_s)

print(res_phone)

res_email = email_compile.findall(test_s)

print(res_email)

['234234']

['孙悟空找猪八戒找媳妇妇妇高', '翠兰', '然____后asdfasdf吃西234234瓜', '再吃', '西瓜妇']

['   ']

['12345678900']

['nickchen121@163.com', '22812373393@qq.com']

match和search

match和search的区别，match从开头开始匹配找一个，search搜索所有找第一个

s = '猪八戒找媳妇猪八戒'

# s = '孙悟空找媳妇猪八戒'    # match会报错，除非不用group

match_res = re.match('猪八戒', s)   # 从开头匹配，取一个

print(match_res.group())

search_res = re.search('猪八戒',s)  # 搜索一个

print(search_res.group())

猪八戒

猪八戒

分组函数

?P<n1> # ?P<>定义组里匹配内容的key(键)，<>里面写key名称，值就是匹配到的内容（只对正则函数返回对象时有用）

取出匹配对象方法

只对正则函数返回对象的有用

group() # 获取匹配到的所有结果，不管有没有分组将匹配到的全部拿出来，有参取匹配到的第几个如2
groups() # 获取模型中匹配到的分组结果，只拿出匹配到的字符串中分组部分的结果
groupdict() # 获取模型中匹配到的分组结果，只拿出匹配到的字符串中分组部分定义了key的组结果

origin = "hello world"

# 有两个分组定义了key

# 为何要有分组？提取匹配成功的指定内容（先匹配成功全部正则，再匹配成功的局部内容提取出来）

# ?P<>定义组里匹配内容的key(键)，<>里面写key名称，值就是匹配到的内容

r = re.match("(?P<n1>h)(?P<n2>\w+)", origin)

print(r.group())  # 获取匹配到的所有结果，不管有没有分组将匹配到的全部拿出来

print(r.groups())  # 获取模型中匹配到的分组结果，只拿出匹配到的字符串中分组部分的结果

print(r.groupdict())  # 获取模型中匹配到的分组结果，只拿出匹配到的字符串中分组部分定义了key的组结果

hello

('h', 'ello')

{'n1': 'h', 'n2': 'ello'}

re.split()

就是字符串的split方法，区别是可以使用正则表达式去替换

import re

s = '猪八戒的媳妇是1高翠兰，孙悟空的媳妇是2白骨精，唐僧的媳妇是3女儿国王，沙悟净没有媳妇（py9的学生们）'

print(s.split('，'))

print('-'*50)

res = re.split('\d+',s)

print(res)

s = '猪八戒的媳妇是a高翠兰，孙悟空的媳A妇是b白骨精，唐僧的B媳妇是z女儿国王，沙悟净没有媳妇（py9的学生们）'

print('-'*50)

print(s.split('，'))

print('-'*50)

res = re.split('[a-zA-Z]',s)  # a,b,c,

print(res)

['猪八戒的媳妇是1高翠兰', '孙悟空的媳妇是2白骨精', '唐僧的媳妇是3女儿国王', '沙悟净没有媳妇（py9的学生们）']

--------------------------------------------------

['猪八戒的媳妇是', '高翠兰，孙悟空的媳妇是', '白骨精，唐僧的媳妇是', '女儿国王，沙悟净没有媳妇（py', '的学生们）']

--------------------------------------------------

['猪八戒的媳妇是a高翠兰', '孙悟空的媳A妇是b白骨精', '唐僧的B媳妇是z女儿国王', '沙悟净没有媳妇（py9的学生们）']

--------------------------------------------------

['猪八戒的媳妇是', '高翠兰，孙悟空的媳', '妇是', '白骨精，唐僧的', '媳妇是', '女儿国王，沙悟净没有媳妇（', '', '9的学生们）']

sub和subn

都是用来替换内容，但是subn会计算替换的次数，类似于字符串的replace方法

s = '猪八戒的媳妇是1高翠兰，孙悟空的媳妇是2白骨精，唐僧的媳妇是3女儿国王，沙悟净6没有媳妇（py9的学生们）'

res = re.sub('\d', '', s)

print(res)

print('-'*50)

res = re.subn('\d', '', s)

print(res)

猪八戒的媳妇是高翠兰，孙悟空的媳妇是白骨精，唐僧的媳妇是女儿国王，沙悟净没有媳妇（py的学生们）

--------------------------------------------------

('猪八戒的媳妇是高翠兰，孙悟空的媳妇是白骨精，唐僧的媳妇是女儿国王，沙悟净没有媳妇（py的学生们）', 5)

分组

需要的东西加括号就行了，括号外的东西不打印

import re

s = '猪八戒的媳妇是高翠兰，孙悟空的媳妇是白骨精，唐僧的媳妇是女儿国王，沙悟净没有媳妇（py9的学生们）'

res = re.findall('(.*?)的媳妇是(.*?)(，)',s)

print(res)

[('猪八戒', '高翠兰', '，'), ('孙悟空', '白骨精', '，'), ('唐僧', '女儿国王', '，')]

typing

day28 re(正则)模块的更多相关文章

Python全栈开发【re正则模块】
re正则模块本节内容: 正则介绍元字符及元字符集元字符转义符 re模块下的常用方法正则介绍(re) 正则表达式(或 RE)是一种小型的.高度专业化的编程语言. 在Python中,它内嵌在Pyt ...
python_way day6 反射，正则模块（进度条，hash）
python_way day6 反射正则模块 sys,os,hashlib 一.模块: 1.sys & os: 我们在写项目的时候,经常遇到模块互相调用的情况,但是在不同的模块下我们通过什 ...
小白的Python之路 day5 re正则模块
re正则模块一.概述就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,要讲他的具体用法要讲一本书!它内嵌在Python中,并通过 re 模块实现.你可以为想要匹配的相应字符串 ...
认识python正则模块re
python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python ...
Python3中正则模块re.compile、re.match及re.search函数用法详解
Python3中正则模块re.compile.re.match及re.search函数用法 re模块 re.compile.re.match. re.search 正则匹配的时候,第一个字符是 r,表 ...
008---re正则模块
re正则模块字符串的匹配规则匹配模式 re.match() re.search() re.findall() re.split() re.sub() 元字符 print('------------ ...
day22、模块-basedir、os、json模块、pickle和正则模块。
四.正则. re模块: 作用:针对的对象:字符串, 课前引入: 例子一. s='dsdsadsadadsalexdsds's.find('alex') 如何找到字符串内部的alex;?过去学习可使用方 ...
21 re正则模块垃圾回收机制
垃圾回收机制不能被程序访问到的数据,就称之为垃圾引用计数引用计数:用来记录值的内存地址被记录的次数的:当一个值的引用计数为0时,该值就会被系统的垃圾回收机制回收每一次对值地址的引用都可以使该值 ...
Python——正则模块
1.re模块是用来操作正则表达式 2.正则表达式——用来字符串匹配的 (1)字符组:[字符组] 例如[0123fdsa456*/-] [0-9] 等同于[0123456789] [a-z] 匹配小写 ...

随机推荐

ro多层的事务处理失败的困惑
现象: 用 :: ::'' 在客户端用上面的语句取得数据,然后修改数据,通过RO的web service提交数据失败: 用 -- ::-- ::'‘ 在客户端用上面的语句取得数据,然后修改数据,通过R ...
__call__ 和 __str__ 魔术方法
魔术方法,在python中,是通过触发的形式调用,之所以称为魔术方法,是因为不需要特地的打印或调用它,在某些特定的时候,他会自己调用,所谓的特定的时候,也是我们自己所输入的代码操作的,不是莫名其妙的触 ...
使用Neo4j和简单分词算法实现菜品推荐系统
背景:本推荐系统基于一款硬件产品--旺小宝桌牌.客人按下点餐按钮,扫码进入点餐界面,然后开始点自己喜欢的菜,在手机端下单.目前在成都已有近200家合作餐饮商家. 菜品推荐功能: 当客人在某商家使用桌牌 ...
葵花宝典之机器学习：全网最重要的AI资源都在这里了（大牛，研究机构，视频，博客，书籍，Quora......）
https://blog.csdn.net/wemedia/details.html?id=42039
ubuntu-kill命令-杀死进程
显示进程pid ps -A 杀进程的命令 kill -s 9 xxx(进程pid)
洛谷—— P2014 选课
https://www.luogu.org/problem/show?pid=2014 题目描述在大学里每个学生,为了达到一定的学分,必须从很多课程里选择一些课程来学习,在课程里有些课程必须在某些课 ...
C#中数组的使用
1.简单数组: 声明: int[] myArray 初始化: 声明了数组后,就必须为数组分配内存来保存数组的全部元素.特别注意的是数组是引用类型.故须要使用new运算符来指定数组中元素的类型和数量来初 ...
ssh的tunnel设置+autossh设置
tunnel设置一.说明用于通过ssh转发数据二.设置编辑ssh server的'2Fetc/ssh/sshd_config 加入下面: #反向遂道 GatewayPorts yes #正向 ...
[think in java]第12章通过异常处理错误
异常处理是java中唯一正式的错误报告机制. 而且通过编译器强行运行. 异常參数抛出异常与方法正常返回值的差别:异常返回的"地点"与普通方法调用返回的"地点" ...
Oracle学习(十二)：存储过程/存储函数
1.知识点 --第一个存储过程 /* 打印Hello World create [or replace] PROCEDURE 过程名(參数列表) AS PLSQL子程序体: 调用存储过程: 1. ex ...

day28 re(正则)模块

re模块有什么用？

re模块的基础使用

元字符

终极

贪婪模式

非贪婪模式

re模块高级

comple

match和search

分组函数

re.split()

sub和subn

分组

typing

day28 re(正则)模块的更多相关文章

随机推荐

热门专题