Python中的正则
regex_lst = [
('字符组',),
('非打印字符',),
('特殊字符',),
('定位符',),
('限定符',),
('re模块',),
('分组命名',),
('或匹配',),
('贪婪匹配与惰性匹配',),
]
字符组
[0-9]
[a-z]
[A-Z]
[^a]
非打印字符
\w 匹配字母,数字,下划线 word
\s 匹配空字符 space
\d 匹配数字 digit
特殊字符
. 匹配除换行符 \n 之外的任何单字符
定位符
^ 匹配字符串的开始位置
$ 匹配字符串的结尾位置
限定符
* 0次或多次
+ 1次或多次
? 0次或1次
{n} n次
{n,} n次或多次
{n,m} n次至m次
re模块
re_lst = [
('re.compile(regex)',),
('re.findall(pattern, str)',),
('re.finditer(pattern, str)',),
('re.search(pattern, str)',),
]
re.compile(regex)
import re """
re.compile(regex)
编译一个正则表达式模式,返回一个模式对象
"""
regex = r'[a-z]'
pattern = re.compile(regex)
re.findall(pattern, str)
import re """
re.findall(pattern, str)
返回所有满足匹配条件的结果,并放到列表中
"""
regex = r'[a-zA-Z]+'
s = 'Hello Python'
pattern = re.compile(regex) lst = re.findall(pattern, s)
print(lst) # ['Hello', 'Python']
re.finditer(pattern, str)
import re """
re.finditer(pattern, str)
返回迭代器
迭代器中每一个元素需要调用group(),得到结果
"""
regex = r'[a-zA-Z]+'
s = 'Hello Python'
pattern = re.compile(regex) iterator = re.finditer(pattern, s) print(iterator) # <callable_iterator object at 0x000001FDB3F29BE0> for i in iterator:
print(i.group())
re.search(pattern, str)
import re """
re.search(pattern, str)
返回满足匹配条件的第一个结果对象
"""
regex = r'[a-zA-Z]+'
s = 'Hello Python'
pattern = re.compile(regex) obj = re.search(pattern, s) if obj:
print(obj.group())
分组命名
import re """
flags
re.I 忽略大小写
re.M 多行模式,改变^和$的行为
re.S .可以匹配任意字符,包括换行符
"""
regex = r'<dd>.*?title="(?P<title>.*?)".*?</dd>'
s = '<dd><a href="#" title="Python中的正则">...</a></dd>'
pattern = re.compile(regex, re.S) iterator = re.finditer(pattern, s) for i in iterator:
print(i.group('title'))
或匹配
import re """
取消分组
(?:)
或匹配
long|short
"""
regex = r'www.(?:page|hopen).com'
s = 'www.hopen.com'
pattern = re.compile(regex) iterator = re.finditer(pattern, s) for i in iterator:
print(i.group())
贪婪匹配与惰性匹配
import re def get_data(regex, s):
pattern = re.compile(regex)
obj = re.search(pattern, s)
if obj:
return obj.group() # 贪婪匹配
regex_greedy = r'<.*>'
# 惰性匹配
regex_lazy = r'<.*?>'
content = '<a href="#">...</a>' ret_1 = get_data(regex_greedy, content)
ret_2 = get_data(regex_lazy, content)
print(ret_1) # <a href="">...</a>
print(ret_2) # <a href="">
Python中的正则的更多相关文章
- 【归纳】正则表达式及Python中的正则库
正则表达式 正则表达式30分钟入门教程 runoob正则式教程 正则表达式练习题集(附答案) 元字符\b代表单词的分界处,在英文中指空格,标点符号或换行 例子:\bhi\b可以用来匹配hi这个单词,且 ...
- python 爬虫之 正则的一些小例子
什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑. 正则并不是pyth ...
- js中正则表达式与Python中正则表达式的区别
今天女票让我帮她写一个js中的正则,来提取电话号码,对于正则规则来说,js与python是基本没有区别的,重点的区别是在一些函数与方法中. python中的正则提取: import re str = ...
- Python模块(三)(正则,re,模块与包)
1. 正则表达式 匹配字符串 元字符 . 除了换行 \w 数字, 字母, 下划线 \d 数字 \s 空白符 \n 换行符 \t 制表符 \b 单词的边界 \W \D \S 非xxx [ ...
- python中正则匹配之re模块
Python中正则表达式 re:re是提供正则表达式匹配操作的模块 一.什么是正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某个模式匹配,Python 自1.5版本起 ...
- python浅谈正则的常用方法
python浅谈正则的常用方法覆盖范围70%以上 上一次很多朋友写文字屏蔽说到要用正则表达,其实不是我不想用(我正则用得不是很多,看过我之前爬虫的都知道,我直接用BeautifulSoup的网页标签去 ...
- python中常用的模块的总结
1. 模块和包 a.定义: 模块用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能),本质就是.py结尾的python文件.(例如:文件名:test.py,对应的模块名:test) ...
- Python::re 模块 -- 在Python中使用正则表达式
前言 这篇文章,并不是对正则表达式的介绍,而是对Python中如何结合re模块使用正则表达式的介绍.文章的侧重点是如何使用re模块在Python语言中使用正则表达式,对于Python表达式的语法和详细 ...
- python中的正则表达式(re模块)
一.简介 正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配.正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎 ...
随机推荐
- Angular8稳定版修改概述
在今天早些时候Angular团队发布了8.0.0稳定版.其实早在NgConf 2019大会上,演讲者就已经提及了从工具到差分加载的许多内容以及更多令人敬畏的功能.下面是我对8.0.0一些新功能的简单介 ...
- 详细介绍VO(值对象)和PO(持久对象)的区别
VO,值对象(Value Object),PO,持久对象(Persisent Object),它们是由一组属性和属性的get和set方法组成.从结构上看,它们并没有什么不同的地方.但从其意义和本质上来 ...
- 开源的SSH框架优缺点分析
开源是3个框架共有的优点 Struts2框架(MVC框架)的优点如下: 1) 实现了MVC模式,层次结构清晰,使程序员只需关注业务逻辑的实现: 2) 丰富的标签库,大大提高了开发的效率: 3) Str ...
- 说说C#中的enum吧
enum,就是枚举类型,它是struct,int,single,double一样,都属于值类型,从ValueType类型中派生,存储在栈中.它在被创建时,不需要分配内在空间,所以对程序的性能是有好处的 ...
- 虚拟机安装CentOS7 Minimal、jdk和hadoop
虚拟机安装CentOS7 Minimal.jdk和hadoop Table of Contents 1. 安装版本 2. PD安装 3. vim安装和配置 4. 主机名变为bogon的解决办法 5. ...
- 给 Magento 2 添加缓存层的分析与尝试
虽然黑色星期五有惊无险的过去了, 但是 Magento 2 社区版无法读写分离这个限制, 始终是悬在整个网站上的一把利剑. 我之前尝试过给 Magento 2 写一个 MySQL 读写分离的插件, 在 ...
- 从零开始的全栈工程师——js篇2.15(offsetLeft)
元素的属性 Div.attributes 是所有标签属性构成的数据集合 Div.classList 是所有class名构成的数组集合 在classList的原型链上看以看到add()和remove() ...
- LeetCode(605,581,566)
LeetCode(605,581,566) 摘要:605盲改通过:581开始思路错误,后利用IDE修改(多重循环跳出方法):566用C语言时需要动态内存分配,并且入口参数未能完全理解,转用C++. 6 ...
- http请求各种数据的接受
一.接受请求的http数据 1.接受客户请求的数据,例如xml数据格式,代码如下: 此代码相当于服务端 public String analyzeWeixinXMLStr(HttpServletReq ...
- java核心技术 要点笔记2
第4章 对象和类 1.面向对象 类:构造对象的模板,创建类的实例:由类构造对象的过程,封装,继承: 对象:对象的特性——对象的行为,对象的状态,对象的标识: 类之间的关系: 依赖(“user-a” ...