python-正则基础
正则表达式,说的简单些,就是一个匹配的功能,在python中,只要引用 re 模块,就能进行正则匹配操作
一、math匹配
先来看一个简单的例子
import re
re.match(pattern, data_source) #math为匹配,pattern为需要匹配的对象,data_source为数据源
查看下匹配的结果
import re
a = re.match('abc', 'abcdefg')
b = re.match('abc', 'bcdefg')
print(a)
print(b) -----结果-----
<_sre.SRE_Match object; span=(0, 3), match='abc'> #a为匹配到的结果,返回的是一个正则的对象
None #b为没匹配到的结果
查看匹配到的具体结果,需要使用group方法:
import re
a = re.match('abc', 'abcdefg')
print(a.group()) -----结果-----
abc
需要注意的是,math只能从字符串开头进行匹配
import re
a = re.match('abc', 'aabcdefg')
if a:
print('匹配成功')
else:
print('匹配失败') -----结果-----
匹配失败
在math中除了有group方法查看匹配到的内容外,还有以下几个方法:
import re
a = re.match('abc', 'abcdefg')
print(a.start()) #查看匹配开始的位置
print(a.end()) #查看匹配结束的位置
print(a.span()) #查看匹配开始和结束的位置 -----结果-----
0
3
(0, 3)
如果想要匹配任意数字,可以这样写:
import re
a = re.match('[0-9]', '1234abc') #[0-9]为匹配任意一个数字
b = re.match('[0-9]{1,9}', '1234abc') #[0-9]{1,9}为匹配任意1到9个数字
print(a.group())
print(b.group()) -----结果-----
1
1234
在上面的例子中,我们进行了两次匹配,在匹配的过程中,先需要对匹配的对象进行编译,如果多次匹配时的对象都是相同的,那也会进行多次编辑,这就造成了一定程度上的资源浪费,为了提升匹配效率,我们可以这样写:
import re
p = re.compile('[0-9]') #先对匹配对象进行编译
a = p.match('1234aBc') #第一次匹配开头为数字
b = p.match('56abc') #第二次匹配开头为数字
print(a.group())
print(b.group())
二、search
在上文中介绍了math,math是只能从开头进行匹配,如果想从整个字符串的任意位置进行匹配,我们可以使用search:
import re
a = re.search('\d', 'b1234abc123') #\d为匹配任意十进制数,相当于[0-9]
print(a.group()) -----结果-----
1
需要注意的是,search只要是匹配到了内容,后面的内容就不会进行匹配了
三、findall
findall方法能够以列表的形式返回能匹配的子串,看例子:
import re
a = re.findall('[0-9]', '1234abc123')
b = re.findall('[0-9]{0,9}', '1234abc123')
c = re.findall('[0-9]{1,9}', '1234abc123')
print(a)
print(b)
print(c) -----结果-----
['1', '2', '3', '4', '1', '2', '3']
['1234', '', '', '', '123', ''] #由于{0,9}是可以匹配到0个数字,因此最终的结果中会匹配到空的字符串
['1234', '123'] #改为{1,0}后,就无法匹配到0个数字啦
四、sub和subn
之前介绍的几个方法中,只能查看到匹配的结果,如果我们想把匹配到的内容换成另外的内容,就可以使用sub和subn,就是通常意义上的替换
import re
a = re.sub('a', 'z', 'b1234abc123aaa') #把a换成z
b = re.subn('a', 'z', 'b1234abc123aaa')
print(a)
print(b) -----结果-----
b1234zbc123zzz
('b1234zbc123zzz', 4) #使用subn时,会统计到匹配的次数
如果想要指定替换的次数,可以参入count的参数
import re
a = re.sub('a', 'z', 'b1234abc123aaa', count=1)
b = re.subn('a', 'z', 'b1234abc123aaa', count=1)
print(a)
print(b) -----结果-----
b1234zbc123aaa
('b1234zbc123aaa', 1)
五、split
split表示在匹配时对字符串进行分割,分割完后存入一个列表中
import re
a = re.split('[0-9]', 'xiaohong1xiaosun')
print(a) -----结果-----
['xiaohong', 'xiaosun']
六、正则表达式
| 元字符 | 说明 |
|---|---|
| . | 代表任意字符 |
| | | 逻辑或操作符 |
| [ ] | 匹配内部的任一字符或子表达式 |
| [^] | 对字符集和取非 |
| - | 定义一个区间 |
| \ | 对下一字符取非(通常是普通变特殊,特殊变普通) |
| * | 匹配前面的字符或者子表达式0次或多次 |
| *? | 惰性匹配上一个 |
| + | 匹配前一个字符或子表达式一次或多次 |
| +? | 惰性匹配上一个 |
| ? | 匹配前一个字符或子表达式0次或1次重复 |
| {n} | 匹配前一个字符或子表达式 |
| {m,n} | 匹配前一个字符或子表达式至少m次至多n次 |
| {n,} | 匹配前一个字符或者子表达式至少n次 |
| {n,}? | 前一个的惰性匹配 |
| ^ | 匹配字符串的开头 |
| \A | 匹配字符串开头 |
| $ | 匹配字符串结束 |
| [\b] | 退格字符 |
| \c | 匹配一个控制字符 |
| \d | 匹配任意数字 |
| \D | 匹配数字以外的字符 |
| \t | 匹配制表符 |
| \w | 匹配任意数字字母下划线 |
| \W | 不匹配数字字母下划线 |
python-正则基础的更多相关文章
- Python正则处理多行日志一例
正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...
- Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
- Python正则处理多行日志一例(可配置化)
正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...
- 认识python正则模块re
python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python ...
- Python正则表达式-基础
Python正则表达式-基础 本文转载自昔日暖阳,原文地址:http://www.osheep.cn/4806.html python使用正则,需要先引入re模块 import re 匹配符 单个字符 ...
- 万门大学Python零基础10天进阶班视频教程
点击了解更多Python课程>>> 万门大学Python零基础10天进阶班视频教程 课程简介: 旨在通过两周的学习,让学生不仅能掌握python编程基础从而进行计算机程序的开发, 还 ...
- Python正则式的基本用法
Python正则式的基本用法 1.1基本规则 1.2重复 1.2.1最小匹配与精确匹配 1.3前向界定与后向界定 1.4组的基本知识 2.re模块的基本函数 2.1使用compile加速 2.2 ma ...
- python 正则,常用正则表达式大全
Nginx访问日志匹配 re.compile #re.compile 规则解释,改规则必须从前面开始匹配一个一个写到后面,前面一个修改后面全部错误.特殊标准结束为符号为空或者双引号: 改符号开始 从 ...
- python 正则使用笔记
python正则使用笔记 def remove_br(content): """去除两边换行符""" content = content.r ...
- Python文件基础
===========Python文件基础========= 写,先写在了IO buffer了,所以要及时保存 关闭.关闭会自动保存. file.close() 读取全部文件内容用read,读取一行用 ...
随机推荐
- logback.xml简单配置
感觉配置的没问题,但是控制台就是不输出日志,后来发现是jar的问题. 依赖包: 注意依赖包,没有其他,只有下面3个,因为Jar包的问题,浪费了很长时间 <dependency> <g ...
- SZU 7
A - Megacity sqrtf是个坑 #include <iostream> #include <string> #include <cstring> #in ...
- JBPM学习第4篇:10分钟熟悉Eclipse
http://download.jboss.org/jbpm/videos/7.0.0.Final_eclipse_getting_started.swf 打开视频练习 1.导入 evaluation ...
- phpmyadmin登录报错crypt_random_string requires at least one symmetric cipher be loaded 解决方法
通过phpmyadmin登陆时提示以下错误: phpmyadmin crypt_random_string requires at least one symmetric cipher be load ...
- 理解Canvas原理
Canvas原理 Canvas我们把它翻译成画布,从字面意思我们就可以知道,不就是可以在上面画东西的布吗.好像很简单,没什么好说的.先看图: 从这几幅图我们可以看到以下几点: 1.每个小方格我们可以看 ...
- 医药箱APP静态小项目
花费了10天时间,纯手写一个医药箱APP静态小项目,里面有上拉加载.左右滑动.弹出层淡入淡出等效果,主要是练习. 以下是一部分页面效果图: 我用的是谷歌的开发者工具的手机端模拟器. 里面需要优化的地方 ...
- JavaScript Event 事件 事件流 事件对象 事件处理程序 回调函数 error和try...catch和throw
参考资料: 慕课网 DOM事件探秘 js事件对象 处理 事件驱动: JS是采用事件驱动的机制来响应用户操作的,也就是说当用户对某个html元素进行操作的时候,会产生一个事件,该事件会驱动某些函数 ...
- 从Event Loop谈JS的运行机制
这里主要是结合Event Loop来谈JS代码是如何运行的. 事件循环对于我们平时开发可以说是特别重要,可以让我们写出更好的代码. 到这里相信我们已经知道了JS引擎是单线程,而且这里会用到前面说的的几 ...
- LINQ学习笔记(一)基本语法
1.LINQ简介 LINQ是Language Integrated Query的简称,它是集成在.NET编程语言中的一种特性.包括五个部分:LINQ to Objects.LINQ to DataSe ...
- July 21st 2017 Week 29th Friday
If you want to fly too high in relation to the horizon forget. 要想飞得高,就该把地平线忘掉. Always keep our eyes ...