正则表达式,说的简单些,就是一个匹配的功能,在python中,只要引用 re 模块,就能进行正则匹配操作

一、math匹配

先来看一个简单的例子

import re
re.match(pattern, data_source) #math为匹配,pattern为需要匹配的对象,data_source为数据源

查看下匹配的结果

import re
a = re.match('abc', 'abcdefg')
b = re.match('abc', 'bcdefg')
print(a)
print(b) -----结果-----
<_sre.SRE_Match object; span=(0, 3), match='abc'> #a为匹配到的结果,返回的是一个正则的对象
None #b为没匹配到的结果

查看匹配到的具体结果,需要使用group方法:

import re
a = re.match('abc', 'abcdefg')
print(a.group()) -----结果-----
abc

 

需要注意的是,math只能从字符串开头进行匹配

import re
a = re.match('abc', 'aabcdefg')
if a:
print('匹配成功')
else:
print('匹配失败') -----结果-----
匹配失败

在math中除了有group方法查看匹配到的内容外,还有以下几个方法:

import re
a = re.match('abc', 'abcdefg')
print(a.start()) #查看匹配开始的位置
print(a.end()) #查看匹配结束的位置
print(a.span()) #查看匹配开始和结束的位置 -----结果-----
0
3
(0, 3)

  

如果想要匹配任意数字,可以这样写:

import re
a = re.match('[0-9]', '1234abc') #[0-9]为匹配任意一个数字
b = re.match('[0-9]{1,9}', '1234abc') #[0-9]{1,9}为匹配任意1到9个数字
print(a.group())
print(b.group()) -----结果-----
1
1234

 

在上面的例子中,我们进行了两次匹配,在匹配的过程中,先需要对匹配的对象进行编译,如果多次匹配时的对象都是相同的,那也会进行多次编辑,这就造成了一定程度上的资源浪费,为了提升匹配效率,我们可以这样写:

import re

p = re.compile('[0-9]')          #先对匹配对象进行编译
a = p.match('1234aBc') #第一次匹配开头为数字
b = p.match('56abc') #第二次匹配开头为数字
print(a.group())
print(b.group())

 

二、search

在上文中介绍了math,math是只能从开头进行匹配,如果想从整个字符串的任意位置进行匹配,我们可以使用search:

import re
a = re.search('\d', 'b1234abc123') #\d为匹配任意十进制数,相当于[0-9]
print(a.group()) -----结果-----
1

需要注意的是,search只要是匹配到了内容,后面的内容就不会进行匹配了

三、findall

findall方法能够以列表的形式返回能匹配的子串,看例子:

import re
a = re.findall('[0-9]', '1234abc123')
b = re.findall('[0-9]{0,9}', '1234abc123')
c = re.findall('[0-9]{1,9}', '1234abc123')
print(a)
print(b)
print(c) -----结果-----
['1', '2', '3', '4', '1', '2', '3']
['1234', '', '', '', '123', ''] #由于{0,9}是可以匹配到0个数字,因此最终的结果中会匹配到空的字符串
['1234', '123'] #改为{1,0}后,就无法匹配到0个数字啦

  

四、sub和subn

之前介绍的几个方法中,只能查看到匹配的结果,如果我们想把匹配到的内容换成另外的内容,就可以使用sub和subn,就是通常意义上的替换

import re
a = re.sub('a', 'z', 'b1234abc123aaa') #把a换成z
b = re.subn('a', 'z', 'b1234abc123aaa')
print(a)
print(b) -----结果-----
b1234zbc123zzz
('b1234zbc123zzz', 4) #使用subn时,会统计到匹配的次数

如果想要指定替换的次数,可以参入count的参数

import re
a = re.sub('a', 'z', 'b1234abc123aaa', count=1)
b = re.subn('a', 'z', 'b1234abc123aaa', count=1)
print(a)
print(b) -----结果-----
b1234zbc123aaa
('b1234zbc123aaa', 1)

五、split

split表示在匹配时对字符串进行分割,分割完后存入一个列表中

import re
a = re.split('[0-9]', 'xiaohong1xiaosun')
print(a) -----结果-----
['xiaohong', 'xiaosun']

  

 

六、正则表达式

元字符 说明
. 代表任意字符
| 逻辑或操作符
[ ] 匹配内部的任一字符或子表达式
[^] 对字符集和取非
- 定义一个区间
\ 对下一字符取非(通常是普通变特殊,特殊变普通)
* 匹配前面的字符或者子表达式0次或多次
*? 惰性匹配上一个
+ 匹配前一个字符或子表达式一次或多次
+? 惰性匹配上一个
? 匹配前一个字符或子表达式0次或1次重复
{n} 匹配前一个字符或子表达式
{m,n} 匹配前一个字符或子表达式至少m次至多n次
{n,} 匹配前一个字符或者子表达式至少n次
{n,}? 前一个的惰性匹配
^ 匹配字符串的开头
\A 匹配字符串开头
$ 匹配字符串结束
[\b] 退格字符
\c 匹配一个控制字符
\d 匹配任意数字
\D 匹配数字以外的字符
\t 匹配制表符
\w 匹配任意数字字母下划线
\W 不匹配数字字母下划线

python-正则基础的更多相关文章

  1. Python正则处理多行日志一例

    正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...

  2. Python爬虫基础

    前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口 相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...

  3. Python正则处理多行日志一例(可配置化)

    正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...

  4. 认识python正则模块re

    python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python ...

  5. Python正则表达式-基础

    Python正则表达式-基础 本文转载自昔日暖阳,原文地址:http://www.osheep.cn/4806.html python使用正则,需要先引入re模块 import re 匹配符 单个字符 ...

  6. 万门大学Python零基础10天进阶班视频教程

    点击了解更多Python课程>>> 万门大学Python零基础10天进阶班视频教程 课程简介: 旨在通过两周的学习,让学生不仅能掌握python编程基础从而进行计算机程序的开发, 还 ...

  7. Python正则式的基本用法

    Python正则式的基本用法 1.1基本规则 1.2重复 1.2.1最小匹配与精确匹配 1.3前向界定与后向界定 1.4组的基本知识 2.re模块的基本函数 2.1使用compile加速 2.2 ma ...

  8. python 正则,常用正则表达式大全

    Nginx访问日志匹配 re.compile #re.compile 规则解释,改规则必须从前面开始匹配一个一个写到后面,前面一个修改后面全部错误.特殊标准结束为符号为空或者双引号:  改符号开始 从 ...

  9. python 正则使用笔记

    python正则使用笔记 def remove_br(content): """去除两边换行符""" content = content.r ...

  10. Python文件基础

    ===========Python文件基础========= 写,先写在了IO buffer了,所以要及时保存 关闭.关闭会自动保存. file.close() 读取全部文件内容用read,读取一行用 ...

随机推荐

  1. logback.xml简单配置

    感觉配置的没问题,但是控制台就是不输出日志,后来发现是jar的问题. 依赖包: 注意依赖包,没有其他,只有下面3个,因为Jar包的问题,浪费了很长时间 <dependency> <g ...

  2. SZU 7

    A - Megacity sqrtf是个坑 #include <iostream> #include <string> #include <cstring> #in ...

  3. JBPM学习第4篇:10分钟熟悉Eclipse

    http://download.jboss.org/jbpm/videos/7.0.0.Final_eclipse_getting_started.swf 打开视频练习 1.导入 evaluation ...

  4. phpmyadmin登录报错crypt_random_string requires at least one symmetric cipher be loaded 解决方法

    通过phpmyadmin登陆时提示以下错误: phpmyadmin crypt_random_string requires at least one symmetric cipher be load ...

  5. 理解Canvas原理

    Canvas原理 Canvas我们把它翻译成画布,从字面意思我们就可以知道,不就是可以在上面画东西的布吗.好像很简单,没什么好说的.先看图: 从这几幅图我们可以看到以下几点: 1.每个小方格我们可以看 ...

  6. 医药箱APP静态小项目

    花费了10天时间,纯手写一个医药箱APP静态小项目,里面有上拉加载.左右滑动.弹出层淡入淡出等效果,主要是练习. 以下是一部分页面效果图: 我用的是谷歌的开发者工具的手机端模拟器. 里面需要优化的地方 ...

  7. JavaScript Event 事件 事件流 事件对象 事件处理程序 回调函数 error和try...catch和throw

    参考资料: 慕课网 DOM事件探秘    js事件对象 处理 事件驱动: JS是采用事件驱动的机制来响应用户操作的,也就是说当用户对某个html元素进行操作的时候,会产生一个事件,该事件会驱动某些函数 ...

  8. 从Event Loop谈JS的运行机制

    这里主要是结合Event Loop来谈JS代码是如何运行的. 事件循环对于我们平时开发可以说是特别重要,可以让我们写出更好的代码. 到这里相信我们已经知道了JS引擎是单线程,而且这里会用到前面说的的几 ...

  9. LINQ学习笔记(一)基本语法

    1.LINQ简介 LINQ是Language Integrated Query的简称,它是集成在.NET编程语言中的一种特性.包括五个部分:LINQ to Objects.LINQ to DataSe ...

  10. July 21st 2017 Week 29th Friday

    If you want to fly too high in relation to the horizon forget. 要想飞得高,就该把地平线忘掉. Always keep our eyes ...