Python3学习之路~5.13 re模块正则表达式

re模块用于对python的正则表达式的操作。

常用正则表达式符号

字符数字：

　　. 匹配除换行符以外的任意字符，即[^\n]

　　\s 匹配任意空白符（如\t、\n、\r ）

　　\S 匹配任意非空白符

    \w 匹配[A-Za-z0-9下划线汉字]

    \W 匹配非[A-Za-z0-9下划线汉字]

　　\b 匹配单词的开始或结束

　　^或\A 匹配字符串的开始

　　$或\Z 匹配字符串的结束

　　\d或[0-9] 匹配所有数字

    \D 匹配非数字

次数：

　　* 重复零次或多次

　　+ 重复一次或多次

　　? 重复零次或一次

　　{n} 重复n次

　　{n,} 重复n次或更多次

　　{n,m} 重复n到m次

其他：

    | 匹配|左或|右的字符

    (...) 分组匹配

    \ 转义字符

    [] 匹配符合[]内的字符

    [^] 匹配不符合[]内的字符

组合：

    (?P<name>...) 分组匹配

    [a-z] 匹配所有小写字母字符

    [^a-z] 匹配所有非小写字母字符

　　[^0-9] 匹配所有非数字字符

    [\u4e00-\u9fa5] 匹配中文

    (.*)或(.+) 匹配单行

    ^(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}$ 匹配IP

    ^1[3|4|5|7|8|9][0-9]\d{8}$ 匹配手机号（貌似手机号第二位有3,4,5,7,8,9）

正则表达式代码实例

import re

# . 匹配除换行符以外的任意字符，即[^\n]

# + 重复一次或更多次

# .+匹配任意字符串

res = re.search('f.+n',"abcd1234efghijklmn5678")

print(res.group())  # fghijklmn

# \s 匹配任意空白符（如\t、\n、\r ）

res = re.search('\s+',"123$+ \r\n   b")

print(res.group())  #   ' \r\n\t'

# \S 匹配任意非空白符

res = re.search('\S+',"123aZ你好$+ \r\n   b")

print(res.group())  # 123aZ你好$+

# \w 匹配[A-Za-z0-9下划线汉字]

res = re.search('\w+',"123_你好$+ b")

print(res.group())  #   123_你好

# \W 匹配非[A-Za-z0-9下划线汉字]

res = re.search('\W+',"123_你好$+ b")

print(res.group())  #   $+

# ^或\A    匹配字符串的开始

# $或\Z 匹配字符串的结束

res = re.search('\A[0-9]+[a-z]\Z',"123b")

print(res.group())  #   123b

res = re.search('^[0-9]+[a-z]$',"123b")

print(res.group())  #   123b

# \d或[0-9]    匹配所有数字

res = re.search('abcd\d',"abcd1234efgh5678")

print(res.group())  # abcd1

res = re.search('abcd[0-9]',"abcd1234efgh5678")

print(res.group())  # abcd1

# \D 匹配非数字

res = re.search('\D+',"123$+ b")

print(res.group())  #   $+ b

# ?    重复零次或一次

res = re.search('aal?',"aalex") # 匹配aa或者aal

print(res.group())  #   aal

res = re.search('aal?',"aaex")

print(res.group())  #   aa

# * 重复零次或多次

# {n}    重复n次

# {n,}    重复n次或更多次

# {n,m}    重复n到m次

res = re.search('e[0-9]*',"aa1e2345x")

print(res.group())  #   e2345

res = re.search('[0-9]{3}',"aa1e2345x")

print(res.group())  #

res = re.search('[0-9]{3,}',"aa1e2345x")

print(res.group())  #

res = re.search('[0-9]{1,3}',"aa1e2345x")

print(res.group())  #

# | 匹配|左或|右的字符

res = re.search('abc|ABC',"ABCdabcD")

print(res.group())  #   ABC

# (...) 分组匹配

res = re.search('abc{2}',"Alexabcc") #匹配c两次

print(res.group())  #   abcc

res = re.search('(abc){2}',"Alexabcabc") #匹配abc两次

print(res.group())  #   abcabc

# \ 转义字符

res = re.search(r"\\","abcd12s3\df4sa5f")

print(res.group())  # \

res = re.search("\\\\","abcd12s3\\df4sa5f")

print(res.group())  # \

res = re.search('(abc){2}\|',"Alexabcabc|") #匹配管道符，前面需加反斜杠转义

print(res.group())  #   abcabc|

res = re.search('(abc){2}(\|\|=){2}',"Alexabcabc||=||=") #等号不需转义

print(res.group())  #   abcabc||=||=

# (?P < name >...) 分组匹配

res = re.search("(?P<id>[0-9]+)","abcd1234sdfsaf")

print(res.groupdict())  # {'id': '1234'}

res = re.search("(?P<id>[0-9]+)(?P<name>[a-zA-Z]+)","abcd1234sdfs#2af")

print(res.groupdict())  # {'id': '1234', 'name': 'sdfs'}

a=res.groupdict()

print(a['id']) #

a =res.group('id')

print(a) #

res = re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{8})","")

print(res.groupdict())  # {'province': '3711', 'city': '02', 'birthday': '19921118'}

# [a-z] 匹配所有小写字母字符

res = re.search('[a-z]+',"ABCD1234abcd&*")

print(res.group())  #   abcd

# [^a-z] 匹配所有非小写字母字符

res = re.search('[^a-z]+',"ABCD1234abcd&*")

print(res.group())  #   ABCD1234

# [^0-9] 匹配所有非数字字符

res = re.search('[^0-9]+',"ABCDabcd&*1234")

print(res.group())  #  ABCDabcd&*

# [\u4e00-\u9fa5] 匹配中文

res = re.search('[\u4e00-\u9fa5]+',"ABCDabcd&*1234你好")

print(res.group())  #  你好

# (.*)或(.+) 匹配单行

res = re.search('(.*)',"ABCDabc\nd&*1\r\n234你好")

print(res.group())  #  ABCDabc

res = re.search('(.+)',"ABCDabc\nd&*1\r\n234你好")

print(res.group())  #  ABCDabc

# ^(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}$ 匹配IP

res = re.search('^(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}$',"192.168.1.10")

if res:

    print(res.group())  #  192.168.1.10

else:

    print('it is not a valid IP')

# ^1[3|4|5|8][0-9]\d{8}$ 匹配手机号

res = re.search('^1[3|4|5|7|8|9][0-9]\d{8}$',"")

if res:

    print(res.group())  #

else:

    print('it is not a valid phone number')

re模块中最常用的匹配语法

1、match(pattern, string, flags=0) 从起始位置开始根据模型去字符串中匹配指定内容，匹配单个

正则表达式
要匹配的字符串
标志位，用于控制正则表达式的匹配方式

import re

res = re.match('\d+', '123uuasf')

if res:

    print(res.group()) #

2、search(pattern, string, flags=0) 根据模型去字符串中匹配指定内容，匹配单个

import re

res = re.search('\d+', 'aa123uuasf')

if res:

    print(res.group()) #

3、findall(pattern, string, flags=0) 根据模型去字符串中匹配指定内容，匹配所有。注意：findall没有group方法。

import re

res = re.findall('\d+', 'fa123uu888asf')

if res:

    print(res) # ['123', '888']

4、sub(pattern, repl, string, count=0, flags=0) 用于替换匹配的字符串，相比于str.replace功能更加强大

import re

res = re.sub("[0-9]+","|","abcd12s3df4sa5f")

print(res)  # abcd|s|df|sa|f

res = re.sub("[0-9]+","|","abcd12s3df4sa5f",count=2)

print(res)  # abcd|s|df4sa5f

5、split(pattern, string, maxsplit=0, flags=0) 根据指定匹配进行分组，相比于str.split更加强大

import re

res = re.split("[0-9]+","abcd12s3df4sa5f")

print(res)  # ['abcd', 's', 'df', 'sa', 'f']

6、group和groups

import re

a = "123abc456"

print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group()) # 123abc456

print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group(0)) # 123abc456

print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group(1)) #

print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group(2)) # abc

print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).groups()) # ('123', 'abc', '456')

几个匹配模式

# flags

I = IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # 忽略大小写

M = MULTILINE = sre_compile.SRE_FLAG_MULTILINE # 多行模式，可改变'^'和'$'的行为

S = DOTALL = sre_compile.SRE_FLAG_DOTALL # 点任意匹配模式，可改变'.'的行为

L = LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale

U = UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode locale

X = VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments

import re

# I = IGNORECASE 忽略大小写

res = re.search("[a-z]+","abcdA123",flags=re.I)

print(res.group())  # abcdA

# M = MULTILINE 多行模式，可改变'^'和'$'的行为

res = re.search("^[a-z]+","\nabcd12\nA123",flags=re.M)

print(res.group())  # abcd 若不加flags=re.M则abcd是匹配不出来的

res = re.search("foo$","\nbfoo\nsdfsf",flags=re.M)

print(res.group())  # foo 不加flags=re.M则foo是匹配不出来的

# S = DOTALL 点任意匹配模式，可改变'.'的行为

msg = '''abc

123

'''

res = re.search("^.+",msg,flags=re.S)

print(res.group())  #由于msg中abc和123占2行，如果不加flags=re.S则只能匹配一行abc

# 输出：

# abc

#

匹配模式举例

反斜杠的困扰

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

Python3学习之路~5.13 re模块正则表达式的更多相关文章

Python3学习之路~9.1 paramiko模块：实现ssh执行命令以及传输文件
我们一般使用linux的时候,都是在Windows上安装一个ssh客户端连接上去.那么从一台linux如何连接到另一条linux呢?使用ssh命令即可,因为每台linux机器自己都有一个ssh客户端. ...
Python3学习之路~5.5 sys模块
用于提供对解释器相关的操作 sys.argv 命令行参数List,第一个元素是程序本身路径 sys.exit(n) 退出程序,正常退出时exit(0) sys.version 获取Python解释程序 ...
Python3学习之路~5.3 random模块
random模块常用方法: import random # 随机数 print(random.random()) # 生成一个0到1的随机浮点数,0 <= n < 1.0 print(ra ...
Python3学习之路~5.11 configparser模块
用于生成和修改常见配置文档,当前模块的名称在 python 2.x 版本中为 ConfigParser, python 3.x 版本中变更为 configparser. 来看一个好多软件的常见文档格式 ...
Python3学习之路~5.10 PyYAML模块
Python也可以很容易的处理ymal文档格式,只不过需要安装一个模块,参考文档:http://pyyaml.org/wiki/PyYAMLDocumentation
Python3学习之路~5.8 shelve模块
shelve模块是一个简单的k,v将内存数据通过文件持久化的模块,可以持久化任何pickle可支持的python数据格式 import shelve import datetime name = [& ...
Python3学习之路~5.4 os模块
用于提供系统级别的操作 os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目录:相当于shel ...
Python3学习之路~0 目录
目录 Python3学习之路~2.1 列表.元组操作 Python3学习之路~2.2 简单的购物车程序 Python3学习之路~2.3 字符串操作 Python3学习之路~2.4 字典操作 Pytho ...
python学习之路（13）
列表生成式列表生成式即List Comprehensions,是Python内置的非常简单却强大的可以用来创建list的生成式. 举个例子,要生成list [1, 2, 3, 4, 5, 6, 7, ...

随机推荐

aspx页面，取得Excel某列不同类型的数据为空
红色部分需要加上, string connectionString = string.Format("Provider=Microsoft.Jet.OLEDB.4.0;Data Source ...
vue2.0引入现有css文件
1.在vue文件中的<style>内填写需要引用的文件如: @import "./css/indexTest.css";
IOS-企业开发人员账号&邓白氏码申请记录
Apple开发人员账号分三种,个人.公司,还有企业.个人和公司都称为标准账号. 另一种是教育机构的账号. 账号介绍个人和公司的就不说了.如今仅仅说企业账号首先是申请企业账号的地址: https:/ ...
go: writing stat cache:, permission denied
sudo chown -R $(whoami):admin /Users/zhushuyan/go/pkg && sudo chmod -R g+rwx /Users/zhushuya ...
C# 多线程中经常访问同一资源可能造成什么问题?
竞态条件和死锁. 如果两个或多个线程访问相同的对象,或者访问不同步的共享状态 ,就会出现竞态条件: 为了避免出现该问题,可以锁定共享的对象.但是过多的锁定也会有麻烦,那就是死锁: 当至少有两个线程被挂 ...
[sqoop] sqoop2 使用
sqoop版本1.99.7 ,安装省略 1. 启动server sqoop2-server start 2. sqoop2-shell 链接表示安装成功. 创建link 查看link 创建job 查 ...
1开放封闭原则OCP
一.什么是开放封闭原则开放封闭原则(Open-Closed Principle):一个软件实体应当对扩展开放,则修改关闭. 在设计一个模块时,应当使得这个模块可以在不被修改的前提下被扩展.也就是 ...
MySQL 数据热备份
mysqlhotcopy使用lock tables.flush tables和cp或scp来快速备份数据库.它是备份数据库或单个表最快的途径,完全属于物理备份,但只能运行在数据库目录所在的机器上. 与 ...
vs2008 使用百度编辑器
准备工作百度编辑器官方下载,并将文件放到项目根目录下. 因为vs2008 只到Framework 3.5,所以需要将4.0的东西去掉. 1)下载.net framework 3.5版的 Newton ...
ASP.NET MVC+Vue.js实现联系人管理
接触了一天vue.js,简单浏览了一本关于vue的电子书,就开始动手使用ASP.NET MVC和Vue.js开发一个联系人管理的小程序. 先看一下这个联系人管理的小程序的界面,也就是我们大概要实现什么 ...

Python3学习之路~5.13 re模块 正则表达式

Python3学习之路~5.13 re模块 正则表达式的更多相关文章

随机推荐

热门专题

Python3学习之路~5.13 re模块正则表达式

Python3学习之路~5.13 re模块正则表达式的更多相关文章