一、正则表达式的语法

　　正则表达式使用反斜杠字符('\')来表示特殊的形式或者来允许使用特殊的字符而不要启用它们特殊的含义。这与字符串字面值中相同目的的相同字符的用法冲突；例如，要匹配一个反斜线字面值，你必须写成'\\\\'作为模式字符串，因为正则表达式必须是\\，每个反斜线在Python字符串字面值内部必须表达成\\。

　　解决的办法是使用Python的原始字符串符号表示正则表达式的模式；在以'r'为前缀的字符串字面值中，反斜杠不会以任何特殊的方式处理。所以r"\n"是一个包含'\'和'n'两个字符的字符串，而"\n"是包含一个换行符的单字符字符串。通常在Python代码中，模式的表示使用这种原始字符串符号。

　　概念：

　　原子：正则表达式中最小的内容

　　原子表：[ ]

　　原子组：()

　　元字符：

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。例如，'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。 1.做为转意，即通常在"\"后面的字符不按原来意义解释，如/b/匹配字符"b"，当b前面加了反斜杆后/\b/，转意为匹配一个单词的边界。 2.对正则表达式功能字符的还原，如""匹配它前面元字符0次或多次，/a/将匹配a,aa,aaa，加了"\"后，/a\/将只匹配"a"。
^	匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 '\n' 或 '\r' 之后的位置。 /^a/匹配"an A"，而不匹配"An a"
$	匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 '\n' 或 '\r' 之前的位置。 /a$/匹配"An a"，而不匹配"an A"
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。刘， "o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个 "o"，而 'o+' 将匹配所有 'o'。
.	匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。
(pattern)	匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用SubMatches集合，在Visual Basic Scripting Edition 中则使用$0…$9 属性。要匹配圆括号字符，请使用 ''。
(?:pattern)	匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (\|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y\|ies) 就是一个比 'industry\|industries' 更简略的表达式。
(?=pattern)	正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如， 'Windows (?=95\|98\|NT\|2000)' 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	负向预查，在任何不匹配Negative lookahead matches the search string at any point where a string not matchingpattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如'Windows (?!95\|98\|NT\|2000)' 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
x\|y	匹配 x 或 y。例如，'z\|food' 能匹配 "z" 或 "food"。'(z\|f)ood' 则匹配 "zood" 或 "food"。
[xyz]	字符集合。匹配所包含的任意一个字符。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如， '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\cx	匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W	匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如， '\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。.
\num	匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，'(.)\1' 匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为后向引用。否则，如果n为八进制数字 (0-7)，则n 为一个八进制转义值。
\nm	标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式，则 nm 为后向引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字m的后向引用。如果前面的条件都不满足，若 n 和m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值nm。
\nml	如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值nml。
\un	匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。
[\u4e00-\u9fa5]	匹配汉字

举例：

正则表达式	功能描述
^\\d+\|(\\s&&[^\\f\\n\\r\\t\\v])*$	非负整数（正整数 + 0），不输入也可以通过
^\\d+$	非负整数（正整数 + 0）
^[0-9][1-9][0-9]$	正整数
^((-\\d+)\|(0+))$	非正整数（负整数 + 0）
^-[0-9][1-9][0-9]$	负整数
^-?\\d+$	整数
^\\d+(\\.\\d+)?$	非负浮点数（正浮点数 + 0）
^(([0-9]+\\.[0-9][1-9][0-9])\|([0-9][1-9][0-9]\\.[0-9]+)\|([0-9][1-9][0-9]))$	正浮点数
^((-\\d+(\\.\\d+)?)\|(0+(\\.0+)?))$	非正浮点数（负浮点数 + 0）
^(-(([0-9]+\\.[0-9][1-9][0-9])\|([0-9][1-9][0-9]\\.[0-9]+)\|([0-9][1-9][0-9])))$	负浮点数
^(-?\\d+)(\\.\\d+)?$	浮点数
^[A-Za-z]+$	由26个英文字母组成的字符串
^[A-Za-z0-9]+$	由数字和26个英文字母组成的字符串
^\\w+$	由数字、26个英文字母或者下划线组成的字符串
^[\\w-]+(\\.[\\w-]+)*@[\\w-]+(\\.[\\w-]+)+$	email地址
^[a-zA-z]+://(\\w+(-\\w+))(\\.(\\w+(-\\w+)))(\\?\\S)?$	url
^(\\d{4})$	日期格式yyyy
^(\\d{4})-(0\\d{1}\|1[0-2])$	日期格式yyyy-mm
^(\\d{4})-(0\\d{1}\|1[0-2])-(0\\d{1}\|[12]\\d{1}\|3[01])$	日期格式yyyy-mm-dd
^(0\\d{1}\|1\\d{1}\|2[0-3])$	时间格式hh
^(0\\d{1}\|1\\d{1}\|2[0-3]):([0-5]\\d{1})$	时间格式hh:mm
^(0\\d{1}\|1\\d{1}\|2[0-3]):[0-5]\\d{1}:([0-5]\\d{1})$	时间格式hh:mm:ss
^\[ \t]*$	匹配一个空白行。
\d{2}-\d{5}	验证一个ID 号码是否由一个2位数字，一个连字符以及一个5位数字组成。
<(.)>.<\/\1>	匹配一个 HTML 标记。
^one	匹配以one开头
two$	匹配以two结尾
^three$	精确匹配three
fore	匹配任意包含fore

re包：

re.search(pattern, string, flags=0): 扫描字符串，寻找的第一个由该正则表达式模式产生匹配的位置，并返回相应的MatchObject实例。返回None如果没有字符串中的位置匹配模式；请注意这不同于在字符串的某个位置中找到一个长度为零的匹配。

re.match(pattern, string, flags=0)

　　　如果在字符串的开头的零个或更多字符匹配正则表达式模式，将返回相应的MatchObject实例。返回None则该字符串中与模式不匹配；请注意这是不同于零长度匹配。

　　　请注意，即使在多行模式下， re.match()将只匹配字符串的开头，而不是在每个行的开头。

　　　如果你想要在字符串中的任意位置定位一个匹配，改用search () （请参见search () 与 match ()）。

re.fullmatch(pattern, string, flags=0)

如果整个字符串匹配正则表达式模式，则返回一个match对象。如果字符串与模式不匹配，则返回None；请注意：这与长度为0的match是有区别的。

re.split(pattern, string, maxsplit=0, flags=0)

将字符串拆分的模式的匹配项。如果在模式中使用捕获括号，则然后也作为结果列表的一部分返回的文本模式中的所有组。如果maxsplit不为零，顶多maxsplit分裂发生，并且该字符串的其余部分将作为列表的最后一个元素返回。

>>>

>>> re.split('\W+', 'Words, words, words.')

['Words', 'words', 'words', '']

>>> re.split('(\W+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split('\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

['0', '3', '9']

如果在分离器有捕获组，它匹配字符串的开头，结果将启动与空字符串。同样对于字符串的末尾：

>>>

>>> re.split('(\W+)', '...words, words...')

['', '...', 'words', ', ', 'words', '...', '']

这样一来，分离器组件始终都位于相同的相对索引在结果列表中（例如，如果有是在分离器，在 0，第二个捕获组等等）。

请注意，拆分将永远不会拆分对空模式匹配的字符串。举个例子：

>>>

>>> re.split('x*', 'foo')

['foo']

>>> re.split("(?m)^$", "foo\n\nbar\n")

['foo\n\nbar\n']

re.findall(pattern, string, flags=0): 作为一个字符串列表，在字符串中，返回所有非重叠匹配的模式。该字符串是从左到右扫描的，匹配按照发现的顺序返回。如果一个或多个组是本模式中，返回一个列表的群体；如果该模式具有多个组，这将是元组的列表。空匹配包含在结果中，除非他们接触到另一场匹配的开头。

re.finditer(pattern, string, flags=0): 返回一个迭代器符合MatchObject情况在 RE模式字符串中的所有非重叠的匹配。该字符串是扫描的左到右，和按发现的顺序返回匹配。空匹配包含在结果中，除非他们接触的另一个匹配的开头。

re.sub(pattern, repl, string, count=0, flags=0)

Return the string obtained by replacing the leftmost non-overlapping occurrences of pattern in string by the replacement repl. 如果pattern没有被找到， string不变。repl 可以是一个字符串或一个函数；如果是一个字符串, 任何反斜杠转义都会实现。那就是，\n会转化成一个换行符，\r 会转化成一个回车，等等。未知的转义字符例如 \j不做处理。Backreferences, such as \6, are replaced with the substring matched by group 6 in the pattern. For example:

>>>

>>> re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):',

...        r'static PyObject*\npy_\1(void)\n{',

...        'def myfunc():')

'static PyObject*\npy_myfunc(void)\n{'

如果repl是一个函数，它被呼吁每个非重叠模式发生。该函数采用单个匹配对象作为参数，并返回替换字符串。举个例子：

>>>

>>> def dashrepl(matchobj):

...     if matchobj.group(0) == '-': return ' '

...     else: return '-'

>>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')

'pro--gram files'

>>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.IGNORECASE)

'Baked Beans & Spam'

模式可以是一个字符串或重新对象。

可选参数计数是模式出现，要更换；的最大次数计数必须为非负整数。如果省略或为零，所有事件将被替换。空匹配模式取代只有当不毗邻前一个匹配，所以子 ('x *' '-'， 'abc')返回'-a-b-c-'。

re.subn(pattern, repl, string, count=0, flags=0): 执行相同的操作，如sub()，但返回一个元组（new_string， number_of_subs_made)。

re.escape(string): 返回的字符串与所有非字母数字带有反斜杠；这是有用的如果你想匹配一个任意的文本字符串，在它可能包含正则表达式元字符。

re.purge(): 清除正则表达式缓存。

正则与python的re模块的更多相关文章

Python开发【模块】：re正则
re模块序言: re模块用于对python的正则表达式的操作 '.' 默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行 '^' 匹配字符开头,若指定flags ...
学习PYTHON之路， DAY 6 - PYTHON 基础 6 (模块)
一安装,导入模块安装: pip3 install 模块名称导入: import module from module.xx.xx import xx from module.xx.xx impo ...
python(九)re模块
python中re模块提供了正则表达式相关操作. 1. 字符串匹配: . 匹配除换行符以外的任意字符 \w 匹配字符或数字或下划线或汉字 \s 匹配任意空白字符 \d 匹配数字 \b 匹配单词 ...
Python的regex模块——更强大的正则表达式引擎
Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个: 固化分组 Atomic grouping 占有优先量词 Possessive quantifi ...
【转】关于python中re模块split方法的使用
注:最近在研究文本处理,需要用到正则切割文本,所以收索到了这篇文章,很有用,谢谢原作者. 原址:http://blog.sciencenet.cn/blog-314114-775285.html 关于 ...
Python中re模块的使用
#table-1 thead,#table-1 tr { border-top-width: 1px; border-top-style: solid; border-top-color: rgb(2 ...
python正则表达式Re模块备忘录
title: python正则表达式Re模块备忘录 date: 2019/1/31 18:17:08 toc: true --- python正则表达式Re模块备忘录备忘录 python中的数量词为 ...
周末班：Python基础之模块
什么是模块什么是模块? 常见的场景:一个模块就是一个包含了python定义和声明的文件,文件名就是模块名字加上.py的后缀. 但其实import加载的模块分为四个通用类别: 1 使用python编写 ...
正则表达式与Python中re模块的使用
正则表达式与Python中re模块的使用最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则 ...

随机推荐

C#实现录音录像录屏源码
以前写过两篇录音和录像的文章(实现语音视频录制.在服务器端录制语音视频),最近有朋友问,如果要实现屏幕录制这样的功能,该怎么做了?实际上录屏的原理跟录音.录像是差不多的,如果了解了我前面两篇文章中介绍 ...
HTTPS抓包之Charles
这里对HTTP请求的抓包操作不做讲解了,只讲解HTTPS的抓包要进行的操作. [说明]:下面以MAC电脑示例,Windows版本可参考:http://weibo.com/ttarticle/p/sho ...
[转]kaldi上的深度神经网络
转:http://blog.csdn.net/wbgxx333/article/details/41019453 深度神经网络已经是语音识别领域最热的话题了.从2010年开始,许多关于深度神经网络的文 ...
Jira/Confluence的备份、恢复和迁移
之前的文章已经分别详细介绍了Jira.Confluence的安装及二者账号对接的操作方法,下面简单说下二者的备份.恢复和迁移: 一.Jira.Confluence的备份.恢复1)Confluence的 ...
js截取字符串方法整理slice(), substr(), substring(), split()
substr(start,length) stringObject.substr(start,length) //start,截取起始下标,-1 指字符串最后一个字符,-2 指倒数第二个字符开始 ...
一道面试题（C语言）
题:输入一个数,列出所有加和等于该数的式子. 分析: 以 6 为例: 从上面的分析就比较容易找到规律了. C语言代码: #include <stdio.h> int main() { in ...
利用Burp Suite攻击Web应用
i春秋作家:Passerby2 web应用测试综述: Web应用漏洞给企业信息系统造成了很大的风险.许多web应用程序漏洞是由于web应用程序缺乏对输入的过滤.简而言之Web应用程序利用来自用户的某种 ...
第十九节：Java基本数据类型，循环结构与分支循环
基本数据类型 Java中的基本数据类型,有8种,在Java中有四种类型,8种基本数据类型. 字节 boolean 布尔型为1/8 byte 字节类型为1 short 短整型为2 char 字符型为2 ...
H5拖动火狐自动打开新标签
写在前面的话:<H5拖动火狐自动打开新标签>原因是为什么百度很多了我就不细说,本文章只说我自己的解决方法... 自定义数据里写个链接,如果火狐自动打开就跳到这个链接这个页面就写一句话:关 ...
cannot download, /home/azhukov/go is a GOROOT, not a GOPATH
问题详情: go环境安装好后,运行go代码也没有问题下载govendor包的时候提示: cannot download, /home/azhukov/go is a GOROOT, not a GO ...

正则与python的re模块

re包：

正则与python的re模块的更多相关文章

随机推荐

热门专题