day4 正则表达式（regular）

正则（regular），要使用正则表达式需要导入Python中的re（regular正则的缩写）模块。正则表达式是对字符串的处理，我们知道，字符串中有时候包含很多我们想要提取的信息，掌握这些处理字符串的方法，能够方便很多我们的操作。

正则表达式（regular），处理字符串的方法。http://www.cnblogs.com/alex3714/articles/5169958.html

正则是一种常用的方法，因为python中文件处理很常见，文件里面包含的是字符串，要想处理字符串，那么就需要用到正则表达式。因而要掌握好正则表达式。下面下来看看正则表达式中包含的方法：

（1）match(pattern, string, flags=0)

def match(pattern, string, flags=0):
　　　　"""Try to apply the pattern at the start of the string, returning
　　　　a match object, or None if no match was found."""
　　　　return _compile(pattern, flags).match(string)

从上面注释：Try to apply the pattern at the start of the string,returning a match object,or None if no match was found.从字符串的开头开始查找，返回一个match object对象，如果没有找到，返回一个None。

重点：（1）从开头开始查找；（2）如果查找不到返回None。

下面来看看几个实例：

import re
　　string = "abcdef"
　　m = re.match("abc",string) （1）匹配"abc"，并查看返回的结果是什么
　　print(m)
　　print(m.group())

　　n = re.match("abcf",string)
　　print(n) (2）字符串不在列表中查找的情况

　　l = re.match("bcd",string) （3）字符串在列表中间查找情况
　　print(l)

运行结果如下：

<_sre.SRE_Match object; span=(0, 3), match='abc'>     （1）
　　abc                                                   （2）
　　None                                                  （3）
　　None                                                  （4）

从上面输出结果（1）可以看出，使用match()匹配，返回的是一个match object对象，要想转换为看得到的情况，要使用group()进行转换（2）处所示；如果匹配的正则表达式不在字符串中，则返回None（3）；match(pattern,string,flag)是从字符串开始的地方匹配的，并且只能从字符串的开始处进行匹配（4）所示。

（2）fullmatch(pattern, string, flags=0)

def fullmatch(pattern, string, flags=0):
　　　　"""Try to apply the pattern to all of the string, returning
　　　　a match object, or None if no match was found."""
　　　　return _compile(pattern, flags).fullmatch(string)

从上面注释：Try to apply the pattern to all of the string,returning a match object,or None if no match was found...

（3）search(pattern,string,flags)

def search(pattern, string, flags=0):
　　　　"""Scan through string looking for a match to the pattern, returning
　　　　a match object, or None if no match was found."""
　　　　return _compile(pattern, flags).search(string)
search(pattern,string,flags)的注释是Scan throgh string looking for a match to the pattern,returning a match object,or None if no match was found.在字符串任意一个位置查找正则表达式，如果找到了则返回match object对象，如果查找不到则返回None。

重点：（1）从字符串中间任意一个位置查找，不像match()是从开头开始查找；（2）如果查找不到则返回None；

import re
　　string = "ddafsadadfadfafdafdadfasfdafafda"

　　m = re.search("a",string) （1）从中间开始匹配
　　print(m)
　　print(m.group())

　　n = re.search("N",string) （2）匹配不到的情况
　　print(n)

运行结果如下：

<_sre.SRE_Match object; span=(2, 3), match='a'>     （1）
　　a                                                    （2）
　　None                                                 （3）

从上面结果(1）可以看出，search(pattern,string,flag=0)可以从中间任意一个位置匹配，扩大了使用范围，不像match()只能从开头匹配，并且匹配到了返回的也是一个match_object对象；（2）要想展示一个match_object对象，那么需要使用group()方法；（3）如果查找不到，则返回一个None。

（4）sub(pattern,repl,string,count=0,flags=0)

def sub(pattern, repl, string, count=0, flags=0):
　　　　"""Return the string obtained by replacing the leftmost
　　　　non-overlapping occurrences of the pattern in string by the
　　　　replacement repl. repl can be either a string or a callable;
　　　　if a string, backslash escapes in it are processed. If it is
　　　　a callable, it's passed the match object and must return
　　　　a replacement string to be used."""
　　　　return _compile(pattern, flags).sub(repl, string, count)

sub(pattern,repl,string,count=0,flags=0)查找替换，就是先查找pattern是否在字符串string中；repl是要把pattern匹配的对象，就要把正则表达式找到的字符替换为什么；count可以指定匹配个数，匹配多少个。示例如下：

import re
　　string = "ddafsadadfadfafdafdadfasfdafafda"

　　m = re.sub("a","A",string) #不指定替换个数（1）
　　print(m)

　　n = re.sub("a","A",string,2) #指定替换个数（2）
　　print(n)

　　l = re.sub("F","B",string) #匹配不到的情况（3）
　　print(l)

运行结果如下：

ddAfsAdAdfAdfAfdAfdAdfAsfdAfAfdA        --（1）
　　ddAfsAdadfadfafdafdadfasfdafafda        -- (2）
　　ddafsadadfadfafdafdadfasfdafafda        --（3）

上面代码（1）是没有指定匹配的个数，那么默认是把所有的都匹配了；（2）处指定了匹配的个数，那么只匹配指定个数的；（3）处要匹配的正则pattern不在字符串中，则返回原来的字符串。

重点：（1）可以指定匹配个数，不指定匹配所有；（2）如果匹配不到会返回原来的字符串；

（5）subn(pattern,repl,string,count=0,flags=0)

def subn(pattern, repl, string, count=0, flags=0):
　　　　"""Return a 2-tuple containing (new_string, number).
　　　　new_string is the string obtained by replacing the leftmost
　　　　non-overlapping occurrences of the pattern in the source
　　　　string by the replacement repl. number is the number of
　　　　substitutions that were made. repl can be either a string or a
　　　　callable; if a string, backslash escapes in it are processed.
　　　　If it is a callable, it's passed the match object and must
　　　　return a replacement string to be used."""
　　　　return _compile(pattern, flags).subn(repl, string, count)

上面注释Return a 2-tuple containing(new_string,number):返回一个元组,用于存放正则匹配之后的新的字符串和匹配的个数(new_string,number)。

import re
　　string = "ddafsadadfadfafdafdadfasfdafafda"

　　m = re.subn("a","A",string) #全部替换的情况（1）
　　print(m)

　　n = re.subn("a","A",string,3) #替换部分（2）
　　print(n)

　　l = re.subn("F","A",string) #指定替换的字符串不存在（3）
　　print(l)

运行结果如下：

('ddAfsAdAdfAdfAfdAfdAdfAsfdAfAfdA', 11)     （1）
　　('ddAfsAdAdfadfafdafdadfasfdafafda', 3)      （2）
　　('ddafsadadfadfafdafdadfasfdafafda', 0)       （3）

从上面代码输出的结果可以看出，sub()和subn(pattern,repl,string,count=0,flags=0)可以看出，两者匹配的效果是一样的，只是返回的结果不同而已，sub()返回的还是一个字符串，而subn()返回的是一个元组，用于存放正则之后新的字符串，和替换的个数。

（6）split(pattern,string,maxsplit=0,flags=0)

def split(pattern, string, maxsplit=0, flags=0):
　　　　"""Split the source string by the occurrences of the pattern,
　　　　returning a list containing the resulting substrings. If
　　　　capturing parentheses are used in pattern, then the text of all
　　　　groups in the pattern are also returned as part of the resulting
　　　　list. If maxsplit is nonzero, at most maxsplit splits occur,
　　　　and the remainder of the string is returned as the final element
　　　　of the list."""
　　　　return _compile(pattern, flags).split(string, maxsplit)

split(pattern,string,maxsplit=0,flags=0)是字符串的分割，按照某个正则要求pattern分割字符串，返回一个列表returning a list containing the resulting substrings.就是按照某种方式分割字符串，并把字符串放在一个列表中。实例如下：

import re
　　string = "ddafsadadfadfafdafdadfasfdafafda"

　　m = re.split("a",string) #分割字符串（1）
　　print(m)

　　n = re.split("a",string,3) #指定分割次数
　　print(n)

　　l = re.split("F",string) #分割字符串不存在列表中
　　print(l)

运行结果如下：

['dd', 'fs', 'd', 'df', 'df', 'fd', 'fd', 'df', 'sfd', 'f', 'fd', '']     （1）
　　['dd', 'fs', 'd', 'dfadfafdafdadfasfdafafda']                             （2）
　　['ddafsadadfadfafdafdadfasfdafafda']                                      （3）

从（1）处可以看出，如果字符串开头或者结尾包括要分割的字符串，后面元素会是一个""；（2）处我们可以指定要分割的次数；（3）处如果要分割的字符串不存在列表中，则把原字符串放在列表中。

（7）findall(pattern,string,flags=)

def findall(pattern, string, flags=0):
　　　　"""Return a list of all non-overlapping matches in the string.

　　　　If one or more capturing groups are present in the pattern, return
　　　　a list of groups; this will be a list of tuples if the pattern
　　　　has more than one group.

　　　　Empty matches are included in the result."""
　　　　return _compile(pattern, flags).findall(string)
findall(pattern,string,flags=)是返回一个列表，包含所有匹配的元素。存放在一个列表中。示例如下：

import re
　　string = "dd12a32d46465fad1648fa1564fda127fd11ad30fa02sfd58afafda"

　　m = re.findall("[a-z]",string) #匹配字母，匹配所有的字母，返回一个列表（1）
　　print(m)

　　n = re.findall("[0-9]",string) #匹配所有的数字，返回一个列表（2）
　　print(n)

　　l = re.findall("[ABC]",string) #匹配不到的情况（3）
　　print(l)

运行结果如下：

['d', 'd', 'a', 'd', 'f', 'a', 'd', 'f', 'a', 'f', 'd', 'a', 'f', 'd', 'a', 'd', 'f', 'a', 's', 'f', 'd', 'a', 'f', 'a', 'f', 　 'd', 'a']        （1）
　　['1', '2', '3', '2', '4', '6', '4', '6', '5', '1', '6', '4', '8', '1', '5', '6', '4', '1', '2', '7', '1', '1', '3', '0', '0', 　 '2', '5', '8']      （2）
    []                 （3）

上面代码运行结果（1）处匹配了所有的字符串，单个匹配；（2)处匹配了字符串中的数字，返回到一个列表中；（3）处匹配不存在的情况，返回一个空列表。

重点：（1）匹配不到的时候返回一个空的列表；（2）如果没有指定匹配次数，则只单个匹配。

（8）finditer(pattern,string,flags=0)

def finditer(pattern, string, flags=0):
　　　　"""Return an iterator over all non-overlapping matches in the
　　　　string. For each match, the iterator returns a match object.

　　　　Empty matches are included in the result."""
　　　　return _compile(pattern, flags).finditer(string)

finditer(pattern,string)查找模式，Return an iterator over all non-overlapping matches in the string.For each match,the iterator a match object.

代码如下：

import re
　　string = "dd12a32d46465fad1648fa1564fda127fd11ad30fa02sfd58afafda"

　　m = re.finditer("[a-z]",string)
　　print(m)

　　n = re.finditer("AB",string)
　　print(n)

运行结果如下：

<callable_iterator object at 0x7fa126441898> （1）
　　<callable_iterator object at 0x7fa124d6b710> （2）

从上面运行结果可以看出，finditer(pattern,string,flags=0)返回的是一个iterator对象。

（9）compile(pattern,flags=0)

def compile(pattern, flags=0):
　　　　"Compile a regular expression pattern, returning a pattern object."
　　　　return _compile(pattern, flags)

（10）pruge()

def purge():
　　　　"Clear the regular expression caches"
　　　　_cache.clear()
　　　　_cache_repl.clear()

（11）template(pattern,flags=0)

def template(pattern, flags=0):
　　　　"Compile a template pattern, returning a pattern object"
　　　　return _compile(pattern, flags|T)
正则表达式：

语法：

　　import re
　　string = "dd12a32d46465fad1648fa1564fda127fd11ad30fa02sfd58afafda"

　　p = re.compile("[a-z]+") #先使用compile(pattern)进行编译
　　m = p.match(string) #然后进行匹配
　　print(m.group())

上面的第2 和第3行也可以合并成一行来写：

m = p.match("^[0-9]",'14534Abc')

效果是一样的，区别在于，第一种方式是提前对要匹配的格式进行了编译（对匹配公式进行解析），这样再去匹配的时候就不用在编译匹配的格式，第2种简写是每次匹配的时候都要进行一次匹配公式的编译，所以，如果你需要从一个5w行的文件中匹配出所有以数字开头的行，建议先把正则公式进行编译再匹配，这样速度会快点。

匹配的格式：

（1）^ 匹配字符串的开头

import re
　　string = "dd12a32d41648f27fd11a0sfdda"

　　#^匹配字符串的开头，现在我们使用search()来匹配以数字开始的
　　m = re.search("^[0-9]",string) #匹配字符串开头以数字开始（1）
　　print(m)

　　n = re.search("^[a-z]+",string) #匹配字符串开头以字母开始，如果是从开头匹配，就与search()没有太多的区别了（2）
　　print(n.group())

运行结果如下：

None
　　dd

在上面（1）处我们使用^从字符串开头开始匹配，匹配开始是否是数字，由于字符串前面是字母，不是数字，所以匹配失败，返回None；（2）处我们以字母开始匹配，由于开头是字母，匹配正确，返回正确的结果；这样看，其实^类似于match()从开头开始匹配。

（2）$ 匹配字符串的末尾

import re
　　string = "15111252598"

　　#^匹配字符串的开头，现在我们使用search()来匹配以数字开始的
　　m = re.match("^[0-9]{11}$",string)
　　print(m.group())

运行结果如下：

15111252598

re.match("^[0-9]{11}$",string)含义是匹配以数字开头，长度为11，结尾为数字的格式；

（3）点（·）匹配任意字符，除了换行符。当re.DoTALL标记被指定时，则可以匹配包括换行符的任意字符

import re
　　string = "1511\n1252598"

　　#点（·）是匹配除了换行符以外所有的字符
　　m = re.match(".",string) #点(·)是匹配任意字符，没有指定个数就匹配单个（1）
　　print(m.group())

　　n = re.match(".+",string) #.+是匹配多个任意字符，除了换行符（2）
　　print(n.group())
运行结果如下：

1
　　1511

从上面代码运行结果可以看出，（1）处点（·）是匹配任意字符；（2）处我们匹配任意多个字符，但是由于字符串中间包含了空格，结果就只匹配了字符串中换行符前面的内容，后面的内容没有匹配。

重点：（1）点（·）匹配除了换行符之外任意字符；（2）.+可以匹配多个任意除了换行符的字符。

（4）[...] 如[abc]匹配"a","b"或"c"

[object]匹配括号中的包含的字符。[A-Za-z0-9]表示匹配A-Z或a-z或0-9。

import re
　　string = "1511\n125dadfadf2598"

　　#[]匹配包含括号中的字符
　　m = re.findall("[5fd]",string) #匹配字符串中的5,f,d
　　print(m)

运行结果如下：

['5', '5', 'd', 'd', 'f', 'd', 'f', '5']

上面代码，我们是要匹配字符串中的5,f,d并返回一个列表。

（5）[^...] [^abc]匹配除了abc之外的任意字符

import re
　　string = "1511\n125dadfadf2598"

　　#[^]匹配包含括号中的字符
　　m = re.findall("[^5fd]",string) #匹配字符串除5,f,d之外的字符
　　print(m)

运行如下：

['1', '1', '1', '\n', '1', '2', 'a', 'a', '2', '9', '8']

上面代码，我们匹配除了5,f,d之外的字符，[^]是匹配非中括号内字符之外的字符。

（6）* 匹配0个或多个的表达式

import re
　　string = "1511\n125dadfadf2598"

　　#*是匹配0个或多个的表达式
　　m = re.findall("\d*",string) #匹配0个或多个数字
　　print(m)

运行结果如下：

['1511', '', '125', '', '', '', '', '', '', '', '2598', '']

从上面运行结果可以看出(*)是匹配0个或多个字符的表达式，我们匹配的是0个或多个数字，可以看出，如果匹配不到返回的是空，并且最后位置哪里返回的是一个空("")。

（7）+ 匹配1个或多个的表达式

import re
　　string = "1511\n125dadfadf2598"

　　#（+）是匹配1个或多个的表达式
　　m = re.findall("\d+",string) #匹配1个或多个数字
　　print(m)

运行如下：

['1511', '125', '2598']

加（＋）是匹配1个或多个表达式，上面\d+是匹配1个或多个数字表达式，至少匹配一个数字。

（8）? 匹配0个或1个的表达式，非贪婪方式

import re
　　string = "1511\n125dadfadf2598"

　　#（?）是匹配0个或1个的表达式
　　m = re.findall("\d?",string) #匹配0个或1个的表达式
　　print(m)　　

运行结果如下：

['1', '5', '1', '1', '', '1', '2', '5', '', '', '', '', '', '', '', '2', '5', '9', '8', '']

上面问号（？）是匹配0个或1个表达式，上面是匹配0个或1个的表达式，如果匹配不到则返回空("")

（9）{n} 匹配n次，定义一个字符串匹配的次数

（10）{n,m} 匹配n到m次表达式

（11）\w 匹配字母数字

\w是匹配字符串中的字母和数字，代码如下：

import re
　　string = "1511\n125dadfadf2598"

　　#（?）是匹配0个或1个的表达式
　　m = re.findall("\w",string) #匹配0个或1个的表达式
　　print(m)

运行如下：

['1', '5', '1', '1', '1', '2', '5', 'd', 'a', 'd', 'f', 'a', 'd', 'f', '2', '5', '9', '8']

从上面代码可以看出，\w是用来匹配字符串中的字母数字的。我们使用正则匹配字母和数字。

（12）\W \W大写的W是用来匹配非字母和数字的，与小写w正好相反

实例如下：

import re
　　string = "1511\n125dadfadf2598"

　　#\W用来匹配字符串中的非字母和数字
　　m = re.findall("\W",string) #\W用来匹配字符串中的非字母和数字
　　print(m)

运行如下：

['\n']

上面代码中，\W是用来匹配非字母和数字的，结果把换行符匹配出来了。

（13）\s 匹配任意空白字符，等价于[\n\t\f]

实例如下：

import re
　　string = "1511\n125d\ta\rdf\fadf2598"

　　#\s是用来匹配字符串中的任意空白字符，等价于[\n\t\r\f]
　　m = re.findall("\s",string) #\s用来匹配字符串中任意空白字符
　　print(m)　　

运行如下：

['\n', '\t', '\r', '\x0c']

从上面代码运行结果可以看出:\s是用来匹配任意空的字符，我们把空的字符匹配出来了

（14）\S 匹配任意非空字符

实例如下：

import re
　　string = "1511\n125d\ta\rdf\fadf2598"

　　#\S是用来匹配任意非空字符
　　m = re.findall("\S",string) #\S用来匹配日任意非空字符
　　print(m) 　　

运行如下：

['1', '5', '1', '1', '1', '2', '5', 'd', 'a', 'd', 'f', 'a', 'd', 'f', '2', '5', '9', '8']

从上面代码可以看出，\S是用来匹配任意非空字符，结果中，我们匹配了任意非空的字符。

（15）\d 匹配任意数字，等价于[0-9]

（16）\D 匹配任意非数字

总结：findall()，split()生成的都是列表，一个是以某个为分隔符，一个是以查找中所有的值。正好相反。

day4 正则表达式（regular）的更多相关文章

Java基础-正则表达式(Regular Expression)语法规则简介
Java基础-正则表达式(Regular Expression)语法规则简介作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.正则表达式的概念正则表达式(Regular Exp ...
正则表达式-Regular expression学习笔记
正则表达式正则表达式(Regular expression)是一种符号表示法,被用来识别文本模式. 最近在学习正则表达式,今天整理一下其中的一些知识点 grep - 打印匹配行 grep 是个很强大 ...
正则表达式(Regular Expression, RegEx)学习入门
1. 概述正则表达式(Regular Expression, RegEx)是一种匹配模式,描述的是一串文本的特征. 正如自然语言中高大.坚固等词语抽象出来描述事物特征一样,正则表达式就是字符的高度抽 ...
Python正则表达式Regular Expression基本用法
资料来源:http://blog.csdn.net/whycadi/article/details/2011046 直接从网上资料转载过来,作为自己的参考.这个写的很清楚.先拿来看看. 1.正则表 ...
【LeetCode算法题库】Day4：Regular Expression Matching & Container With Most Water & Integer to Roman
[Q10] Given an input string (s) and a pattern (p), implement regular expression matching with suppor ...
day4正则表达式
语法: 正则表达式是处理字符串的函数,我们在Excel函数中也有很多这样的公式,因为学过一些Excel,所以看一下有什么不同的方法. import re #导入re模块,处理正则表达式的模 ...
C#中【正则表达式regular expression】相关的知识
Regex System.Text.RegularExpressions.Regex regex应该是regular expression的缩写 https://msdn.microsoft ...
java 正则表达式 -Regular Expression
正则表达式(Regular Expression),可以说就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式.正则表达式定义了字符串的模式,可以用来搜索.编辑或处理文本,不仅限于某一种语言(P ...
Python -- 正则表达式 regular expression
正则表达式(regular expression) 根据其英文翻译,re模块作用:用来匹配字符串. 在Python中,正则表达式是特殊的字符序列,检查一个字符串是否与某种模式匹配. 设计思想:用一 ...

随机推荐

ubuntu 16 server 安装lnmp所需依赖
安装 1.nginx build-essential libc6 libpcre3 libpcre3-dev libssl-dev zliblg zliblg-dev lab-base 依赖库: ap ...
STL源码分析-hashtable
http://note.youdao.com/noteshare?id=5c8d2b09c0f72af9a12b0ed2023a338d
UVA-1635 数学
UVA-1635 题意: 给定n个数a1,a2,a3.....an,依次求出相邻的两个数的和,最后成为一个数,问这个数模m的值与那些最初的数无关例:a1,a2,a3, m=2 => a1+a2 ...
duilib 修复CTreeViewUI复选功能判断不准确的bug
转载请说明出处,谢谢~~:http://blog.csdn.net/zhuhongshu/article/details/42265209 CTreeViewUI里面自带了复选的功能,但是复选功能存在 ...
SpringBoot(三) ：Spring boot 中 Redis 的使用
前言: 这一篇讲的是Spring Boot中Redis的运用,之前没有在项目中用过Redis,所以没有太大的感觉,以后可能需要回头再来仔细看看. 原文出处: 纯洁的微笑 SpringBoot对常用的数 ...
Windows 安装 RabbitMQ
RabbitMQ概述 RabbitMQ是流行的开源消息队列系统,是AMQP(Advanced Message Queuing Protocol高级消息队列协议)的标准实现,用erlang语言开发.Ra ...
JQ笔记-加强版
Query初级一.介绍.基本写法什么是JQ: 一个优秀的JS库,大型开发必备 JQ的好处: 简化JS的复杂操作不再需要关心兼容性提供大量实用方法如何学习JQ: www.jquery. ...
NOIP模拟4
期望得分:20+100+100=220 实际得分:20+100+100=220 特判相离.内含对于两圆相交的情况,一直在考虑求交点实际上相交的面积可以用两个扇形减去两个三角形正弦定理.余弦定理来 ...
ArrayList既然继承自AbstractList抽象类，而AbstractList已经实现了List接口，那么ArrayList类为何还要再实现List接口呢？
https://www.cnblogs.com/bluejavababy/p/4320545.html
JSP和Servlet面试题
1.讲下servlet的执行流程. Servlet的执行流程也就是servlet的生命周期,当服务器启动的时候生命周期开始,然后通过init()<启动顺序根据web.xml里的startup-o ...

day4 正则表达式（regular）

day4 正则表达式（regular）的更多相关文章

随机推荐

热门专题