模块的的作用主要是用于字符串和文本处理,查找,搜索,替换等

复习一下基本的正则表达式吧

 .:匹配除了换行符以为的任意单个字符


 *:匹配任意字符,一个,零个,多个都能匹配得到 俗称贪婪模式


+:匹配位于+之前的一个或者多个字符


 |:匹配位于|之前或者之后的字符


 ^:匹配行首


 $:匹配行尾


 ?:匹配位于?之前的零个或者一个字符,不匹配多个字符


 \:表示 \ 之后的为转义字符


 []:匹配[]之中的任意单个字符,[0-9]表示匹配0到9任意一个数字


 ():将位于()之内的的内容当作一个整体


 {}:按{}中的次数进行匹配,100[0-9]{3}表示在100之后任意匹配一个3位数(100-999)


 python中以\开头的元字符:

 
转义字符 含义
\b 匹配单词头或者单词尾
\B 和\b含义相反
\d 匹配任何数字
\D 和\d含义相反,匹配任何非数字
\s 匹配任何空白字符
\S 和\s含义相反,匹配任何非空白字符
\w 匹配任何字母,数字,下划线
\W 匹配任何非字母,数字,下划线

 

匹配的标志和含义

标志 含义
re.I 忽略大小写
re.L 根据本地设置而更改\w,\W,\b,\B,\s,\S的匹配内容
re.M  多行匹配模式
re.S 使“.”元字符匹配换行符
re.U 匹配Unicode字符
re.X 忽略需要匹配模式中的空格,并且可以使用"#"号注释

文本内容(提取linux下的passwd文件)

  1. man:x:::man:/var/cache/man:/bin/nologin

re模块中有3个搜索函数,每个函数都接受3个参数(匹配模式,要匹配的字符串,进行匹配的标志),如果匹配到了就返回一个对象实例,么有就返会None.

findall():用于在字符串中查找符合正则表达式的字符串,并返回这些字符串的列表

search():搜索整个字符串,返回对象实例

match():只从第一个字符开始匹配,后面的不再匹配,返回对象实例

  1. lovelinux@LoveLinux:~/py/boke$ cat text
  2. man:x:6:12:man:/var/cache/man:/bin/sh
  3. lovelinux@LoveLinux:~/py/boke$ cat test.py
  4. #/usr/bin/env python
  5. #coding:utf-8
  6. import re
  7. with open('text','r') as txt:
  8. f = txt.read()
  9. print re.match('bin',f)
  10. print re.search('bin',f).end()
  11. lovelinux@LoveLinux:~/py/boke$ python test.py
  12. None
  13. 34
  14. lovelinux@LoveLinux:~/py/boke$ vim test.py
  15. lovelinux@LoveLinux:~/py/boke$ python test.py
  16. None
  17. <_sre.SRE_Match object at 0x7f12fc9f9ed0>

 search()返回是对象实例有2个方法,

start():返回记录匹配到字符的开始索引 

end():返回记录匹配到字符的结束索引

  1. lovelinux@LoveLinux:~/py/boke$ python test.py
  2. None
  3. 31
  4. 34
  5. lovelinux@LoveLinux:~/py/boke$ cat test.py
  6. #/usr/bin/env python
  7. #coding:utf-8
  8. import re
  9. with open('text','r') as txt:
  10. f = txt.read()
  11. print re.match('bin',f)
  12. print re.search('bin',f).start()
  13. print re.search('bin',f).end()

findall():用于找找匹配的字符,把匹配到的字符作为数组返回

  1. #!/usr/bin/env python
  2. #coding:utf-8
  3. import re
  4. a = " man x 6 12 man / var /cache/man /bin/nologin"
  5. print re.findall('[a-z]{3}\s', a)
  6.  
  7. 输出结果:
  8. ['man ', 'man ', 'var ', 'man ']

sub():用于替换,接受四个参数,sub(匹配模式,要替换成的内容,进行替换的字符串,最大的替换次数)最后一个为可选参数.返回替换后的字符串

把只有3个字母组成的单词替换成heihei,只替换前3个

  1. #!/usr/bin/env python
  2. #coding:utf-8
  3. import re
  4. a = " man x 6 12 man / var /cache/man /bin/nologin"
  5. print re.sub('[a-z]{3}\s', 'heihei',a,3)
  6.  
  7. 输出结果:
  8. heiheix 6 12 heihei/ heihei/cache/man /bin/nologin

split():用于分割字符串,接受3个参数re.split(匹配模式,要分割的字符串,最大的分割次数),最后一个为可选参数,返回分割后的字符串列表

  1. #!/usr/bin/env python
  2. #coding:utf-8
  3. import re
  4. a = " man x 6 12 man / var /cache/man /bin/nologin"
  5. print re.split('a', a)
  6.  
  7. 输出结果:
  8. [' m', 'n x 6 12 m', 'n / v', 'r /c', 'che/m', 'n /bin/nologin']

编译正则表达式
compile():编译正则表达式,返回一个正则对象实例,然后通过返回的对象实例对字符串进行查找替换,接受2个参数compile(正则表达式,匹配标志)
例子搜索web日志里面的IP

  1. #!/usr/bin/env python
  2. #coding:utf-8
  3. import re
  4. logstr = '192.168.1.56 - - [14/Apr/2014:01:33:06 -0400] "GET /favicon.ico HTTP/1.1" 404 571 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36"'
  5. r = re.compile(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}')
  6. print r.findall(logstr)
  7.  
  8. 输出结果:
  9. ['192.168.1.56']

python re正则表达式模块的更多相关文章

  1. Python re(正则表达式)模块

    python正则表达式 正则表达式是一个特殊的字符序列,它能帮助我们方便的检查一个字符串是否与某种模式匹配.Python自1.5版本起增加了re模块,它提供Perl风格的正则表达式模式.re模块使Py ...

  2. 24、python re正则表达式模块

    一.re模块的基本使用 Python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符.正则表达式是用来匹配处理字符串的. 假如你需要匹配文本中的字符\,Python里的使用原生字符串表示:r'\\'表 ...

  3. python re(正则表达式模块)学习

    一.简介 正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配.正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎 ...

  4. Python之正则表达式模块

    正则表达式符号: . ^ $ * + ? {} () | [] .一个点代表一个字符 ^代表开头 $代表结尾 *代表有0到无数个 [0,+00] ?代表有0到1个      [0,1] +代表有1到无 ...

  5. 【Python】正则表达式纯代码极简教程

    <Python3正则表达式>文字版详细教程链接:https://www.cnblogs.com/leejack/p/9189796.html ''' 内容:Python3正则表达式 日期: ...

  6. 【Python】正则表达式简单教程

    说明:本文主要是根据廖雪峰网站的正则表达式教程学习,并根据需要做了少许修改,此处记录下来以备后续查看. <Python正则表达式纯代码极简教程>链接:https://www.cnblogs ...

  7. python 历险记(六)— python 对正则表达式的使用(上篇)

    目录 引言 什么是正则表达式? 正则表达式有什么用? 正则表达式的语法及使用实例 正则表达式语法有哪些? 这些正则到底该怎么用? 小结 参考文档 系列文章列表 引言 刚接触正则表达式,我也曾被它们天书 ...

  8. python的re正则表达式模块学习

    python中re模块的用法   Python 的 re 模块(Regular Expression 正则表达式)提供各种正则表达式的匹配操作,在文本解析.复杂字符串分析和信息提取时是一个非常有用的工 ...

  9. Python的regex模块——更强大的正则表达式引擎

    Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个: 固化分组    Atomic grouping 占有优先量词    Possessive quantifi ...

随机推荐

  1. web前端开发——HTML

    一.简介 1.发展史 (1)web1.0 时代 产物:网页制作 那时的网页主要是静态网页,即没有与用户交互,仅仅是提供信息浏览的网页.如QQ日志.博文等. 网页制作三剑客:Dreamweaver+Fi ...

  2. xtu read problem training 4 A - Moving Tables

    Moving Tables Time Limit: 2000ms Memory Limit: 65536KB This problem will be judged on ZJU. Original ...

  3. POJ 1988相对偏移

    //不容易啊,终于自己a了一道这种类型的题 // #include<stdio.h> #include<iostream> using namespace std; const ...

  4. 国内程序员的十大疑问之一:为什么老外不愿意用MyBatis?

    老外用MyBatis吗 昨天我在我在知乎看到了一张比较Hibernate和MyBatis使用情况的图,顺手发了条朋友圈: Hibernate vs MyBatis ,谁能告诉我什么样的国情导致了这么大 ...

  5. Inversion 归并求逆元

    bobo has a sequence a 1,a 2,…,a n. He is allowed to swap twoadjacent numbers for no more than k time ...

  6. [bzoj2527][Poi2011]Meteors_整体二分_树状数组

    Meteors bzoj-2527 Poi-2011 题目大意:题目链接. 注释:略. 想法: 首先答案可以离线,且具有单调性. 这里的单调性就是随着时间的推移,每个国家收集的陨石数增加. 不难想到整 ...

  7. Redundant Paths-POJ3177(强连通缩点)

    http://poj.org/problem?id=3177 题目大意:给你几个点和几条边   求你能加几条边  就可以让每一个点到达任意点都有两种方法. Description In order t ...

  8. Mybatis教程(一)

    1      Mybatis教程(一) 学习过的持久层框架:DBUtils , Hibernate Mybatis就是类似于hibernate的orm持久层框架. 为什么学Mybatis? 目前最主流 ...

  9. 解决confluence的乱码问题

    使用confluence时发现一些含有中文的页面中,中文都变成了问号. 继续搜索解决方案,发现时数据库中数据的格式不对, 在mysql中输入以下命令:   mysql> show variabl ...

  10. atom的react自动补全插件

    atom-react-autocomplete–项目内,组件名及状态的自动补全 autocomplete-js-import–模块导入智能提示 emmet-jsx-css-modules– React ...