python 正则基本方法

2017-04-11

学习python，免不了应对爬虫，初学爬虫最难理解的就是正则表达式。

比如我们要爬去网页上的某些内容，就像下面这种形式：

safdsfsdhjrth

我们要提取标签内的内容，可以尝试来一次正则提取：

>>>s="safdsfsdhjrth"

print(re.findall(r'(.*)',s))，这里我们使用findall方法，大家可以思考一下输出的结果，

['safdsf</a><a>sdhjrth']结果有点不尽人意，并没有将标签完全去掉。这就要涉及到贪婪与非贪婪模式了，简单点来说就是一个？的问题

修改过后：

print(re.findall(r'<a>(.*?)</a>',s))

['safdsf', 'sdhjrth']

这样输出的结果就比较符合我们的要求了。所以正则表达式是非常值得研究的

下面介绍正则表达式的几个常用方法；

1，match()方法

大家不妨实验一下match（）的方法，这里就简单说一下

>>>p=re.compile(r'[a-z]+')

首先我们先匹配一下，从字母a到z，

>>>print(p.match('345sdf5ggd6fg'))
输出：None

这里我们可以看到输出的结果是none，这是因为match（）从字符串的第一位开始匹配，如果第一位不是字母，那么它就不会继续匹配下去。

>>>print(p.match('a345sdf5ggd6fg'))

<_sre.SRE_Match object; span=(0, 1), match='a'>

也就是说只要第一位不是字母，就无法匹配成功。大家可以看一下将p=re.compile(r'[a-z]+')后面的加号换成* 或者去掉。

p=re.compile(r'[a-z]+')

print(p.match('abcasd')) 结果：<_sre.SRE_Match object; span=(0, 6), match='abcasd'>

去掉之后

p=re.compile(r'[a-z]')

pritn（p.match('abcasd')）结果： <_sre.SRE_Match object; span=(0, 1), match='a'>

这里的加号代表

匹配前面的子表达式一次或多次，关于正则表达的所有符号大家自己百度。

2..search()方法

关于search（）方法，看上去就比 match更加完美了。

它没有match（）只在第一位匹配的限制了。

>>>p=re.compile(r'[a-z]+')

>>>print(m=p.search('234abc'))

结果：<_sre.SRE_Match object; span=(3, 6), match='abc'>

的确是比match()方法好，主要看个人的实际应用。

3.finditer()方法

finditer() 则是将匹配对象作为一个迭代器返回,举个简单的例子吧。

p=re.compile(r'\d+')
for a in p.finditer('今天是4月11号'):

    print(a.group(),a.span())

4 (3, 4)

11 (5, 7)

4.findall()方法

与finditer不同的是，findall（）方法返回的是一个列表，和search（） match（）一样。

5.返回的方法

group() 返回匹配的字符串
start() 返回匹配的开始位置
end() 返回匹配的结束位置
span() 返回一个元组表示匹配位置（开始，结束）

正则表达式的高级方法这里就不多说了，会在近期的文章中一一探讨。（大神勿喷）

python 正则基本方法的更多相关文章

Python正则式的基本用法
Python正则式的基本用法 1.1基本规则 1.2重复 1.2.1最小匹配与精确匹配 1.3前向界定与后向界定 1.4组的基本知识 2．re模块的基本函数 2.1使用compile加速 2.2 ma ...
Python正则匹配字母大小写不敏感在读xml中的应用
需要解决的问题:要匹配字符串,字符串中字母的大小写不确定,如何匹配? 问题出现之前是使用字符串比较的方式,比如要匹配'abc',则用语句: if s == 'abc':#s为需要匹配的字符串 prin ...
python字符串的方法
python字符串的方法 ############7个基本方法############ 1:join def join(self, ab=None, pq=None, rs=None): # real ...
Python正则替换字符串函数re.sub用法示例（1）
本文实例讲述了Python正则替换字符串函数re.sub用法.分享给大家供大家参考,具体如下: python re.sub属于python正则的标准库,主要是的功能是用正则匹配要替换的字符串然后把它替 ...
python 正则进阶常用方法
表达式描述正则表达式示例符号 literal 匹配文本字符串的字面值literal foo rel1|rel2 匹配正则表达式rel1或rel2 foo|bar . 匹配任何字符(除了\n之外) ...
认识python正则模块re
python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python ...
python 正则相关函数全解析
前言:网上有很多关于python正则函数的方法说明,这里尽可能用最简单的demo把所有函数之间的逻辑关系说清楚,供参考. 1.最原始的 re.compile()这个函数一般是需要和其它函数一起使用的, ...
Python测试函数的方法之一
Python测试函数的方法之一首先介绍简单的try......except尝试运行的放例如下面的图和代码来简单介绍下: 注释:提醒以下代码环境为2.7.x 请3.x以上的同学们老规矩print(把打 ...
使用python原生的方法实现发送email
使用python原生的方法实现发送email import smtplib from email.mime.text import MIMEText from email.mime.multipart ...

随机推荐

Flink – process watermark
WindowOperator.processElement 主要的工作,将当前的element的value加到对应的window中, windowState.setCurrentNamespace(w ...
嵌套表用法详解（PLSQL）
嵌套表嵌套表是一种类似于索引表的结构,也可以用于保存多个数据,而且也可以保存复合类型的数据嵌套表指的是一个数据表定义事同时加入了其他内部表的定义,这一概念是在oracle 8中引入的,它们可以使用 ...
Java之旅_面向对象_封装
参考并摘自:http://www.runoob.com/java/java-encapsulation.html 在面向对象的程序设计方法中,封装(英语 :Encapsulation)是指一种将函数接 ...
Appium入门（3）__ Appium Server安装
安装Appium 1.下载并安装:https://bitbucket.org/appium/appium.app/downloads/ 2. 系统变量PATH 增加 C:\Program Files ...
Servlet基本介绍和使用
基本概念 Servlet又称为Java Servlet是一个基于java技术的web组件,运行在服务器端,用于生成动态的内容.Servlet是平台独立的java类,编写一个Servlet实际上就是按照 ...
golang的json数据解析
import ( "fmt" "time" "github.com/astaxie/beego" " ...
CF718C Sasha and Array 线段树+矩阵加速
正解:线段树解题报告: 传送门! 首先这种斐波拉契,又到了1e9的范围,又是求和什么的,自然而然要想到矩阵加速昂然后这里主要是考虑修改操作,ai+=x如果放到矩阵加速中是什么意思呢QAQ? 那不就 ...
$(this) 和 this 关键字在 jquery 中有何不同？
$(this) 返回一个 jQuery 对象,你可以对它调用多个 jQuery 方法,比如用 text() 获取文本,用 val() 获取值等等. 而 this 代表当前元素,它是 javascrip ...
webmin账户重置密码
locate changepass.pl(如果你不常使用locate的话那,先sudo updatedb)找到路径,在/usr/libexec/webmin/下面,转到这个目录下面./changepa ...
windows版本下ELK配置
windows版本的es和kibana相对配置起来很简单,网上已经有很多例子都是正确的,只需按照步骤安装一下即可. 主要logstash,网上说的方案,大都不能配置成功,或者总有一些错误,下面把我自己 ...

python 正则基本方法

python 正则基本方法的更多相关文章

随机推荐

热门专题