python爬虫第四天

昨天学到了正则表达式基础知识：原子

今天开始学习第二个基础知识：元字符

元字符

就是正则表达式中含有特殊含义的一些字符

常见的元字符及含义

符号	含义
.	匹配除换行符以外的任意字符
^	匹配字符串的开始位置
$	匹配字符串的结束位置
*	匹配0次，1次，或多次前面的原子
?	匹配0次或一次前面的原子
+	匹配一次或多次前面的原子
{n}	前面的原子恰好出现n次
{n,}	前面的原子至少出现n次
{n,m}	前面的原子至少出现n次，至多出现m次
\|	模式选择符
()	模式单元符

具体的说，元字符分为：

（1）任意匹配元字符（2）边界限制元字符（3）限定符（4）模式选择符（5）模式单元符

下面用程序来观察使用方法

import re

string1="abcdfphp345pythony_py"#我们分别让string1与下面的pattern进行匹配

pattern1=".python..."#.是匹配除了换行符以外的字符

pattern2="^abd"

pattern3="^abc"

pattern4="py$"

pattern5="ay$"

pattern6="py.*n"

pattern7="cd{2}"

pattern8="cd{3,}"

pattern9="python|php"#可以把|当成‘或’理解

pattern10="(cd){1,}"#小括号里会被当成一个整体使用，这里的意思是cd会至少出现一次

pattern11="cd{1,}"#这里就是d会至少出现一次

print(re.search(pattern1,string1))

print(re.search(pattern2,string1))

print(re.search(pattern3,string1))

print(re.search(pattern4,string1))

print(re.search(pattern5,string1))

print(re.search(pattern6,string1))

print(re.search(pattern7,string1))

print(re.search(pattern8,string1))

print(re.search(pattern9,string1))

print(re.search(pattern10,string1))

print(re.search(pattern11,string1))

#结果：

#<_sre.SRE_Match object; span=(10, 20), match='5pythony_p'>

#None

#<_sre.SRE_Match object; span=(0, 3), match='abc'>

#<_sre.SRE_Match object; span=(19, 21), match='py'>

#None

#<_sre.SRE_Match object; span=(11, 17), match='python'>

#None

#<_sre.SRE_Match object; span=(5, 8), match='php'>

#<_sre.SRE_Match object; span=(2, 4), match='cd'>

模式修正

模式修正符就是在不改变正则表达式的情况下通过模式修正符改变正则表达式的含义

常见如下

符号	含义
I	匹配时忽略大小写
M	多行匹配
L	做本地化识别
U	根据Unicode字符及解析字符
S	让.匹配包括换行符，使用后.就可以匹配任意字符了

通过re.search(pattern1,string,re.I)修改即可

贪婪模式与懒惰模式

贪婪模式核心就是尽可能多的匹配，懒惰模式就是尽可能少的匹配。

pattern1="p.*y"#贪婪模式

pattern2="p.*?y"#懒惰模式，采用的就是就近匹配原则

print(re.search(pattern1,string1))

print(re.search(pattern2,string1))

#结果

#<_sre.SRE_Match object; span=(5, 21), match='php345pythony_py'>

#<_sre.SRE_Match object; span=(5, 13), match='php345py'>

如果我们想在字符间匹配任意字符，如“p.*y”默认是懒惰模式，通常在对应的.*后面加上？就可以从贪婪模式转为懒惰模式

正则表达式常见函数

直接用代码理解

import re

string="dpythonhbaigdukpythonabvjsvawegadbkvj"

pattern =".python."

print(re.match(pattern,string))

#会从string起始位置（开头）开始匹配，不满足返回None，满足则返回匹配结果

#后面的不会匹配到

print(re.match(pattern,string).span())#会输出匹配结果在源字符串的位置

print(re.search(pattern,string))#会查找整个字符串得到匹配结果

上述每次只能匹配一个内容

如何将符合模式的内容全部匹配出来？

1:使用re.compile()对正则表达式进行预编译。

2：编译后，使用findall（）根据正则表达式从源字符中将匹配内容全部找出

#pattern1=re.compile(".python.")

#print(pattern1.findall(string))

print(re.compile(pattern).findall(string))

如果想替换字符串可以使用re.sub()方法

格式：re.sub(pattern 正则表达式,rep要替换的字符,string源字符串,max最多替换次数)

如

re.sub(pattern."php",string,2)

常用实例

匹配.com或.cn的后缀URL

pattern="[a-zA-Z]+://[^\s]*[.com|.cn]"

string="<a href='http://www.baidu.com'>百度首页</a>"

result=re.search(pattern,string)

print(result)

匹配电话号码：

patternphone="\d{4}-\d{7}|\d{3}-\d{8}"

匹配电子邮件

patternemail="\w+([.+-]\w+)*@\w+([.-]\w+)*\.\w+([.-]\w+)*"

正则就到这，明天开始学习cookie相关知识

　此文是我在学习《精通Python网络爬虫》（韦玮著）的总结,纯手打。

python爬虫第四天的更多相关文章

Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫进阶四之PySpider的用法
审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇内容通过跟我做一个好玩的 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...
python爬虫入门四：BeautifulSoup库(转)
正则表达式可以从html代码中提取我们想要的数据信息,它比较繁琐复杂,编写的时候效率不高,但我们又最好是能够学会使用正则表达式. 我在网络上发现了一篇关于写得很好的教程,如果需要使用正则表达式的话,参 ...
Python爬虫知识点四--scrapy框架
一.scrapy结构数据解释: 1.名词解析: o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管 ...
Python爬虫利器四之PhantomJS的用法
前言大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了. ...
Python 爬虫（四）：Selenium 框架
Selenium 是一个用于测试 Web 应用程序的框架,该框架测试直接在浏览器中运行,就像真实用户操作一样.它支持多种平台:Windows.Linux.Mac,支持多种语言:Python.Perl. ...
Python爬虫(十四)_BeautifulSoup4 解析器
CSS选择器:BeautifulSoup4 和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据. lxml只会局部遍历,而B ...

随机推荐

VS2012发布网站详细步骤问题
http://blog.csdn.net/mrobama/article/details/43118387
vue的过滤器filter
前记: 排版记录,未免太耽误时间,我就简单的来,下面是一个vue 过滤器的写法,demo 演示,限制一个字符串的长度. vue filter 的官网介绍 https://cn.vuejs.org/v2 ...
Java虚拟机学习笔记——JVM垃圾回收机制
Java虚拟机学习笔记——JVM垃圾回收机制 Java垃圾回收基于虚拟机的自动内存管理机制,我们不需要为每一个对象进行释放内存,不容易发生内存泄漏和内存溢出问题. 但是自动内存管理机制不是万能药,我们 ...
springboo+nginx测试反向代理01
操作环境:centos7,springboot2.1,nginx1.8.1 boot程序链接地址 : https://github.com/zgq7/nginxDemo nginx下载地址: http ...
01-初识MySQL数据库
一.数据库概述 1.什么是数据描述事物特征的符号记录称为数据,描述事物的符号既可以是数字,也可以是文字.图片,图像.声音.语言等,数据由多种表现形式,它们都可以经过数字化后存入计算机.如: name ...
EtherNet/IP 协议结构
一.Ethernet/IP 协议将标准的TCP/IP以太网延伸到工业实时控制并和通用工业协议(CIP)结合,将很好地帮助用户获得更加开放集成的工业自动化和信息化的整体解决方案.EtherNet/I ...
hibernate-第一章-基础
一,简介 hibernate是一个开源的ORM框架,它对我们的jdbc进行了轻量级的对象封装,它将我们的POJO与数据库表简历映射关系,是一个全自动的ORM框架;hibernate可以自动生成SQL语 ...
python-循环&运算符
一.while 循环语句 while 循环语句的基本用法如下: while 条件表达式: 循环体当条件表达式的返回值为真时,则执行循环体中的语句,执行完毕后,重新判断条件表达式的返回值,直到表达式的 ...
仓位管理 V4.3
之前设计的仓位管理算法一直比较有效,往往能在市场的不断的上涨下跌中获利.不过感觉短期变动的仓位占整体的仓位较低,使得盈利较低.所以这个月对仓位管理算法进行了升级,尝试了几个版本.这里做一个记录. V4 ...
[３]第二章　C++编程简介
(本资料均从 internet 上进行收录整理,若要转载,请与原作者联系) 2.1 机器语言.汇编语言和高级语言程序员用各种编程语言编写指令,有些是计算机直接理解的,有些则需要中间翻译(tranl ...

python爬虫第四天

python爬虫第四天的更多相关文章

随机推荐

热门专题