正则表达式和python中的re模块

---恢复内容开始---

常用的正则匹配规则
- 元字符
- 量词
- 字符组
- 字符集
- 转义符
- 贪婪匹配

re模块使用正则表达式

实例引入(是否使用re模块和正则表达式的区别)

 # 不使用正则表达式

 phone_number = input("请输入一个11位数导入手机号码 :")

 if len(phone_number) == 11 \

     and phone_number.isdigit() \

     and (phone_number.startswith('')

         or phone_number.startswith('')

         or phone_number.startswith('')

         or phone_number.startswith('')

         or phone_number.startswith('')):

     print("这个手机好码是合法的")

 else:

     print("这个手机号码是不合法的")

 # 调用re模块使用正则表达式

 import re

 phone_number = input("请输入一个11位数导入手机号码 :")

 if re.match('^(13|15|17|18|19)[0-9]{9}$', phone_number):                     # 正则规则 : ^(13|15|17|18|19)[0-9]{9}$

     print("这个手机好码是合法的")

 else:

     print("这个手机号码是不合法的")

实例中涉及到内置函数starswich()函数

 # startswith()函数

 # string.startswith(str, beg=0,end=len(string))

 # 或string[beg:end].startswith(str)

 # 1、string：被检测的字符串        2、str：指定的字符或者子字符串     3、 beg：设置字符串检测的起始位置

 # 4、end：设置字符串检测的结束位置

match()

# match是从头开始匹配，如果正则规则开头可以匹配上，就返回一个变量。匹配的内容需要调用group才能显示。
# 如果没有找到，则返回None，调用group会报错

 import re

 string = 'Hello! Regular expression, 520'

 result = re.match('^Hello!\s\w*\s\w+.\s\d{3}', string=string)

 print(len(string), result, result.group(), result.span(), sep='\n\n')

 # 输出：

 30

 <re.Match object; span=(0, 30), match='Hello! Regular expression, 520'>

 Hello! Regular expression, 520

 (0, 30)

 # span()方法可以输出皮牌的范围

修饰符
re.I 使匹配对大小写不敏感

re.L 做本地化识别( locale-aware )匹配

re.M 多行匹配，影响^和$

re.S. 使 .匹配包括换行在内的所有字符

re.U. 根据Unicode字符集解析字符。这个标志影响\w、\W、\b和\B

re.X. 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解
例如：
import re
string = 'Hello! Regular expression, 520'
result = re.match('^Hello!\s\w*\s\w+.\s\d{3}', string, re.S)

search()

# search是从前往后，寻找到一个就返回，返回的变量需要调用group才能拿到结果。如果没有找到，那么返回None，调用group回报错

 import re

 string =  'Hello! Regular expression, 5201314,Learning makes me happy and addicted to learning.'

 regular = 'Hello!\s\w*\s\w+.\s\d{3}'

 ret = re.search(regular, string)

 # 从前面往后面找到一个"Hello!\s\w*\s\w+.\s\d{3}"就返回

 print(ret)

 # 返回的是一个对象 : <re.Match object; span=(0, 30), match='Hello! Regular expression, 520'>

---恢复内容结束---

常用的正则匹配规则
- 元字符
- 量词
- 字符组
- 字符集
- 转义符
- 贪婪匹配

re模块使用正则表达式

实例引入(是否使用re模块和正则表达式的区别)

 # 不使用正则表达式

 phone_number = input("请输入一个11位数导入手机号码 :")

 if len(phone_number) == 11 \

     and phone_number.isdigit() \

     and (phone_number.startswith('')

         or phone_number.startswith('')

         or phone_number.startswith('')

         or phone_number.startswith('')

         or phone_number.startswith('')):

     print("这个手机好码是合法的")

 else:

     print("这个手机号码是不合法的")

 # 调用re模块使用正则表达式

 import re

 phone_number = input("请输入一个11位数导入手机号码 :")

 if re.match('^(13|15|17|18|19)[0-9]{9}$', phone_number):                     # 正则规则 : ^(13|15|17|18|19)[0-9]{9}$

     print("这个手机好码是合法的")

 else:

     print("这个手机号码是不合法的")

实例中涉及到内置函数starswich()函数

 # startswith()函数

 # string.startswith(str, beg=0,end=len(string))

 # 或string[beg:end].startswith(str)

 # 1、string：被检测的字符串        2、str：指定的字符或者子字符串     3、 beg：设置字符串检测的起始位置

 # 4、end：设置字符串检测的结束位置

match()

# match是从头开始匹配，如果正则规则开头可以匹配上，就返回一个变量。匹配的内容需要调用group才能显示。
# 如果没有找到，则返回None，调用group会报错

 import re

 string = 'Hello! Regular expression, 520'

 result = re.match('^Hello!\s\w*\s\w+.\s\d{3}', string=string)

 print(len(string), result, result.group(), result.span(), sep='\n\n')

 # 输出：

 30

 <re.Match object; span=(0, 30), match='Hello! Regular expression, 520'>

 Hello! Regular expression, 520

 (0, 30)

 # span()方法可以输出皮牌的范围

修饰符
re.I 使匹配对大小写不敏感

re.L 做本地化识别( locale-aware )匹配

re.M 多行匹配，影响^和$

re.S. 使 .匹配包括换行在内的所有字符

re.U. 根据Unicode字符集解析字符。这个标志影响\w、\W、\b和\B

re.X. 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解
例如：
import re
string = 'Hello! Regular expression, 520'
result = re.match('^Hello!\s\w*\s\w+.\s\d{3}', string, re.S)

search()

# search是从前往后，寻找到一个就返回，返回的变量需要调用group才能拿到结果。如果没有找到，那么返回None，调用group回报错

 import re

 string =  'Hello! Regular expression, 5201314,Learning makes me happy and addicted to learning.'

 regular = 'Hello!\s\w*\s\w+.\s\d{3}'

 ret = re.search(regular, string)

 # 从前面往后面找到一个"Hello!\s\w*\s\w+.\s\d{3}"就返回

 print(ret)

 # 返回的是一个对象 : <re.Match object; span=(0, 30), match='Hello! Regular expression, 520'>

findall()

# 想要获取匹配正则表达式的所有内容，借助findall()方法，该方法会搜索整个字符串

 ret = re.findall('[a-z]+', 'eva egon yuan')

 # 返回所有满足匹配条件的结果，放在列表里

 print(ret)

 # 输出：['eva', 'egon', 'yuan']

sub()

# sub()方法修改文本

 ret = re.sub('\d', '马冬梅', '马什么梅？ 0 马什么冬？ 0 冬什么梅？ 0', 3)

 # 将数字替换成'马冬梅',其中3代表替换了3次

 print(ret)

 # 输出：

 马什么梅？ 马冬梅 马什么冬？ 马冬梅 冬什么梅？ 马冬梅

subn()

# subn()方法和sub()方法很相似

 import re

 ret = re.subn('\d', '马冬梅', '马什么梅？ 0 马什么冬？ 0 冬什么梅？ 0')

 # 将数字替换成'马冬梅',返回元组（替换的结果，替换了多少次）

 print(ret)

 # 输出：

 ('马什么梅？ 马冬梅 马什么冬？ 马冬梅 冬什么梅？ 马冬梅', 3)

compile()

# 将正则字符串编译成一个正则表达式对象

 import re

 obj = re.compile('\d{3}')

 # 将正则表达式编译成一个正则表达式对象，这里正则规则是要匹配三个数字

 ret = obj.search('abc123cba')

 # 正则表达式对象调用search，参数为待匹配的字符串

 print(ret.group())

 # 输出结果 : 123

finditer()

# 返回一个存放匹配结果的迭代器

 import re

 ret = re.finditer('\d', 'ab2cd4567efg')     # finditer返回一个存放匹配结果的迭代器

 print(ret)

 print(next(ret).group())        # 查看第一个结果

 print(next(ret).group())        # 查看第二个结果

 print(i.group() for i in ret)       # 查看剩余的所有结果

 # 上一条print已经输出了所有的结果，所以这个for循环不输出任何字符

 for i in ret:

     print(i.group())

 # 输出：

 <callable_iterator object at 0x10a077cf8>

 2

 4

 <generator object <genexpr> at 0x1142f5f48>

 5

 6

 7

举例理解正则、re

 ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')

 print(ret)          # #  ['oldboy']       这是因为findall会优先匹配结果组内容返回，如果想要匹配结果，取消权限即可

 ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')

 print(ret)          # #   ['www.oldboy.com']          取消优先级别的权限

优先级别(?:)

 ret = re.split('\d+', 'eva3egon4yuan')

 print(ret)      # 结果 ： ['eva', 'egon', 'yuan']

 ret = re.split('(\d+)', 'eva3egon4yuan')

 print(ret)      # 结果 ： ['eva', '3', 'egon', '4', 'yuan']

 # 在匹配部分加上()之后，切出的结果是不同的，

 # 没有()的没有保留匹配的项，但是有()却能够保留匹配的项

 # 这个在某些需要保留匹配部分的使用过程是非常重要的

(保留项)

 ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>", "<hi>hello</hi>")

 # 还可以利用?P<name>的形式给分组起个名字

 # 获取匹配的结果可以直接用group('名字')拿到对应的值

 print(ret.group('tag_name'))        # 结果 : hi

 print(ret.group())              # 结果 : <hi>hello</hi>

?P给分组起名

 ret = re.search("<(\w+)>\w+</\1>", "<hi>hello</hi>")

 # 如果不给组起名字也可以用\序号来找到对应的组，表示要找的内容要和前面组的内容一致

 # 获取匹配的结果可以用group(序号)拿到对应的值

 print(ret.group(1))

 print(ret.group())

组序号

正则在线测试网址：http://tool.chinaz.com/regex/

抓取猫眼电影

 from urllib import request

 import re

 for i in range(27736):

     url = 'https://maoyan.com/films?showType=3&offset={0:}'.format(i * 30)

     response = request.urlopen(url=url)

     html = response.read().decode('utf-8')

     result = re.search('<dd>.*?title="(.*?)">.*?{movieId:(.*?)}">.*?(\d\.).*?(\d)</i></div>', html, re.S)

     dictionaries = {

         'Movie Item Title': result.group(1),

         'Movie ID': int(result.group(2)),

         'Movie Score': float(result.group(3) + result.group(4))

     }

     print(dictionaries)

有时候会报错，待完善

 import requests

 import re

 from requests.exceptions import RequestException

 import json

 import time

 # 抓取首页

 def get_one_page(url):

     try:

         headers = {

             # 伪浏览器

             'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'

         }

         response = requests.get(url, headers)       # 响应

         # 根据状态码返回响应内容

         if response.status_code == 200:

             return response.text

         return None

     # 请求异常

     except RequestException:

         return None

 # 正则表达式提取所需内容

 def paser_one_page(html):

     # 正则

     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                          '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                          '.*?integer">(.*?)</i>.*?fraction">(.*?)</i></p>.*?</dd>', re.S)

     # 提取内容

     items = re.findall(pattern, html)

     print(items)

     # 每部电影对应一个字典

     for item in items:

         yield{

             'index': item[0],                       # 电影排名

             'image': item[1],                       # 电影图片

             'title': item[2],                       # 电影名称

             'actor': item[3].strip()[3:],           # 演员

             'time': item[4].strip()[5:],            # 上映时间

             'score': item[5]+item[6]                # 电影评分

         }

 # 将提取的内容写入文件

 def write_to_file(content):

     with open('result.txt', 'a', encoding='utf-8') as f:

         # 通过json.dumps()，实现字典的序列化，指定ensure_ascii=False保证输出结果是中文形式而不是Unicode编码

         f.write(json.dumps(content, ensure_ascii=False)+'\n')

         f.close()

 def main(offset):

     url = 'http://maoyan.com/board/4?offset='+str(offset)           # URL

     html = get_one_page(url)                # 抓取网页

     paser_one_page(html)                    # 提取抓取的内容

     for item in paser_one_page(html):       # 输出结果和写入文件

          print(item)

          write_to_file(item)

 if __name__ == '__main__':

     for i in range(10):

         main(offset=i*10)

         time.sleep(1)   # 现在猫眼多了反爬虫 ， 如果速度过快，则会无响应，所以这里又增加了一个延时等待

 # 运行后，生成一个result.txt文件,输出内容雨文件内容一致

正则表达式和python中的re模块的更多相关文章

常用正则表达式与python中的re模块
正则表达式是一种通用的字符串匹配技术,不会因为编程语言不一样而发生变化. 部分常用正则表达式规则介绍: . 匹配任意的一个字符串,除了\n * 匹配任意字符串0次或者任意次 \w 匹配字母.数字.下划 ...
(转)正则表达式与Python（RE）模块
Python正则表达式指南原文:http://blog.csdn.net/qdx411324962/article/details/46799831 Python3(2):正则表达式与Python ...
Python中的re模块--正则表达式
Python中的re模块--正则表达式使用match从字符串开头匹配以匹配国内手机号为例,通常手机号为11位,以1开头.大概是这样13509094747,(这个号码是我随便写的,请不要拨打),我们 ...
正则表达式与Python中re模块的使用
正则表达式与Python中re模块的使用最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则 ...
Python中的random模块，来自于Capricorn的实验室
Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 < ...
Python中的logging模块
http://python.jobbole.com/86887/ 最近修改了项目里的logging相关功能,用到了python标准库里的logging模块,在此做一些记录.主要是从官方文档和stack ...
Python中的random模块
Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 < ...
浅析Python中的struct模块
最近在学习python网络编程这一块,在写简单的socket通信代码时,遇到了struct这个模块的使用,当时不太清楚这到底有和作用,后来查阅了相关资料大概了解了,在这里做一下简单的总结. 了解c语言 ...
python中的StringIO模块
python中的StringIO模块标签:python StringIO 此模块主要用于在内存缓冲区中读写数据.模块是用类编写的,只有一个StringIO类,所以它的可用方法都在类中.此类中的大部分 ...

随机推荐

Flask框架踩坑之ajax跨域请求
业务场景: 前后端分离需要对接数据接口. 接口测试是在postman做的,今天才开始和前端对接,由于这是我第一次做后端接口开发(第一次嘛,问题比较多)所以在此记录分享我的踩坑之旅,以便能更好的理解,应 ...
Spring Boot （十一）： Spring Boot 定时任务
在实际的项目开发工作中,我们经常会遇到需要做一些定时任务的工作,那么,在 Spring Boot 中是如何实现的呢? 1. 添加依赖在 pom.xml 文件中只需引入 spring-boot-sta ...
Spring Boot 2.X(六)：Spring Boot 集成Redis
Redis 简介什么是 Redis Redis 是目前使用的非常广泛的免费开源内存数据库,是一个高性能的 key-value 数据库. Redis 与其他 key-value 缓存(如 Memcac ...
【windows】远程桌面把远程服务器的explorer.exe进程关掉了，咋办？
在操作windows2008R2服务器时不小心把explorer.exe进程关闭了,瞬间整个界面就蓝色了. 重启,做不到,各种快捷键用不了,最后发现Alt+Tab可以用,刚好打开了IIS, 打开其中一 ...
[Swoole] 在Ubuntu下安装、快速开始
本文主要讲述在 Ubuntu 下编译安装 Swoole,并根据官方文档给出的demo进行了测试和搬运,包括:TCP服务器.UDP服务器.HTTP服务器.WebSocket服务器.异步客户端.定时器和协 ...
PCA 算法核心：高维度向量向低维度投影
Principal Component Analysis:主成分分析步骤 5 步: 1.去平均值,也就是将向量中每一项都减去各自向量的平均值 2.计算矩阵的方差,协方差,特征值, 3,.把特征值从大 ...
python接口自动化2-第一次发送get请求
前言 Requests: 让 HTTP 服务人类,唯一的一个非转基因的 Python HTTP 库,人类可以安全享用: Requests继承了urllib2的所有特性,能满足当前网络的需求,支持Pyt ...
Kubernetes集群的部署方式及详细步骤
一.部署环境架构以及方式第一种部署方式 1.针对于master节点将API Server.etcd.controller-manager.scheduler各组件进行yum install.编译安 ...
My Idea About ID wly_sh （关于用户名 wly_sh 的猜想）
I Wanna Say Is That- There's a guy called wsh in our computer room. That guy registered a blog in CS ...
Ubuntu 16.04 集成安装Apache+PHP+Kerberos+LDAP+phpLDAPadmin
一.安装Apache 1.1.安装Apache apt-get update apt-get install apache2 过程如下: root@duke01:~# apt-get update命中 ...

正则表达式和python中的re模块

常用的正则匹配规则

元字符

量词

字符组

字符集

转义符

贪婪匹配

re模块使用正则表达式

实例引入(是否使用re模块和正则表达式的区别)

match()

修饰符

search()

常用的正则匹配规则

元字符

量词

字符组

字符集

转义符

贪婪匹配

re模块使用正则表达式

实例引入(是否使用re模块和正则表达式的区别)

match()

修饰符

search()

findall()

sub()

subn()

compile()

finditer()

举例理解正则、re

抓取猫眼电影

正则表达式和python中的re模块的更多相关文章

随机推荐

热门专题