python_正则_re模块

正则表达式元字符：

字符匹配：

.       ：除换行符以外的任意单个字符

[]      ：指定范围内字符

[^]     ：指定范围外字符

次数匹配：

*       ：任意次，0，1，多次

.*      ：任意字符 任意次

?       ：至多1次或0次

+       ：至少出现1次或多次

{m}     ：其前面字符出现m次

{m,n}   ：其前面字符出现至少m次，至多n次

{m,}    ：其前面字符出现至少m次

{,n}    ：其前面字符出现至多n次

位置锚定：

^       ：匹配字符串的开头

$       ：匹配字符串的末尾

分组及引用：

()      ：分组，括号内模式会被记录于正则表达式引擎

后向引用 ：\1  \2  \3.....

或：

a|b     ：a或者b

C|cat   ：C或cat

(C|c)at ：Cat或cat

转义字符：

\w      ：匹配字母数字

\W      ：匹配非字母数字

\s      ：匹配任意空白字符，等价于 [\t\n\r\f].

\S      ：匹配任意非空字符

\d      ：匹配任意数字，等价于 [0-9].

\D      ：匹配任意非数字

\A      ：匹配字符串开始

\Z      ：匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串

\z      ：匹配字符串结束

\G      ：匹配最后匹配完成的位置。

\b      ：匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。

\B      ：匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。

\n      ：匹配一个换行符

\t      ：匹配一个制表符

\1...\9 ：匹配第n个分组的子表达式

小练习:

判断手机号码是否合法

根据手机号码一共11位并且是只以13、14、15、17、18开头的数字：

import re

phone_number = input('please input your phone number ： ')

if re.match('^(13|14|15|17|18)[0-9]{9}$',phone_number):

        print('是合法的手机号码')

else:

        print('不是合法的手机号码')

匹配标签

import re

ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")

#还可以在分组中利用?<name>的形式给分组起名字

#获取的匹配结果可以直接用group('名字')拿到对应的值

print(ret.group('tag_name'))  #结果 ：h1

print(ret.group())  #结果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")

#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致

#获取的匹配结果可以直接用group(序号)拿到对应的值

print(ret.group(1))

print(ret.group())  #结果 ：<h1>hello</h1>

爬虫练习

import requests

import re

import json

def getPage(url):

    response=requests.get(url)

    return response.text

def parsePage(s):

    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'

                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)

    for i in ret:

        yield {

            "id":i.group("id"),

            "title":i.group("title"),

            "rating_num":i.group("rating_num"),

            "comment_num":i.group("comment_num"),

        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num

    response_html=getPage(url)

    ret=parsePage(response_html)

    print(ret)

    f=open("move_info7","a",encoding="utf8")

    for obj in ret:

        print(obj)

        data=json.dumps(obj,ensure_ascii=False)

        f.write(data+"\n")

if __name__ == '__main__':

    count=0

    for i in range(10):

        main(count)

        count+=25

豆瓣爬电影

import re

import json

from urllib.request import urlopen

def getPage(url):

    response = urlopen(url)

    return response.read().decode('utf-8')

def parsePage(s):

    com = re.compile(

        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'

        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)

    for i in ret:

        yield {

            "id": i.group("id"),

            "title": i.group("title"),

            "rating_num": i.group("rating_num"),

            "comment_num": i.group("comment_num"),

        }

def main(num):

    url = 'https://movie.douban.com/top250?start=%s&filter=' % num

    response_html = getPage(url)

    ret = parsePage(response_html)

    print(ret)

    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:

        print(obj)

        data = str(obj)

        f.write(data + "\n")

count = 0

for i in range(10):

    main(count)

    count += 25

简化版

python_正则_re模块的更多相关文章

Python模块(三)(正则,re,模块与包)
1. 正则表达式匹配字符串元字符 . 除了换行 \w 数字, 字母, 下划线 \d 数字 \s 空白符 \n 换行符 \t 制表符 \b 单词的边界 \W \D \S 非xxx [ ...
日志(logging)与正则(re)模块
logging模块 #日志:日常的流水 =>日志文件,将程序运行过程中的状态或数据进行记录,一般都是记录到日志文件中 #1.logging模块一共分为五个打印级别 debug.info.warn ...
python正则--re模块常用方法
前面几篇关于正则匹配的文章我用的方法都只有一个re.search 但其实正则re模块提供很多非常好用的方法,我们先来看看re模块都有那些属性方法呢前面的一堆带_或者大写的就不关注了,主要关注最后面的 ...
Python 正则处理_re模块
正则表达式动机文本处理成为计算机常见工作之一对文本内容搜索,定位,提取是逻辑比较复杂的工作为了快速方便的解决上述问题,产生了正则表达式技术定义文本的高级匹配模式, 提供搜索, 替换, 本质 ...
正则 re模块
Python 正则表达式 re 模块简介正则表达式(regular expression)是可以匹配文本片段的模式.最简单的正则表达式就是普通字符串,可以匹配其自身.比如,正则表达式 ‘hello ...
python模块_re模块
正则表达式笔记'''#re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none.#re.search 扫描整个字符串并返回第一个成功的匹配#fi ...
python的正则re模块
一. python的正则 python的正则模块re,是其内置模块,可以直接导入,即import re.python的正则和其他应用的正则及其相似,有其他基础的话,学起来还是比较简单的. 二. 正则前 ...
python正则re模块
今日内容: 知识点一:正则什么是正则: 就是用一系列具有特殊含义的字符组成一套规则,改规则用来描述具有某一特征的字符串正则就是用来在一个大的字符串中取出符合规则的小字符串为什么用正则: ...
python 正则 re模块(详细版)
正则表达式什么是正则表达式? 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合 ...

随机推荐

CI框架错误汇总
2017年1月13日12:09:02 [1] A PHP Error was encounteredSeverity: NoticeMessage: Undefined variable: aticl ...
DFS水题 URAL 1152 False Mirrors
题目传送门 /* 题意:一个圈,每个点有怪兽,每一次射击能消灭它左右和自己,剩余的每只怪兽攻击搜索水题:sum记录剩余的攻击总和,tot记录承受的伤害,当伤害超过ans时,结束,算是剪枝吧回溯写挫 ...
ES相关概念理解
Elasticsearch特点:分布式,高性能,高可用,高伸缩的搜索和分析: 1)可作为一个大型分布式集群,处理PB级别的数据,服务大型公司,亦可运行在少数或单台设备上服务小型公司分布式的特性: E ...
Python实现决策树C4.5算法
为什么要改进成C4.5算法原理 C4.5算法是在ID3算法上的一种改进,它与ID3算法最大的区别就是特征选择上有所不同,一个是基于信息增益比,一个是基于信息增益. 之所以这样做是因为信息增益倾向于选 ...
Asp.net 字符(三)
using System; using System.Collections.Generic; using System.Globalization; using System.Linq; using ...
js中关于this的理解
常见:在普通函数中的this,指向全局 function thisObj(name){ this.name = name; console.log(this); } 但是在严格模式下的函数,this ...
java 自定义注解，并使用示例
场景: 对需要校验手机验证码和短信验证码的controller方法添加自定义的注解 @CheckType 1. 定义注解 /** * 需要短信.验证码验证方法上的注解 * date: 2018年 ...
SQL中的SELECT_简单查询语句总结
--以scott用户下的dept和emp表为例 --注意:如果scott用户不能使用,请使用system用户登录--解锁scott用户ALTER USER SCOTT ACCOUNT UNLOCK;- ...
iOS --- 搜索框UISearchController的使用(iOS8.0以后替代UISearchBar+display)
在iOS 8.0以上版本中, 我们可以使用UISearchController来非常方便地在UITableView中添加搜索框. 而在之前版本中, 我们还是必须使用UISearchBar + UISe ...
获取页面URL两种方式
以请求http://localhost:8080/doctor/demo?code=1为例一:用java代码获取 //获取URL中的请求参数.即?后的条件 code=1 String querySt ...

python_正则_re模块

正则表达式元字符：

字符匹配 ：

次数匹配：

位置锚定：

分组及引用：

或：

转义字符：

小练习:

判断手机号码是否合法

匹配标签

爬虫练习

python_正则_re模块的更多相关文章

随机推荐

热门专题

字符匹配：