1.正则表达式,匹配字符串
正则表达式是对字符串操作的一种逻辑公式.我们一般使用正则表达式对字符串镜子那个匹配和过滤,使用正则的优缺点:
优点: 灵活,功能性强,逻辑性强
缺点: 上手难.一旦上手,会爱上这个东西
工具:各大文本编辑器一般都有增则匹配功能.我们也可以去http://tool.chinaz.com/regex/进行在线测试
元字符:
.    匹配除换行符以外的任意字符
\w  匹配字母数字或下划线
\s   匹配任意的空白符
\d  匹配数字
\n  匹配一个换行符
\t   匹配一个制表符
\b  匹配一个单词的结尾
^  匹配字符串的开始
$   匹配字符串的结尾
\W 匹配非字母或数字或下划线
\D  匹配非数字
\S  匹配非空白符
a|b  匹配字符a或字符b
( )   匹配括号内的表达式,也表示一个组
[...]  匹配字符组的字符
[^...]  匹配除字符组中字符的所有字符
量词:
*重复零次或更多次
+  重复一次或更多次
?  重复零次或一次
{n} 重复n次
{n, } 重复n次或更多次
{n,m}  重复n到m次
贪婪匹配和惰性匹配
    贪婪匹配: .*   .+
    惰性匹配: .*?  尽可能少的匹配
转义:
    \\\\n => \\n => \n
 在前面添加r,原样输出
分组:   使用()
在python中使用正则.re
    <?P<name>正则>
    re模块是python提供的一套关于处理正则表达式的模块,核心功能有四个:
findall()  查找所有,返回list
finditer() 查找返回,返回的是迭代器,
search()   搜索. 搜索到第一个结果返回
match()   匹配. 收到一个结果返回,从头开始匹配
compile( )  编译
group('name')  获取数据
re.S  干掉 . 的换行
# re的工作是在python中执行正则表达式
import re
 
# find
result = re.findall("\d+", "baby的电话号是: 185123456789")
print(result)     #['185123456789']
 
it = re.finditer("\d+", "baby123456789的电话号是: 185123456789")
for el in it:
    print(el.group()) # 分组   #123456789
                              #185123456789
 
 
search 搜索, 查找
一旦匹配到结果. 直接返回, 如果匹配不到结果. 返回None
result = re.search("\d", "宝宝的电话是111")
print(result)       #<_sre.SRE_Match object; span=(6, 7), match='1'>
print(result.group())     #1
 
匹配, 从头开始匹配. 相当于在你正则前面加了一个^
result = re.match("\d+", "157宝宝的电话是:")
print(result.group())    ###157
 
search和match的区别:  search查找. 找到了结果就返回. match. 从头开始匹配.
 
# 坑: 爬虫的一个重点
# .*?
result = re.finditer(r"姓名:(?P<name>.*?), 爱好:(?P<hobby>.*?),", "姓名:宝宝, 爱好:女,")
for el in result:
    print(el.group("name"), el.group("hobby"))
 
 
# 正则的常用操作
result = re.split("\d+", "宝宝110来找你了. 你回头收拾收拾去119报道")
print(result)
 
用正则替换
s = re.sub("\d+", "__sb__", "宝宝110来找你了. 你回头收拾收拾去119报道")
print(s)
 
s = re.subn("\d+", "__sb__", "宝宝110来找你了. 你回头收拾收拾去119报道") # 替换了xxx次
print(s)
 
code = "for i in range(10): print(i)"
 
c = compile(code, "", "exec") # 编译
 
exec(c) # 快速执行
 
reg = re.compile(r"\d+") # 编译了一段正则. 加载了一段正则
lst = reg.findall("呵呵, 宝宝才不去110呢.他要去120了")
print(lst)
 
re.findall(r"\d+", "呵呵, 宝宝才不去110呢.他要去120了")
 
lst = re.findall(r"a(?:\d+)c", "a123456c") # 把括号python中的分组变成了原来正则表达式中的分组
print(lst)
爬取电影天堂
# 爬取电影天堂
from urllib.request import urlopen
 
content = urlopen("https://www.dytt8.net/html/gndy/dyzz/20181219/57954.html").read().decode("gbk")
# print(content)
 
reg = r'<div id="Zoom">.*?片  名(?P<name>.*?)<br />◎年  代(?P<years>.*?)<br />.*?◎上映日期(?P<date>.*?)<br />'+ \
'.*?◎主  演(?P<main>.*?)◎简  介.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">'
 
it = re.finditer(reg, content, re.S) # re.S 去掉.里面的\n
 
for el in it:
    print(el.group("name"))
    print(el.group("years"))
    print(el.group("date"))
    print(el.group("main").replace("<br />      ", ", "))
    print(el.group("download"))
 

day 24 内置模块re的更多相关文章

  1. Python基础篇【第5篇】: Python内置模块(二)

    内置模块 1. OS os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目录:相当于shell ...

  2. python基础知识9——模块2——常见内置模块

    内置模块 内置模块是Python自带的功能,在使用内置模块相应的功能时,需要[先导入]再[使用] 1.sys 用于提供对Python解释器相关的操作: sys.argv 命令行参数List,第一个元素 ...

  3. python(八)内置模块logging/os/time/sys/json/pickle

    模块 在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护.为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少 ...

  4. python内置模块(4)

    这一部分是python内置模块系列的最后一部分,介绍了一些小巧有用的内置模块. 目录: 1.random 2.shelve 3.getpass 4.zipfile 5.tarfile 6.bisect ...

  5. python内置模块(1)

    Python的模块在其它语言中通常称为库或类库,也就是lib.它是编程语言的第三级封装,第四级则是包,也就是模块的打包组合,而前两级分别是函数和类.封装的好处,自然不用多言,高内聚,松耦合,减少代码重 ...

  6. python成长之路第三篇(4)_作用域,递归,模块,内置模块(os,ConfigParser,hashlib),with文件操作

    打个广告欢迎加入linux,python资源分享群群号:478616847 目录: 1.作用域 2.递归 3.模块介绍 4.内置模块-OS 5.内置模块-ConfigParser 6.内置模块-has ...

  7. Python爬虫与数据分析之模块:内置模块、开源模块、自定义模块

    专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

  8. Nginx内置模块简介

    经常编译Nginx的时候看到./configure后面跟着很多--with命令,虽然知道是添加模块,但一直也没有仔细去研究这些模块究竟是什么作用.本文会对常用的内置模块做个简单介绍,方便后续检索查看. ...

  9. python全栈开发 * 24 知识点汇总 * 180705

    24 模块-------序列化一.什么是模块 模块:py文件就是一个模块.二.模块的分类:(1)内置模块 (登录模块,时间模块,sys模块,os模块)(2)扩展模块 (itchat 微信有关,爬虫,b ...

随机推荐

  1. 深入解读TPC-C指标

    深入解读TPC-C指标 TPC(Transactionprocessing Performance Council,事务处理性能委员会)是由数十家会员公司创建的非盈利组织,总部设在美国.TPC的成员主 ...

  2. linux下查看数据库版本的5中方法

    1.在Linux终端窗口中,输入mysql -V查看MySQL版本信息[sky@qin ~]# mysql -Vmysql  Ver 14.14 Distrib 5.1.29-rc, for pc-l ...

  3. 最短路径-Dijkstra算法与Floyd算法

    一.最短路径 ①在非网图中,最短路径是指两顶点之间经历的边数最少的路径. AE:1    ADE:2   ADCE:3   ABCE:3 ②在网图中,最短路径是指两顶点之间经历的边上权值之和最短的路径 ...

  4. mysql多实例mysqld_multi方式

    mysql多实例应用,亲测直接执行脚本可使用,可快速部署多实例环境 #!/bin/bash set -e #定义mysql_multi多实例数据的配置,如需增加,在后面函数对应地方需要增加 mydir ...

  5. linux 安装pip 和python3

    前言: python3应该是python的趋势所在,当然目前争议也比较大,这篇随笔的主要目的是记录在linux6.4下搭建python3环境的过程 以及碰到的问题和解决过程. 另外,如果本机安装了py ...

  6. 解决Ubuntu启动错误——kernel panic not syncing vfs unable to mount root fs on unknown-block 0 0 – error

    最近在倒腾Ubuntu,然后想着怎么美化一下界面,于是照着网上的教程整了一下Flatabulous这个软件,然后好像/boot就满了.关机之后再开机就出现了如题所述的错误,无法开机,也无法进入reco ...

  7. PhoneGap Geolocation结合百度地图api获取地理位置api

    一.使用百度地图API 1.地址:http://developer.baidu.com/map/ 2.在js DEMO中获取反地址解析的DEMO 3.修改这个DEMO的密钥,去创建应用就能创建密钥,然 ...

  8. 如何用jstl的select标签做二级联动下拉列表框??

    下拉列表框的多级联动早就会了.但是用jstl的select标签做下拉列表框的做二级联动的时候还是遇到了些问题.主要问题在用Ajax查询到的数据如何拼成下拉选项的时候.其实很简单,但我还是折腾了好久.所 ...

  9. MySQL理解索引、添加索引的原则

    索引用于快速找出在某个列中有一特定值的行.不使用索引,MySQL必须从第1条记录开始然后读完整个表直到找出相关的行,还需要考虑每次读入数据页的IO开销.而如果采取索引,则可以根据索引指向的页以及记录在 ...

  10. UVa 1635 - Irrelevant Elements(二项式系数 + 唯一分解定理)

    链接: https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...