一、re模块的补充
1、从一个字符串中获取要匹配的内容
findall:返回一个列表 2、search ***** 验证用户输入内容 '^正则规则$':返回一个对象,用group()取值 3、match:与search一样,但是只从字符串的开头匹配
import re
ret = re.match('\d+','123adas4567gi9sf7789')
print(ret) # <_sre.SRE_Match object; span=(0, 3), match='123'>
print(ret.group()) # ret = re.match('\d+','adas4567gi9sf7789')
print(ret.group()) # 报错,因为找不到以数字开始的字符串 相当于search的正则表达式中加 ^
ret = re.search('^\d+','123adas4567gi9sf7789')
print(ret) # <_sre.SRE_Match object; span=(0, 3), match='123'>
print(ret.group()) # 4、split:按照正则表达式规则对字符串进行分割
s = 'xiaoming666xiaogou123xiaohong'
ret = re.split('\d+',s)
print(ret) # ['xiaoming', 'xiaogou', 'xiaohong'] # 有元组的情况下,保留元组内的字符
ret = re.split('(\d+)',s)
print(ret) # ['xiaoming', '666', 'xiaogou', '123', 'xiaohong'] ret = re.split('\d(\d)',s)
print(ret) # ['xiaoming', '6', '6xiaogou', '2', '3xiaohong'] # 按照字符组拆分
ret = re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret) # ['', '', 'cd'] 5、sub:用某字符串替换正则表达式的内容
s1 = 'xiaoming666xiaogou123xiaohong456'
ret = re.sub('\d+','|',s1)
print(ret) # xiaoming|xiaogou|xiaohong| # 还可以设置替换多少次
ret = re.sub('\d+','|',s1,1)
print(ret) # xiaoming|xiaogou123xiaohong456 # subn除了正常替换外,还会显示替换的次数,返回一个元组
ret = re.subn('\d+','|',s1)
print(ret) # ('xiaoming|xiaogou|xiaohong|', 3) 6、finditer:返回一个存放匹配结果的迭代器(节省内存)
ret = re.finditer('\d+','qwe123abc456')
print(ret) # <callable_iterator object at 0x000001CA560DF860>
print(ret.__next__().group()) #
print(next(ret).group()) # # 或者单独使用for
for i in ret:
print(i.group()) # 123 456 7、compile:将正则表达式编译成为一个正则表达式对象
com = re.compile('\d+')
print(com) # re.compile('\\d+') ret = com.search('qwe123abc456')
print(ret.group()) # ret = com.findall('qwe123abc456')
print(ret) # ['123', '456'] ret = com.finditer('qwe123abc456')
for i in ret:
print(i.group()) # 123 456 8、分组命名、分组约束:在分组中利用?P<name>的形式给分组起名字,获取的匹配结果可以直接用group('名字')拿到对应的值
pattern = '<(?P<tag_name>.*?)>.*?</(?P=tag_name)>'
# 正则表达式,(?P<tag_name>.*?) 表示为元组内的内容 .*? 起组名
# (?P=tag_name) 表示引用刚才的组的内容,即表示内容要与组的内容相同 ret = re.search(pattern,'<h1>函数</h1>')
if ret:
print(ret.group()) # <h1>函数</h1>
print(ret.group('tag_name')) # h1
print(ret.group(1)) # h1 # 还可以用索引的形式使用元组内的内容
pattern = r'<(.*?)>.*?</\1>' # 这里的\1代表引用第一个元组内的内容
ret = re.search(pattern,'<h1>函数</h1>')
if ret:
print(ret.group()) # <h1>函数</h1>
print(ret.group(1)) # h1 9、?的应用
? 表示量词,零次或者一次
(?:正则表达式) 表示取消优先显示功能
(?P<组名>正则表达式) 表示给这个组起一个名字
(?P=组名) 表示引用之前组的名字,引用部分匹配到的内容必须和之前那个组中的内容一模一样 10、re模块中的flags
flags有很多可选值:
re.I(IGNORECASE)忽略大小写,括号内是完整的写法
re.M(MULTILINE)多行模式,改变^和$的行为
re.S(DOTALL)点可以匹配任意字符,包括换行符
re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释 ret = re.findall('[a-z]','aAbB',re.I)
print(ret) # ['a', 'A', 'b', 'B'] 二、爬虫与re模块的小应用例子
# 爬一些网页的某些内容
# 这些内容结构相似
# 正则指引 from urllib.request import urlopen
import re
import json def getPage(url):
response = urlopen(url)
content = response.read().decode('utf-8')
return content def parsePage(s): # s是网页源代码
ret = com.finditer(s)
for i in ret:
yield {
"id": i.group("id"),
"title": i.group("title"),
"rating_num": i.group("rating_num"),
"comment_num": i.group("comment_num"),
} def main(num):
url = 'https://movie.douban.com/top250?start=%s&filter=' % num
response_html = getPage(url)
ret = parsePage(response_html)
print(ret)
f = open("move_info7", "a", encoding="utf8")
for obj in ret:
print(obj)
data = json.dumps(obj, ensure_ascii=False)
f.write(data + "\n")
f.close() if __name__ == '__main__':
com = re.compile(
'<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
'.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)
count = 0
for i in range(10):
main(count)
count += 25 三、异常处理
1-1、
区分语法错误和异常:
语法错误 :在程序之前就规避掉,不应该留到程序中来进行异常处理
if name == 1: # name没有定义导致的语法错误
pass 异常:在编译阶段没问题,在执行阶段才报错
num = int(input('>>>'))
print(num) # 编译的时候是没问题的,但食在执行的时候如果输入的不是数字,就会报错,属于异常 1-2、什么是异常?
异常之后的代码就不执行了 1-3、什么是异常处理
python解释器检测到错误,触发异常(也允许程序员自己触发异常)
程序员编写特定的代码,专门用来捕捉这个异常(这段代码与程序逻辑无关,与异常处理有关)
如果捕捉成功则进入另外一个处理分支,执行你为其定制的逻辑,使程序不会崩溃,这就是异常处理 1-4、为什么要进行异常处理?
python解析器去执行程序,检测到了一个错误时,触发异常,异常触发后且没被处理的情况下,程序就在当前异常处终止,
后面的代码不会运行,程序就崩溃了,所以你必须提供一种异常处理机制来增强你程序的健壮性与容错性 2、异常出现之后的现象 :从异常的地方开始,程序就不继续执行了
常用异常:
AttributeError 试图访问一个对象没有的树形,比如foo.x,但是foo没有属性x
IOError 输入/输出异常;基本上是无法打开文件
ImportError 无法引入模块或包;基本上是路径问题或名称错误
IndentationError 语法错误(的子类) ;代码没有正确对齐
IndexError 下标索引超出序列边界,比如当x只有三个元素,却试图访问x[5]
KeyError 试图访问字典里不存在的键
KeyboardInterrupt Ctrl+C被按下
NameError 使用一个还未被赋予对象的变量
SyntaxError Python代码非法,代码不能编译(个人认为这是语法错误,写错了)
TypeError 传入对象类型与要求的不符合
UnboundLocalError 试图访问一个还未被设置的局部变量,基本上是由于另有一个同名的全局变量,导致你以为正在访问它
ValueError 传入一个调用者不期望的值,即使值的类型是正确的
ArithmeticError
AssertionError
AttributeError
BaseException
BufferError
BytesWarning
DeprecationWarning
EnvironmentError
EOFError
Exception
FloatingPointError
FutureWarning
GeneratorExit
ImportError
ImportWarning
IndentationError
IndexError
IOError
KeyboardInterrupt
KeyError
LookupError
MemoryError
NameError
NotImplementedError
OSError
OverflowError
PendingDeprecationWarning
ReferenceError
RuntimeError
RuntimeWarning
StandardError
StopIteration
SyntaxError
SyntaxWarning
SystemError
SystemExit
TabError
TypeError
UnboundLocalError
UnicodeDecodeError
UnicodeEncodeError
UnicodeError
UnicodeTranslateError
UnicodeWarning
UserWarning
ValueError
Warning
ZeroDivisionError

异常处理总览


3、异常处理
3-1、try except单分支
try:
num = int(input('num : '))
print(num)
except ValueError:
print('你输入的不是数字') 3-2、多分支
l = ['首页','购物车','结算']
try:
num = int(input('num : '))
print(l[num-1])
except ValueError:
print('你输入的不是数字')
except IndexError:
print('您输入的内容超出范围') 3-3、多分支合并
l = ['首页','购物车','结算']
try:
num = int(input('num : '))
print(l[num-1])
except (ValueError,IndexError):
print('输入有误') 3-4、万能异常处理:Exception
try:
l = []
l[2] # IndexError
import modules # ModuleNotFoundError
open('file.txt') # FileNotFoundError
dic = {}
dic['k'] # KeyError
except Exception:
print('出现异常了') 3-4、as语法:由于用Exception不能知道是出现了哪种异常,不便于处理,所以使用as语法(其他异常也可用as)
try:
l = []
l[2] # IndexError
import modules # ModuleNotFoundError
open('file.txt') # FileNotFoundError
dic = {}
dic['k'] # KeyError
except Exception as e:
print(e) try:
num = int(input('num:'))
print(num) except ValueError as e:
print(e) 3-5、多分支 + 万能异常
l = ['首页','购物车','结算']
try:
num = int(input('num : '))
print(l[num-1])
dic['a']
except (ValueError,IndexError): # 当出现了这两种异常会先走这里
print('输入有误')
except Exception as e: # 出现了除上述两种异常,就会走这里
print(e) 4、异常处理汇总
try:
可能发生异常的代码
except 错误类型:
处理的代码 try:
可能发生异常的代码
except 错误类型1:
处理的代码1
except 错误类型2:
处理的代码2 try:
可能发生异常的代码
except (错误类型1,错误类型2):
处理的代码 try:
可能发生异常的代码
except (错误类型1,错误类型2):
处理的代码
except Exception as e:
print(e) 6、异常处理中的其他机制
6-1、try else:没有触发异常的时候走else语句
例如:没有定义变量的时候,会出现NameError异常 try:
num
except NameError:
print('异常了')
else:
print('没有异常')
结果:异常了 try:
num = 123
except NameError:
print('异常了')
else:
print('没有异常')
结果:没有异常 实际应用
try:
发邮件的逻辑
except ValueError:
print('触发了一个异常')
else:
汇报这段代码顺利的执行了 : 发短信通知,记录到文件中 6-2、finally:无论如何都会执行,一般应用于收尾工作,关闭一个打开了的文件,释放占用了的网络资源,断开与数据库的链接等
try:
name = 'xiaoming'
except NameError:
print('触发异常')
finally:
print('执行finally了')
结果:执行finally了 try:
name
except NameError:
print('触发异常')
finally:
print('执行finally了')
结果:触发异常,执行finally了 关闭文件:
def func():
try:
f = open('file')
return f.read()
finally:
f.close()
print('closed')
func() 7、主动抛出异常:raise 异常类型(错误信息)
try:
raise ValueError('错误信息')
except ValueError as e:
print(e) 8、自定义异常
自定义一个类名,继承BaseException(它是python内置的一个全局变量,无需导入,在哪都可以直接使用)
__init__方法内调用父类的__init__
__init__初始化错误信息
__str__返回错误信息 class FruitException(BaseException):
def __init__(self,msg):
super().__init__()
self.msg = msg def __str__(self):
return self.msg try:
raise FruitException('错误信息')
except FruitException as e:
print(e) 9、断言:assert 条件,就是符合条件继续运行下去,不符合条件就停止。
assert 1 == 1
print('继续执行')
print('')
print('')
print('') assert 1 == 2
print('后面的代码全都会停止')
print('')
print('')
print('')

python之异常处理和re模块补充的更多相关文章

  1. python基础之 异常处理和logging模块

    1.异常处理 l = ['apple','admin','kobe'] for id,item in enumerate(l,1): print(id,item) try: choose_id = i ...

  2. Python之异常处理和socket套接字连接7

    一.异常处理 1)异常处理的使用意义 什么是异常处理 异常是程序发生错误的信号,即程序一旦出错就会立刻产生一个异常,如果该异常没有被处理 那么异常就抛出来,程序的运行也随之终止 异常分为三部分: 异常 ...

  3. C++复习8.异常处理和RTTI

    C++异常处理和RTTI技术 20130930 1.异常处理的基本知识 C语言中是没有内置运行时错误处理机制,对于错误发生的时候使用的几种处理机制: 函数返回彼此协商后统一定义的状态编码来表示操作成功 ...

  4. C异常处理和C++异常处理的对比

    每一种编译器实现异常处理的方式会有所不同,但是都是基于Windows的SEH异常处理.这里以MSC编译器为例. C异常处理 #include <Windows.h> int main(in ...

  5. 进击的Python【第七章】:python各种类,反射,异常处理和socket基础

    Python的高级应用(三)面向对象编程进阶 本章学习要点: 面向对象高级语法部分 静态方法.类方法.属性方法 类的特殊方法 反射 异常处理 Socket开发基础 一.面向对象高级语法部分 静态方法 ...

  6. 异常处理和UDP协议

    一.什么是异常? 程序在运行过程中出现了不可预知的错误,并且该错误没对应的处理机制,那么就会以异常的形式表示出来, 造成的影响就是整个程序无法再正常的运行,抛出异常. 二.异常的结构: 1:异常的类型 ...

  7. 一.文件处理和json模块(容易混淆知识点即用法)

    一.文件处理 注意点1: 打开文件包含两部分资源:操作系统级打开得文件+应用程序的变量. 在操作完毕一个文件时,必须把该文件的两部分资源一个不落的回收 如下: f.close() #回收操作系统级打开 ...

  8. Java基础学习补充 -- 异常处理和log4j日志

    Java中的异常处理 异常是程序中的一些错误,但并不是所有的错误都是异常,并且错误有时候是可以避免的. Java中所有异常的基类Throwable:Throwable又分为Error类和Excepti ...

  9. 异常处理和UDP Socket套接字

    一.异常处理 1.什么是异常处理: 程序在运行过程中出现了不可预知的错误,并且该错误没有对应的处理机制,那么就会以异常的形式表达出来,造成的影响就是整个程序无法再正常进行. 2.异常的结构: 1.异常 ...

随机推荐

  1. vue element-ui 2.3.4版本 input number值为0时 显示不出来

    解决:官方修复了这个bug.升级element-ui为2.3.5版本就好了

  2. vue HTTP 请求(vue-resource)

    来自:https://www.cnblogs.com/lhl66/p/8022423.html 侵删 //初始化页面需要做什么事情 //点击后需要做什么事情 //鼠标.键盘.冒泡.默认行为等事件 // ...

  3. 关于ajax用户名验证和jquery实现简单表单验证

    首先来说用户名验证: 前台: <tr> <td class="tableleft">教师编号</td> <td><input ...

  4. Bitmap上下合成图片

    合成两张图片,上下叠加的效果: /** * 把两个位图覆盖合成为一个位图,以底层位图的长宽为基准 * * @param backBitmap 在底部的位图 * @param frontBitmap 盖 ...

  5. Windows系统下搭建Git本地代码库

    近由于工作需要,要把工作代码做一下版本管理.工作代码也不方便放到github上,也不想付费建私密库,公司也没几个人,所以就想着搭建一个本地Git版本库,来做版本管理.搭建过程如下. 系统环境:Dell ...

  6. Django 事务操作

    如何在Django中进行事务操作 案例: 客户A要给客户B转一笔钱,这个在数据库中需要进行两步: 1.客户A减钱 2.客户B加钱 如果在第一步结束后,服务器出现异常,停下了,第二步没有进行,如果数据库 ...

  7. JAVA 递归实现从n个数中选取m个数的所有组合

    这周Java课程有个小作业:Java递归实现从n个数中选取m个数的所有组合 代码如下: //其中 n 取 1,2,3,4,5 五个数, m 取 3 package javaText; public c ...

  8. 用一条SQL语句显示所有可能的比赛组合

    一个叫team的表,里面只有一个字段name,一共有4 条纪录,分别是a.b.c.d,对应四个球队,现在四个球队进行比赛,用一条SQL语句显示所有可能的比赛组合. select * from team ...

  9. Bootstrap -- 文本,背景,其他样式

    Bootstrap -- 文本,背景,其他样式 1. 文本样式:展示了不同的文本颜色 使用文本样式: <!DOCTYPE html> <html> <head> & ...

  10. 批处理基础知识-IF

    本文主要介绍批处理IF命令的使用. IF命令格式: if /i string=string command 释义:判断2个字符串是否相等,但不区分大小写. 例: 代码: @echo off if /i ...