3.python正则匹配不到内容时消耗大量内存

遇到问题：正常情况获取的网页源码可以通过正则表达式快速匹配到内容，，但是如果出现问题，没有匹配到的内容，正则就会一直回溯，导致内存激增，一直循坏查找。

解决思路：一、如果能够有特殊内容可以标记，满足标记再正则，不匹配则不正则，避免一直回溯

二、可以设置timeout的函数，如果运行超过多少时间则强制结束（下面给出了示例）

用threading.Timer的方法，通过start-》sleep-》cancel的形式，实现强制结束函数的调用

import threading

import time

def fun_timer():

    print('hello timer')

    global timer

    #重复构造定时器

    timer = threading.Timer(5.8,fun_timer)

    timer.start()

#定时调度

timer = threading.Timer(2,fun_timer)

timer.start()

# 50秒后停止定时器

time.sleep(50)

timer.cancel()

参考文章：https://blog.csdn.net/lxcnn/article/details/4756030

参考文章：https://blog.csdn.net/Homewm/article/details/92127567 （处理函数超时的三种方式）

3.python正则匹配不到内容时消耗大量内存的更多相关文章

Python正则匹配字母大小写不敏感在读xml中的应用
需要解决的问题:要匹配字符串,字符串中字母的大小写不确定,如何匹配? 问题出现之前是使用字符串比较的方式,比如要匹配'abc',则用语句: if s == 'abc':#s为需要匹配的字符串 prin ...
正则匹配获取HTML图片地址，正则匹配获取HTML内容
//正则匹配获取HTML图片地址preg_match_all('/<img.*?src="(.*?)".*?>/is', $str, $array); if (isse ...
python 正则匹配中文(unicode)(转)
由于需求原因,需要匹配提取中文,大量google下,并没有我需要的.花了一个小时大概测试,此utf8中文通过,特留文. 参考: http://hi.baidu.com/nivrrex/blo ...
python正则匹配——中文字符的匹配
# -*- coding:utf-8 -*- import re '''python 3.5版本正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大 ...
python 正则匹配
正则表达式模式模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身.一个正则表达式模式中的字母和数字匹配同样的字符串. 多数字母和数字前加一个反斜杠时会拥有不同的含义. 标点符号只 ...
Python正则匹配多行，多个数据
最近用Python做一个crawler工具的时候,发现用一个正则表达式可以匹配到个数据的时候用match.group()只能打印出第一个数据,其它数据不能打印出来.最后找到解决方法,现在记录一下,直接 ...
Python 正则匹配网页内的IP地址及端口号
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-30 20:38:23 # @Author : EnderZhou (z ...
python正则匹配示例
text="山东省临沂市兰山区市委大院中区21号楼4单元 276002 奥特曼1号 18254998111" #匹配手机号 m=re.findall(r"1\d{10} ...
Python正则匹配之有名分组
参考:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html # re.match import re m = re.match(r'( ...

随机推荐

浅谈javascript函数执行过程
javascript函数执行过程: 1. 为函数创建一个执行环境 2. 复制函数的 [[scopes]] 属性中的对象构建起执行环境的作用链域 3. 创建函数活动对象并推入执行环境作用链域的前端 4. ...
转：zabbix 2.0.6监控cisco交换机 2950 2960s 3560G
转自: http://blog.chinaunix.net/uid-24250828-id-3806551.html 想在zabbix 上监控交换机端口的流量,找了两天的模板,包括官方的和网友写的.在 ...
转：Zabbix-3.0.x使用OneAlert发送告警
转自: http://blog.sina.com.cn/s/blog_87113ac20102w7il.html ( 标签: onealert 分类: zab OneAlert 是国内首个 Saa ...
CodeFroces New Assignment 二分图匹配
There is a class consisting of n students, in which each one has a number representing his/her perso ...
统一管理jar包版本
 <properties> <spring.version>5.0.2.RELEASE</spring.version& ...
基于seo的话一个页面里的h1标签应该控制在多少个
不能出现多个,一个页面只能出现一次,次数多了就会造成权重分散
mongodb 4.0配置认证模块
use admin db.createUser({user:"root",pwd:"xxx",roles:[{role:"root",db: ...
Android实习生 —— 屏幕适配及布局优化
为什么要进行屏幕适配.对哪些设备进行适配?在近几年的发展当中,安卓设备数量逐渐增长,由于安卓设备的开放性,导致安卓设备的屏幕尺寸大小碎片化极为严重.从[友盟+]2016年手机生态发展报告H1中看截止1 ...
“一亿”的教训：一次Google信箱诈骗是如何得手的？
网络诈骗是指以非法占有为目的,利用互联网采用虚构事实或者隐瞒真相的方法,骗取数额较大的公私财物的行为.一年比一年网络诈骗越来越高手段,可以说是日益猖獗.在这里提醒一次各位朋友一定要注意自己的网络安全. ...
Redis(2)——跳跃表
一.跳跃表简介跳跃表(skiplist)是一种随机化的数据结构,由 William Pugh 在论文<Skip lists: a probabilistic alternative to ba ...

3.python正则匹配不到内容时消耗大量内存

3.python正则匹配不到内容时消耗大量内存的更多相关文章

随机推荐

热门专题