python爬虫模块之HTML下载模块

HTML下载模块

该模块主要是根据提供的url进行下载对应url的网页内容。使用模块requets-HTML，加入重试逻辑以及设定最大重试次数，同时限制访问时间，防止长时间未响应造成程序假死现象。

根据返回的状态码进行判断如果访问成功则返回源码，否则开始重试，如果出现异常也是进行重试操作。

from requests_html import HTMLSession

from fake_useragent import UserAgent

import requests

import time

import random

class Gethtml():

    def __init__(self,url="http://wwww.baidu.com"):

        self.ua = UserAgent()

        self.url=url

        self.session=HTMLSession(mock_browser=True)

        #关于headers有个默认的方法 self.headers = default_headers()

        #mock_browser 表示使用useragent

    def get_source(self,url,retry=1):

           if retry>3:

               print("重试三次以上，跳出循环")

               return None

           while retry<3:

               try:

                  req=self.session.get(url,timeout=10)

                  if req.status_code==requests.codes.ok:

                      return req.text

                  else:

                      time.sleep(random.randint(0,6))

               except:

                   print('Unfortunitely -- An Unknow Error Happened, Please wait 0-6 seconds')

                   time.sleep(random.randint(0, 6))

                   retry += 1

                   self.get_source(url,retry)

python爬虫模块之HTML下载模块的更多相关文章

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python爬虫网页解析之lxml模块
08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http ...
python爬虫网页解析之parsel模块
08.06自我总结 python爬虫网页解析之parsel模块一.parsel模块安装官网链接https://pypi.org/project/parsel/1.0.2/ pip install ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
【Python爬虫】正则表达式与re模块
正则表达式与re模块阅读目录在线正则表达式测试常见匹配模式 re.match re.search re.findall re.compile 实战练习在线正则表达式测试 http://tool ...
python爬虫解析库之re模块
re模块一:什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则.(在Python中)它内嵌在Python中, ...
设置python爬虫IP代理(urllib/requests模块)
urllib模块设置代理如果我们频繁用一个IP去爬取同一个网站的内容,很可能会被网站封杀IP.其中一种比较常见的方式就是设置代理IP from urllib import request proxy ...
爱奇艺用券付费VIP电影+python爬虫程序+可视化界面+下载本地
申明:本博客中的工具及源码仅供个人学习使用,请勿用作商业等其他任何违法用途!否则后果自负直接步入正题吧! 工具开发环境:windows10,python3.6 工具界面设计:基于python 自带的 ...
Python爬虫帮你打包下载所有抖音好听的背景音乐，还不快收藏一起听歌【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

随机推荐

Qt基本控件及三大布局
Qt基本控件及三大布局来源: http://blog.csdn.net/a2604539133/article/details/73920696 Qt基本模块一.Qt的三大布局 QHBoxLayo ...
hadoop 把mapreduce任务从本地提交到hadoop集群上运行
MapReduce任务有三种运行方式: 1.windows(linux)本地调试运行,需要本地hadoop环境支持 2.本地编译成jar包,手动发送到hadoop集群上用hadoop jar或者yar ...
BZOJ1486：[HNOI2009]最小圈——题解
https://www.lydsy.com/JudgeOnline/problem.php?id=1486 https://www.luogu.org/problemnew/show/P3199 题面 ...
Vue报错
Node Sass could not find a binding for your current environment: OS X 64-bit with Node.js 8.x Found ...
Redis、Memcache
★ Redis redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sor ...
SDUT 3930 线段树
皮卡丘的梦想2 Time Limit: 1000MS Memory Limit: 65536KB Submit Statistic Problem Description 一天,一只住在 501 实验 ...
配置静态服务器和配置nfs
一.配置Nginx 1.安装Nginx yum -y install nginx 2.编写配置文件 [root@ngix nginx]# cd /etc/nginx [root@ngix nginx] ...
mybatis中association和collection的column传入多个参数值
在使用 association和collection 进行关联查询的时候 column 参数可能会有多个,如下: 注意: parameterType 一定要是 java.util.Map
[洛谷P2023] [AHOI2009]维护序列
洛谷题目链接:[AHOI2009]维护序列题目描述老师交给小可可一个维护数列的任务,现在小可可希望你来帮他完成. 有长为N的数列,不妨设为a1,a2,-,aN .有如下三种操作形式: (1)把数列 ...
struts2之OGNL用法
浅析OGNL OGNL是Object-GraphNavigation Language的缩写,是一种功能强大的表达式语言通过它简单一致的表达式语法,可以存取对象的任意属性,调用对象的方法,遍历整个对 ...

python爬虫模块之HTML下载模块

HTML下载模块

python爬虫模块之HTML下载模块的更多相关文章

随机推荐

热门专题