python3 selenium 超时停止加载,并且捕捉异常, 进行下一步【亲测有效】

from selenium import webdriver

import os

import re

class GetPage:

    def __init__(self, url_path):

        self.url_path = url_path

        self.driver = webdriver.Chrome()

        self.urls = {}

        self.url_flag = False

        self.driver.set_page_load_timeout(1)

        self.driver.set_script_timeout(1)

    def get_url(self):

        if os.path.exists(self.url_path):

            with open(self.url_path, 'r') as f:

                url = f.read()

                self.urls = re.split(',', url)

                print(self.urls)

                if len(self.urls):

                    self.url_flag = True

        else:

            print(self.url_path + " no exist")

    def close(self):

        self.driver.quit()

    def get_page(self):

        self.get_url()

        if self.url_flag:

            for url in self.urls:

                try:

                    self.driver.get(url)

                except:

                    print(url + " timeout")

                    self.driver.quit()

                    self.driver = webdriver.Chrome()

        self.close()

if __name__ == "__main__":

    get_url_list = GetPage("E:\\1.txt")

    get_url_list.get_page()

————————————————

原文链接：https://blog.csdn.net/weixin_31315135/article/details/91039752
selenium中，当我们一次性要爬取很多url时，当get()页面超时后，捕获异常后，还需要继续get()其他url页面，但是当你直接调用get()方法时，
会报异常。此时解决方法有两种，一种是重启浏览器，另一种是浏览器保持有两个tag页，当超时是切换到另一个tag（注意：tag页是很容易加载的）

python3 selenium 超时停止加载,并且捕捉异常, 进行下一步【亲测有效】的更多相关文章

selenium网页没加载完成就停止加载并自动刷新
判断一个网页10秒没加载完成就停止加载并自动刷新 driver=webdriver.Chome() driver.set_page_load_timeout(10) while True: try: ...
Fresco对Listview等快速滑动时停止加载
Fresco中在listview之类的快速滑动时停止加载,滑动停止后恢复加载: 1.设置图片请求是否开启 // 暂停图片请求 public static void imagePause() { Fre ...
js/jquery判断浏览器 & 停止加载
JS获取浏览器信息复制代码代码如下: 浏览器代码名称:navigator.appCodeName浏览器名称:navigator.appName浏览器版本号:navigator.appVersion对 ...
netload 加载程序集抛异常----无法加载程序集解决办法
netload 加载程序集抛异常----无法加载程序集错误信息如下: 无法加载程序集.错误详细信息: System.BadImageFormatException: 未能加载文件或程序集“file: ...
【Android Studio】加载so文件异常
AS无法加载so包异常 android studio导入so包异常:Couldn't load DeviceAPI from loader dalvik.system.PathClassLoader[ ...
Python selenium webdriver设置加载页面超时
1. pageLoadTimeout: pageLoadTimeout方法用来设置页面完全加载的超时时间,完全加载即页面全部渲染,异步同步脚本都执行完成.没有设置超时时间默认是等待页面全部加载完成才 ...
selenium自动化之加载浏览器的配置文件
做seleniumUI自动化关于选用哪个浏览器方面,对于我来说,火狐浏览器只是用于定位元素,因为有firebug(注意高版本的火狐已经安装不了这个插件了),而真正执行自动化脚本用的是谷歌,感觉谷歌的速 ...
Selenium WebDriver- 指定页面加载时间
#encoding=utf-8 import unittest import time from selenium import webdriver from selenium.webdriver i ...
selenium自动化之加载浏览器配置文件
化环境:python3.6 + selenium3 当我们做自动化的时候,如果不做任何配置的话打开的浏览器默认是不加载我们的浏览器配置文件的,下面我们来说说如何加载配置文件: 首先不管使用的是火狐浏览 ...

随机推荐

python从入门到大神---1、初始化实例、类属性、方法
python从入门到大神---1.初始化实例.类属性.方法一.总结一句话总结: 方法不加括号是代码段:感觉python方法和js,php很类似,不加括号是代码段,加括号变成方法,比如f,f() 1 ...
faster-rcnn代码阅读-proposal层
这一节讲述proposal层,和这一层有关的结构图如下: proposal层的prototxt定义如下: layer { name: 'proposal' type: 'Python' bottom: ...
Python 爬虫-抓取中小企业股份转让系统公司公告的链接并下载
系统运行系统:MAC 用到的python库:selenium.phantomjs等由于中小企业股份转让系统网页使用了javasvript,无法用传统的requests.BeautifulSoup库获 ...
Java-杂项-java.nio：java.nio
ylbtech-Java-杂项-java.nio:java.nio java.nio全称java non-blocking IO,是指jdk1.4 及以上版本里提供的新api(New IO) ,为所有 ...
python的安装与版本共存与卸载
目录 python3的安装 python3的下载 python3的安装 python3与python2共存 python3的卸载 @ python3的安装 python3的下载打开网址:python ...
在Logstash的配置文件中对日志事件进行区分
1.多个日志文件作为输入源 input { # 通过给日志事件定义类型来区分 file { path => ["/var/log/nginx/access.log"] typ ...
pointer && reference
关注点在于区别两者之间的不同. 我们可以从两者使用的场景进行区分: 1, 是否需要存在null的情况: YES-pointer NO-reference 如果确定不会存在null的情况,那么使用ref ...
java 数组中的数值反转输出
package com.test; /** *数组元素反转 * */ public class ArraySwap { public static void main(String[] args) { ...
Repeater 分页
1.RepeaterDemo_Page.aspx前台代码 <body> <form id="form1" runat="server"> ...
取消设置透明状态栏,使 ContentView 内容不再覆盖状态栏
取消设置透明状态栏,使 ContentView 内容不再覆盖状态栏,在MainActivity中添加以下代码: getWindow().clearFlags(WindowManager.LayoutP ...

python3 selenium 超时停止加载,并且捕捉异常, 进行下一步【亲测有效】

python3 selenium 超时停止加载,并且捕捉异常, 进行下一步【亲测有效】的更多相关文章

随机推荐

热门专题