手写一个selenium浏览器池
维护一组浏览器,实现每分钟1000次查询。DriverPool使用变幻版只初始化一次的单例模式。维护每个浏览器的当前是否使用的状态。
不需要等待请求来了,临时开浏览器,开一个浏览器会耽误6秒钟。
可以在程序启动后,随便使用命令杀死slenium,,不怕被别人杀死,不需要重启程序就能保证长久正常运行。
主要使用了 mixin继承、变化版单例模式、鸭子类、桥接模式、上下文管理器,引入了资源池的概念,自动选择一个当前未被使用的浏览器。
使用了池固定了浏览器最大数量,避免了直接开孤立的slenium driver,当并发大的时候代码突然启动几百上千个浏览器,会导致系统突然性能衰竭。
# coding=utf8
"""
浏览器资源池维护。不需要等待有任务来了,再重开浏览器。新开浏览器会耽误6秒时间。
抗杀抗oom,可以随便在程序启动后,批量杀死浏览器,程序会自动开启。
"""
import time
import os
from pathlib import Path
from threading import Lock
from urllib.error import URLError
from selenium.webdriver import DesiredCapabilities
from selenium.common.exceptions import WebDriverException
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from app.utils_ydf import LoggerMixin, BoundedThreadPoolExecutor, decorators, LogManager class NoAvailableDriverError(Exception):
pass class DriverItem:
def __init__(self, driver, ):
self.driver = driver
self.create_time = time.time()
self.is_using = False
self.last_use_time = time.time() def __str__(self):
# noinspection PyRedundantParentheses
return (f"{time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(self.create_time))} {self.is_using} {time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(self.last_use_time))} {self.driver}") class PhantomjsItemBuilder(LoggerMixin):
# noinspection PyBroadException
def create_a_driver_item(self):
t0 = time.time()
capabilities = DesiredCapabilities.PHANTOMJS.copy()
capabilities['platform'] = "WINDOWS"
capabilities['version'] = ""
capabilities['phantomjs.page.settings.loadImages'] = False
# capabilities['phantomjs.page.settings.userAgent'] = (
# "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) "
# "Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
capabilities['phantomjs.page.settings.userAgent'] = (
"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36")
service_args = ['--load-images=no', '--disk-cache=yes', '--ignore-ssl-errors=true']
self.logger_with_file.info('创建一个driver中。。。。。。')
driver = None
if os.name == 'posix':
# driver = webdriver.PhantomJS(executable_path=Path(__file__).parent / Path('phantomjs'), desired_capabilities=capabilities, service_args=service_args)
try:
driver = webdriver.PhantomJS(desired_capabilities=capabilities, service_args=service_args)
except Exception as e:
self.logger.exception(f'从环境变量获取driver路径失败,改为从/usr/local/bin文件夹获取 {e}')
try:
driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs', desired_capabilities=capabilities, service_args=service_args)
except Exception as e:
self.logger.exception(f'从/usr/local/bin/phantomjs启动失败 {e}')
else:
driver = webdriver.PhantomJS(desired_capabilities=capabilities, service_args=service_args)
# driver.maximize_window()
driver.set_window_size(390, 713)
driver.set_page_load_timeout(10)
# driver.implicitly_wait(10)
self.logger.info(f'创建一个浏览器耗时{time.time() - t0}')
return DriverItem(driver) class ChromeItemBuilder(LoggerMixin):
def create_a_driver_item(self):
self.logger.info('创建一个driver中。。。。。。')
t0 = time.time()
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--disable-images')
chrome_options.binary_location = r'C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe'
# prefs = {"profile.managed_default_content_settings.images": 2}
prefs = { 'profile.default_content_setting_values': {
# 也可以这样写,两种都正确
# 'profile.default_content_settings': {
'images': 2, # 不加载图片
'javascript': 1, # 2不加载JS
"User-Agent": 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36"', # 更换UA
} }
chrome_options.add_experimental_option("prefs", prefs)
chrome_options.add_argument('blink-settings=imagesEnabled=false') # 这句禁用图片才能生效,上面两个禁用图片没起到效果。
driver = webdriver.Chrome(chrome_options=chrome_options)
# driver.maximize_window()
driver.set_window_size(390, 713)
driver.set_page_load_timeout(100)
driver.implicitly_wait(100)
self.logger.info(f'创建一个浏览器耗时{time.time() - t0}')
return DriverItem(driver) class DriverPool(LoggerMixin):
lock = Lock() def __new__(cls, *args, **kwargs):
if not hasattr(cls, '_instance'):
self = super().__new__(cls, )
cls._instance = self
self.__custom_init__(*args, **kwargs)
return cls._instance def __custom_init__(self, driver_item_num=10, driver_name=1):
"""
:param driver_item_num:浏览器数量
:param driver_name: 浏览器种类 1为phantomsj,2为chrome
:return:
"""
self.driver_item_list = list()
self._driver_item_num = driver_item_num
self.driver_item_builder = PhantomjsItemBuilder() if driver_name == 1 else ChromeItemBuilder()
self.logger_with_file.info(f'准备初始化{driver_item_num}个浏览器')
self._has_init_all_driver_item = False
self._init_time = 0
self._init_all_driver_item() def _init_all_driver_item(self):
if time.time() - self._init_time > 60:
self._init_time = time.time()
self.logger.warning('杀死残留的phantomjs进程') # 此处的命令不用怕误杀其它地方的phantomjs,上下文管理器使用被杀的浏览器会自动启动。
if os.name == 'posix':
os.system('ps -aux|grep phantomjs|grep -v grep|cut -c 9-15|xargs kill -9')
else:
os.system('taskkill /F /im phantomjs.exe')
t0 = time.time()
self.driver_item_list.clear() # 一定需要清空原来的。 def _inner(this: DriverPool):
driver_item = this.driver_item_builder.create_a_driver_item()
this.driver_item_list.append(driver_item) thread_pool = BoundedThreadPoolExecutor(self._driver_item_num)
[thread_pool.submit(_inner, self) for _ in range(self._driver_item_num)] # 亲测多线程创建10个浏览器,比一个接一个的创建速度要快很多。
thread_pool.shutdown()
self._has_init_all_drivers = True
self.logger.info(f'所有浏览器初始化创建成功,耗时 {time.time() - t0}秒 {len(self.driver_item_list)} {self.driver_item_list}') def borrow_a_driver_item(self):
with self.lock:
current_using_number = 0
current_not_using_number = 0
for driver_item in self.driver_item_list:
if driver_item.is_using:
current_using_number += 1
else:
current_not_using_number += 1
self.logger.debug(f'当前正在使用的浏览器数量是{current_using_number},闲置的浏览器数量是{current_not_using_number}')
for index, driver_item in enumerate(self.driver_item_list):
if driver_item.is_using is False:
if time.time() - driver_item.create_time > 3600:
self.logger.debug('防止phantomjs内存泄漏,关闭并重新创建一个浏览器')
self.driver_item_list.pop(index)
driver_item.driver.quit()
driver_item = self.driver_item_builder.create_a_driver_item()
self.driver_item_list.insert(index, driver_item)
driver_item.is_using = True
return driver_item
raise NoAvailableDriverError('当前没有可用的浏览器。。。。。。。。。。。。') @staticmethod
def give_back_a_driver_item(driver_item: DriverItem):
driver_item.is_using = False
driver_item.last_use_time = time.time() class DriverContext:
def __init__(self):
self.driver_pool = DriverPool()
self.driver_item = None
self.start_using_time = time.time() def __enter__(self):
self.driver_item = self.driver_pool.borrow_a_driver_item()
self.driver_pool.logger_with_file.debug(f'当前使用的浏览器是 {self.driver_item}')
return self.driver_item.driver def __exit__(self, exc_type, exc_val, exc_tb):
self.driver_pool.logger.info(f'此浏览器 {self.driver_item} 占用时间为 {time.time() - self.start_using_time}秒')
self.driver_pool.give_back_a_driver_item(self.driver_item)
if exc_type == URLError: # 如果phantomjs被被手动杀死或者oom了,再次使用这个phatntomjs会出这个URLError错,重新生成浏览器池。
self.driver_pool._init_all_driver_item()
if exc_type and issubclass(exc_type, WebDriverException):
self.driver_pool.logger.error(f'selenium发生错误 ,错误类型--> {exc_type} 错误原因--> {exc_val}')
# return True if __name__ == '__main__':
logger = LogManager('driver_pool_test').get_logger_and_add_handlers()
DriverPool(50)
if not Path('/picture').exists():
Path('/picture').mkdir() @decorators.tomorrow_threads(40)
def f():
with DriverContext() as driver: # 需要使用with语法来使用浏览器,否则需要手动额外处理一些问题和维护浏览器的使用状态。
logger.debug(f'使用的浏览器是--> {driver}')
driver.get('http://m.elong.com/ihotel/283904/?inDate=2018-12-12&outDate=2018-12-13&roomPerson=1|2')
driver.save_screenshot(f'/picture/{time.time()}.png')
WebDriverWait(driver, 10, 0.2).until(
lambda driverx: driverx.find_element_by_css_selector('#detail-mapping-box > li:nth-child(1) > div.prodjh_list_box.clearfix > div.detail-mrooom-mapping-product > div.dprodtname'))
logger.info(f'页面内容长度是: {len(driver.page_source)}')
driver.save_screenshot(f'/picture/{time.time()}.png') [(time.sleep(0.1), f()) for _ in range(50000)]
使用如图,由于不需要对每次请求都频繁创建和摧毁浏览器,所以打开网页速度很快。
手写一个selenium浏览器池的更多相关文章
- 手写一个线程池,带你学习ThreadPoolExecutor线程池实现原理
摘要:从手写线程池开始,逐步的分析这些代码在Java的线程池中是如何实现的. 本文分享自华为云社区<手写线程池,对照学习ThreadPoolExecutor线程池实现原理!>,作者:小傅哥 ...
- 手写一个最迷你的Web服务器
今天我们就仿照Tomcat服务器来手写一个最简单最迷你版的web服务器,仅供学习交流. 1. 在你windows系统盘的F盘下,创建一个文件夹webroot,用来存放前端代码. 2. 代码介绍: ( ...
- Java多线程之Executor框架和手写简易的线程池
目录 Java多线程之一线程及其基本使用 Java多线程之二(Synchronized) Java多线程之三volatile与等待通知机制示例 线程池 什么是线程池 线程池一种线程使用模式,线程池会维 ...
- 放弃antd table,基于React手写一个虚拟滚动的表格
缘起 标题有点夸张,并不是完全放弃antd-table,毕竟在react的生态圈里,对国人来说,比较好用的PC端组件库,也就antd了.即便经历了2018年圣诞彩蛋事件,antd的使用者也不仅不减,反 ...
- 利用SpringBoot+Logback手写一个简单的链路追踪
目录 一.实现原理 二.代码实战 三.测试 最近线上排查问题时候,发现请求太多导致日志错综复杂,没办法把用户在一次或多次请求的日志关联在一起,所以就利用SpringBoot+Logback手写了一个简 ...
- 看年薪50W的架构师如何手写一个SpringMVC框架
前言 做 Java Web 开发的你,一定听说过SpringMVC的大名,作为现在运用最广泛的Java框架,它到目前为止依然保持着强大的活力和广泛的用户群. 本文介绍如何用eclipse一步一步搭建S ...
- webview的简单介绍和手写一个H5套壳的webview
1.webview是什么?作用是什么?和浏览器有什么关系? Webview 是一个基于webkit引擎,可以解析DOM 元素,展示html页面的控件,它和浏览器展示页面的原理是相同的,所以可以把它当做 ...
- 手把手教你手写一个最简单的 Spring Boot Starter
欢迎关注微信公众号:「Java之言」技术文章持续更新,请持续关注...... 第一时间学习最新技术文章 领取最新技术学习资料视频 最新互联网资讯和面试经验 何为 Starter ? 想必大家都使用过 ...
- 手写一个虚拟DOM库,彻底让你理解diff算法
所谓虚拟DOM就是用js对象来描述真实DOM,它相对于原生DOM更加轻量,因为真正的DOM对象附带有非常多的属性,另外配合虚拟DOM的diff算法,能以最少的操作来更新DOM,除此之外,也能让Vue和 ...
随机推荐
- Qt控制台例子
功能:实现通过命令行方式保存文件 #include <QCoreApplication> #include <iostream> #include <QString> ...
- click()和onclick()的区别
click()和onclick()的区别: 1.onclick是绑定事件,告诉浏览器在鼠标点击时候要做什么 click本身是方法作用是触发onclick事件,只要执行了元素的click()方法,就会触 ...
- oracle to_char函数使用
Postgres 格式化函数提供一套有效的工具用于把各种数据类型(日期/时间,int,float,numeric)转换成格式化的字符串以及反过来从格式化的字符串转换成原始的数据类型. 注意:所有格式化 ...
- Unity插件扩展中组件常用的几个方法
最近为美术编写一个Unity编辑器的扩展,主要为了减轻美术在修改预制对象时的机械化操作的繁琐和出错.具体实现的几个功能: 1.删除指定组件: 2.复制.粘贴指定的组件: 3.重新关联新的属性: 4.重 ...
- xhprof 运行结果名词解释
Overall Summary Inclusive Time (或子树时间):包括子函数所有执行时间. Exclusive Time/Self Time:函数执行本身花费的时间,不包括子树执行时间. ...
- MSSQL 调用C#程序集 实现C#字符串到字符的转化
10多年前用过MSSQL 调用C#程序集来实现数据的加密和解密,也搞过通过字符偏移实现简单的加密和解密.这次就总结一下吧: C#如下: public class CLRFunctions { /// ...
- yarn 切换 设置 镜像 源
1.查看一下当前源 yarn config get registry 2.切换为淘宝源 yarn config set registry https://registry.npm.taobao.org ...
- 全面解决.Net与Java互通时的RSA加解密问题,使用PEM格式的密钥文件
作者: zyl910 一.缘由 RSA是一种常用的非对称加密算法.所以有时需要在不用编程语言中分别使用RSA的加密.解密.例如用Java做后台服务端,用C#开发桌面的客户端软件时. 由于 .Net.J ...
- sqlite3常用技巧
数据库是一种工具,在合理的条件下使用数据库可以获得许多益处. 使用SQL语句可以完成复杂的统计,可以少写许多复杂逻辑 使用数据库无需担心内存溢出问题 原来可能需要许多文件来保存,现在只需要一个sqli ...
- java 获取当天(今日)零点零分零秒
两种方法 一种得到的是时间戳,一种得到是日期格式: 1.日期格式的 Calendar calendar = Calendar.getInstance(); calendar.setTime(new D ...