一.phantomjs的简单使用 ''' 什么是phantomJs:无界面的浏览器 ''' from selenium import webdriver from time import sleep bro = webdriver.PhantomJS(executable_path='./phantomjs-2.1.1-windows/bin/phantomjs.exe') sleep(2) bro.get(url='https://www.baidu.com/') sleep(3) text_…
使用python asyncio实现了一个异步代理池,根据规则爬取代理网站上的免费代理,在验证其有效后存入redis中,定期扩展代理的数量并检验池中代理的有效性,移除失效的代理.同时用aiohttp实现了一个server,其他的程序可以通过访问相应的url来从代理池中获取代理. 源码 Github 环境 Python 3.5+ Redis PhantomJS(可选) Supervisord(可选) 因为代码中大量使用了asyncio的async和await语法,它们是在Python3.5中才提供…
做过selenium自动化项目的同学应该都遇到过这样的问题:测试用例太多,运行速度过慢导致团队成员怨声载道. 于是便有了selenium grid和多线程运行selenium测试用例的方法.这些方法各有利弊这里就不一一列举了.但总的来说,如果浏览器运行的速度足够快,那么多线程并发时的用例执行速度应该是可以满足实际项目需求的. 再想象一下这样的情景:如果你手头的机器是没有gui的(这是可能的,我以前的几台centos的server根本就没有ui),如何在这样的headless的机器上运行selen…
CentOS在ssh下远程重装系统 http://www.zxsdw.com/index.php/archives/913/ 国外VPS服务器一般都有控制面板,有很多种系统可自行安装,但国内有些IDC就比较坑了,不光没有面板,而且原始系统里面还有一堆无用的软件,如游戏,office等,而且有些商家对重装系统时间有限制,如西部数码云就限制了每8个小时才能重装系统.对于只做网站来说实在是浪费资源.本方法适用于VPS或服务器在SSH下远程重装centos任意版本的系统,我测试了在centos5.9版本…
一.介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转.输入.点击.下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium import webdriver browser=webdriver.Chrome() #谷歌浏览器 browser=webdriver.Firefox() #火狐浏览器 browser=webdr…
这里提供一个Ubuntu安装谷歌浏览器的简单方法. 1. 下载谷歌浏览器安装包 wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb 2. 安装谷歌浏览器 dpkg -i google-chrome-stable_current_amd64.deb "正常情况"这时候会报错,据说跟谷歌浏览器不是开源软件有关,用sudo apt-get install -f修复一下,再dpkg -i…
第一章 Selenium 概述 1.1.Selenium 发展史 ​ Selenium是一系列基于Web的自动化工具,提供一套测试函数,用于支持Web自动化测试.函数非常灵活,能够完成界面元素定位.窗口跳转.结果比较.具有如下特点: 多浏览器支持 如IE.Firefox.Safari.Chrome.Android手机浏览器等. 支持多语言 如Java.C#.Python.Ruby.PHP等. 支持多操作系统 如Windows.Linux.IOS.Android等. 开源免费 官网:http://…
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver) selenium2支持通过驱动无界面浏览器(HtmlUnit,PhantomJs) 二.安装 Windows 第一种方法是:下载源码安装,下载地址(https://pypi.python.org/py…
以前写爬虫,遇到需要登录的页面,一般都是通过chrome的检查元素,查看登录需要的参数和加密方法,如果网站的加密非常复杂,例如登录qq的,就会很蛋疼 在后面,有了Pyv8,就可以把加密的js文件扔给它,然后返回加密后的字符串.但是Pyv8只能安装在Centos7的版本,而且耗用内存也比较大. 现在有了PhantomJS,再也不需要考虑登录的参数和加密了,用PhantomJS打开页面,通过JS或JQuery语句,填入账号和密码,然后点击登录,然后把Cookies保存下来,就可以模拟登录了. 1.安…
转:http://alyzq.com/?p=627 如果不会使用,请看下面的操作步骤 引言(可以不看): 下面介绍一下,下载谷歌浏览器(Google Chrome)扩展的离线安装包crx文件最简单的方法!真的是再简单不过了! 谷歌浏览器(Google Chrome)的扩展功能让谷歌浏览器变的无比强大,需要特殊功能的时候去Chrome Web Store找一下,基本都可以找到合适的扩展.但是随着Chrome浏览器使用的时间越来越长,积累下来的扩展也越来越多,备份这些扩展就成了一个新的问题. 比如出…