Selenium 3 + BrowserMobProxy 2.1.4 模拟浏览器访问（含趟坑）

背景

Selenium 是一个Web自动化测试的组件，可基于WebDriver去控制弹出浏览器去做一系列Web点击或行为测试（当然也可以去做一些邪恶的事。。），减少重复人工网页测试的开销。BrowserMobProxy相当于一层代理，它配合Selenium使用可以在Selenium控制浏览器访问之前在代理层拦截做出一些记录(har)、修改等。

一般来说，直接使用Selenium就足够了，但是Selenium有个很致命的问题是不支持修改request的参数，比如很重要的headers。headers其实是一些模拟测试时用来模拟不同的访问和测试安全的重要元信息，从一些github issues看Selenium开发方似乎拒绝考虑加入headers修改功能，以自动化测试组件不应该让用户修改headers的理由应付用户，并让大家使用BrowserMobProxy去模拟。如果webdriver也是可控的，这完全是可以做到的，可能会需要协调不同浏览器的webdriver开发者会有点麻烦；所以也不知道是开发方懒，还是和browsermobproxy的开发方有什么关系。。而弹出浏览器并能提供足够的控制功能的框架目前暂没见到其他能与selenium媲美的。（PhantomJS是在服务端提供了个解析，但并不会事实弹出浏览器模仿真正的浏览器行为，也就是说一些前端涉及鼠标、悬停等事件的脚本并不能支持）

介绍一下Selenium3.x里几个概念：

WebDriver：可以理解为连接不同浏览器的驱动程序，比如chrome和firefox的webdriver是不同的，如果selenium相关包没有引入你的浏览器，就要考虑去寻找了。内置支持的浏览器参见github。像IE这种需要windows相关组件支持可参考官网配置步骤。
Selenium IDE：其实就是个可视化的测试案例创建管理的组件，一般我们用selenium可能是写代码，但部分没那么复杂的测试功能可以通过该IDE去配置，也降低了QC的门槛。使用代码去模拟测试的可忽略IDE的存在。
Selenium Server：一般只会在远程测试的时候需要。比如公司有台测试机，你想要在上面测试但又不能在上面直接开发，你就可以在测试机起SeleniumServer，本地测试代码通过RemoteWebDriver的形式去连接它。大多数情况下本地测试可以忽略这个server的存在。

BrowserMobProxy会提供一个ProxyServer用于做转发代理拦截，这个server可以是standalone部署支持远程，也可以embed进代码中。由于BrowserMob是Java开发的，因此JVM的可以支持真正的embedded，python等非JVM系的只能配置其执行路径通过子进程的方式来伪装embedded，这就是AutomatedTester/browsermob-proxy-py项目中需要配置 /path/to/browsermobproxy 的原因。

使用

Selenium WebDriver的具体使用请参考网上的教程示例和官方文档，此处不赘述。

BrowserMobProxy官方文档里有段 use with selenium 的代码示例其实就是 embedded browsermob + local selenium :

 // start the proxy

    BrowserMobProxy proxy = new BrowserMobProxyServer();

    proxy.start(0);

    // set custom headers

    proxy.addHeaders(headers);

    // get the Selenium proxy object

    Proxy seleniumProxy = ClientUtil.createSeleniumProxy(proxy);

    // configure it as a desired capability

    DesiredCapabilities capabilities = new DesiredCapabilities();

    capabilities.setCapability(CapabilityType.PROXY, seleniumProxy);

    // start the browser up

    WebDriver driver = new FirefoxDriver(capabilities);

    // open yahoo.com

    driver.get("http://yahoo.com");

需留意的是，Firefox的webdriver有坑，貌似Firefox>=52.0版本的需要用最新的Selenium和最新的Webdriver（3.3.0+）。本文主要以Java的代码为示例，python用法也类似（需先 pip install browsermob-proxy）。

remote browsermob + local selenium

        executeCMD(String.format("curl -X POST -d 'port=%d' http://localhost:8080/proxy", 55555));

        executeCMD(String.format("curl -X POST -H \"Content-disposition:json/application\" - H \"Content-type:json/application\" -d '%s' http://localhost:8080/proxy/" + (port1) + "/headers", headersJson));

        // get the Selenium proxy object

        String PROXY = "localhost:8080";

        Proxy seleniumProxy = ClientUtil.createSeleniumProxy(new InetSocketAddress("localhost", 8080));

        seleniumProxy.setHttpProxy(PROXY).setSslProxy(PROXY);

        // configure it as a desired capability

        DesiredCapabilities capabilities = DesiredCapabilities.chrome();

        capabilities.setCapability(CapabilityType.PROXY, seleniumProxy);

        // start the browser up

        WebDriver driver = new ChromeDriver(capabilities);

即browsermob在外部起，本地只能通过restful与其通信，包括先注册端口和设置headers等，seleniumProxy也得配置到对应的socket去。部署browsermob也很简单，http://bmp.lightbody.net/ 下载部署版本或从github下载项目tag版本命令行执行 mvn clean package -U 源码安装。源码安装的话在browsermob-dist/target/ 下可以找到bin结尾的目录，里面就是可执行文件（*nix和windows bat都有），copy到你需要的目录即可。

embedded browsermob + remote selenium server

BrowserMobProxy proxyServer = new BrowserMobProxyServer();

proxyServer.addHeaders(headers);

proxyServer.start(port);

String PROXY = "localhost:" + port;

Proxy seleniumProxy = ClientUtil.createSeleniumProxy(new InetSocketAddress("localhost", port));

seleniumProxy.setHttpProxy(PROXY).setSslProxy(PROXY);

 // configure it as a desired capability

DesiredCapabilities capabilities = DesiredCapabilities.chrome();

capabilities.setCapability(CapabilityType.PROXY, seleniumProxy);

// 默认selenium server起在4444端口,可在capabilities中配置端口

WebDriver driver = new RemoteWebDriver(new URL("http://localhost:4444"), capabilities);

同样需去Selenium官网下载standalone-server的jar包，下下来后java -jar xxx.jar 即可运行，相关参数配置见文档。须注意的是，3.x的selenium server需要jdk8支持，2.x只需要jdk1.7支持。

其实如同以上例子，可根据需求自由组合browsermob和selenium的使用。browsermob 2.x的ProxyServer换成了BrowserMobProxyServer，但其实接口大同小异，它的filter概念有点类似之前的interceptor概念，拦截修改了request后返回null就可以了（不需要按照方法声明中的返回值真的构造一个response），官网有filter的例子。

maven依赖：

<dependency>

      <groupId>net.lightbody.bmp</groupId>

      <artifactId>browsermob-core</artifactId>

      <version>${browsermob.version}</version>

      <exclusions>

        <exclusion>

          <artifactId>guava</artifactId>

          <groupId>com.google.guava</groupId>

        </exclusion>

      </exclusions>

    </dependency>

    <dependency>

      <groupId>net.lightbody.bmp</groupId>

      <artifactId>browsermob-legacy</artifactId>

      <version>${browsermob.version}</version>

      <exclusions>

        <exclusion>

          <artifactId>guava</artifactId>

          <groupId>com.google.guava</groupId>

        </exclusion>

      </exclusions>

    </dependency>

    <dependency>

      <groupId>org.seleniumhq.selenium</groupId>

      <artifactId>selenium-java</artifactId>

      <version>${selenium.version}</version>

    </dependency>

guava会有冲突，需exclude。selenium版本3.3.0， browsermob 2.1.4 。

修改headers支持

其实以上示例中的addHeaders函数就可以修改headers了，亲测可用。但是需注意，你在浏览器看到的request headers不代表最终的headers，你最好用个 php页面把server端真正的request打印出来才能看到效果。相关解释。可以自己做个试验证实，比如把Host或者一些重要字段随便填写，去访问baidu等，你会发现访问不了，改回去headers就可以了。

Selenium 3 + BrowserMobProxy 2.1.4 模拟浏览器访问（含趟坑）的更多相关文章

php -- php模拟浏览器访问网址
目前我所了解到的在php后台中,用php模拟浏览器访问网址的方法有两种: 第一种:模拟GET请求:file_get_contents($url) 通过php内置的 file_get_contents ...
第14.7节 Python模拟浏览器访问实现http报文体压缩传输
一. 引言在<第14.6节 Python模拟浏览器访问网页的实现代码>介绍了使用urllib包的request模块访问网页的方法.但上节特别说明http报文头Accept-Encodin ...
第14.6节使用Python urllib.request模拟浏览器访问网页的实现代码
Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使 ...
Java网络编程(模拟浏览器访问Tomcat服务器)
程序运行结果: HTTP/1.1 404 Not FoundServer: Apache-Coyote/1.1Content-Type: text/html;charset=utf-8Content- ...
HttpWebRequest 模拟浏览器访问网站
最近抓网页时报错: 要么返回 The remote server returned an error: (442)要么返回: 非法访问,您的行为已被WAF系统记录! 想了想,就当是人家加了抓网页的东西 ...
java 实现模拟浏览器访问网站
一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等.所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需 ...
黄聪：wordpress如何携带cookie模拟浏览器访问网站
$args = array( 'user-agent' => 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li ...
java模拟浏览器包selenium整合了htmlunit，火狐浏览器，IE浏览器，opare浏览器驱
//如果网页源码中有些内容是js渲染过来的,那你通过HttpClient直接取肯定取不到,但是这些数据一般都是通过异步请求传过来的(一般都是通过ajax的get或者post方式).那么你可以通过火狐浏 ...
python 模拟浏览器
想用python模拟浏览器访问web的方法测试些东西,有哪几种方法呢? 一类:单纯的访问web,不解析其js,css等. 1. urllib2 #-*- coding:utf-8 -* import ...

随机推荐

最大子数组（I, II, III，IV，V）和最大子数组乘积 (动态规划)
I 找一个连续最大子数组,sum加到nums[i], 如果前面子数组和<0则舍去,从头开始. class Solution { public: /** * @param nums: A list ...
Tensorflow name_scope
在 Tensorflow 当中有两种途径生成变量 variable, 一种是 tf.get_variable(), 另一种是 tf.Variable(). 使用tf.get_variable()定义的 ...
【BZOJ2067】[Poi2004]SZN
题解: 比上一题水多了首先树上贪心,肯定要考虑儿子然后我们会发现这个东西就是要先把儿子连起来然后如果儿子个数为奇数我们可以把这一条和它连向父亲的并在一起由于根没有父亲所以要单独考虑答案就是s ...
【译】异步JavaScript的演变史：从回调到Promises再到Async/Await
我最喜欢的网站之一是BerkshireHathaway.com--它简单,有效,并且自1997年推出以来一直正常运行.更值得注意的是,在过去的20年中,这个网站很有可能从未出现过错误.为什么?因为它都 ...
yum安装的时候报错，关于python的函数库
我在执行yum -y install nc命令的时候出现如下报错 There was a problem importing one of the Python modulesrequired to ...
Dig
在 UNIX 和 Linux 下,建议大家使用 dig 命令来代替 nslookup. dig 命令的功能比 nslookup 强大很多,不像 nslookkup 还得 set 来 set 去的,怪麻 ...
oracle的DBMS_JOB相关知识
http://langgufu.iteye.com/blog/1179235 查看当前定时任务 select job,next_date,next_sec,failures,broken from u ...
TMS320DM642学习----第二篇（软件环境搭建+工程文件结构）
一.CCS3.3安装: 下载解压CCS3.3的破解安装包如下所示,双击setup准备安装(SEED开发者论坛资料:http://www.seeddsp.com/bbs/forum.php?mod=vi ...
Git branch 出现"HEAD detached at head xxxxx"
Git branch 出现"HEAD detached at head xxxxx" git branch <your-branch-name> xxxxx ...
【python】TCP/IP编程
No1: [TCP] 客户端 import socket s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) s.connect(('www.sina ...

Selenium 3 + BrowserMobProxy 2.1.4 模拟浏览器访问 （含趟坑）

Selenium 3 + BrowserMobProxy 2.1.4 模拟浏览器访问 （含趟坑）的更多相关文章

随机推荐

热门专题

Selenium 3 + BrowserMobProxy 2.1.4 模拟浏览器访问（含趟坑）

Selenium 3 + BrowserMobProxy 2.1.4 模拟浏览器访问（含趟坑）的更多相关文章