概述

PhantomJS is a headless WebKit scriptable with a JavaScript API. It has fast and native support for various web standards: DOM handling, CSS selector, JSON, Canvas, and SVG.(http://phantomjs.org/)

PhantomJS 是一个无界面的webkit内核浏览器,你可以把它当作一个没有界面的 Safari。

安装

目前 PhantomJS 的最新版本的2.0,官方文档中有提到说:如果在使用老版本时碰到一些难解的 bug ,可以升级到最新版试试。

windows

直接下载phantomjs-2.0.0-windows.zip,并解压,将 bin 文件夹中的可执行文件phantomjs.exe的路径添加到环境变量后(可能需要重启机器才能生效),就可以在命令行环境(cmd 或cygwin)中使用 phantomjs 命令执行 js 文件了。

Linux

安装二进制文件包

可以在Bitbucket下载已经编译好的二进制文件安装包,不过目前 Linux 提供到 PhantomJS 1.9.8的安装包,最新的 PhantomJS 2.0还没有发布。
安装方式:

  1. 下载phantomjs-1.9.8-linux-x86_64.tar.bz2
  2. 进入安装目录,解压二进制文件
  1. > cd /usr/local
  2. > tar zxvf phantomjs-1.9.8-linux-x86_64.tar.bz2
  1. 创建软链接mysql指向解压出来的文件夹,或将解压出来的文件夹重命名为phantomjs:
  1. > ln -sf phantomjs-1.9.8-linux-x86_64/bin/phantomjs phantomjs

编译源码的方式

由于 WebKit 模块中有数千个文件,因此由源码编译 PhantomJS 会花费很长的时间,文档上说,开四个并行的进程进行编译工作,需要超过30分钟的时间,因此官方文档推荐直接下载和安装二进制文件。

具体的安装方法,这里就不再赘述,大家可以到官方文档上查看。

是否安装成功

我们可以使用下面的命令来查看 PhantomJS 是否安装成功:

  1. > phantomjs -v

命令运行 phantomjs xxx.js即可执行一个 PhantomJS 程序。

webpage 模块

webpage 是 PhantomJS 的核心模块,你可以通过以下方式,获得一个 webpage 模块的实例:

  1. var webPage = require("webpage"),
  2. page = webPage.create();

open()

打开一个 url 链接,并加载对应的页面,一旦页面加载完成,就会触发回调,你也可以使用page.onLoadFinished方法来监听页面是否加载完成。下面,我们来用 open() 方法打开腾讯课堂

  1. var page = require("webpage").create;
  2. page.open("http://ke.qq.com", function(status) {
  3. if(status !== "success") {
  4. console.log("open fail!");
  5. }
  6. phantom.exit();
  7. });

上面的代码中,open() 方法接受了两个参数。第一个参数是要打开网页的 url(要记得加协议头哦!),默认使用 GET 方法打开,第二个参数是回调参数,网页加载完成后该函数将会执行,它的参数status表示网页是否打开成功,打开成功就是success,否则就是fail。要注意的是,只要收到服务器返回的结果,status参数就是success,即使服务器返回的是404或500错误。

我们也可以使用其他的http方法打开页面。

  1. var webPage = require("webpage");
  2. var page = webPage.create();
  3. var postBody = "user=username&password=password";
  4. page.open("http://www.google.com/", "POST", postBody, function(status) {
  5. console.log("Status: " + status);
  6. // Do other things here...
  7. });

上面的代码是官方文档的事例,使用POST方法向服务器发送数据。open方法的第二个参数用来指定HTTP方法,第三个参数用来指定该方法所要使用的数据。

从PhantomJS 1.9开始,我们还可以使用json对象来对http请求进行更详细的配置。

  1. var webPage = require('webpage');
  2. var page = webPage.create();
  3. var settings = {
  4. operation: "POST",
  5. encoding: "utf8",
  6. headers: {
  7. "Content-Type": "application/json"
  8. },
  9. data: JSON.stringify({
  10. some: "data",
  11. another: ["custom", "data"]
  12. })
  13. };
  14. page.open('http://your.custom.api', settings, function(status) {
  15. console.log('Status: ' + status);
  16. // Do other things here...
  17. });

evaluate()

在打开一个网页后,我们往往有对其进行操作的需求,例如模拟点击登陆按钮、获取某个DOM元素等等,也就是需要在页面中执行javascript代码,这时候我们就需要使用到evaluate()方法。

  1. // 获取打开页面的title
  2. var page = require('webpage').create();
  3. page.open(url, function(status) {
  4. var title = page.evaluate(function() {
  5. return document.title;
  6. });
  7. console.log('Page title is ' + title);
  8. phantom.exit();
  9. });

由于因为evaluate()方法相当于一个沙盒,在其中是无法访问evaluate()之外的变量的。那如何将我想要获取的dom元素的id传进evaluate呢?

从PhantomJS 1.6开始,我们可以将外部变量以如下的方式传给evaluate内部,需要注意的是,能传入evaluate方法内部的参数只能是简单的基本类型,例如数值、字符串、json对象等能被JSON序列化的类型,而无法接受更复杂的对象,它的返回值也同样如此。

  1. page.open('https://item.taobao.com/item.htm?id=520115087331', function(status) {
  2. var domId = "J_SellCounter"
  3. var sellCounter = page.evaluate(function(id) {
  4. return document.getElementById(id).innerText;
  5. }, domId);
  6. console.log(sellCounter);
  7. phantom.exit();
  8. });

由于open()方法打开的网页内部的 console 语句,和 evaluate() 方法中的 console 语句都不会执行,给我们开发调试带来了不便。这时可以采用 onConsoleMessage 回调函数,来打印出上面两种情况中的 console 语句中的信息:

  1. var webPage = require('webpage');
  2. var page = webPage.create();
  3. page.onConsoleMessage = function(msg, lineNum, sourceId) {
  4. console.log('CONSOLE: ' + msg + ' (from line #' + lineNum + ' in "' + sourceId + '")');
  5. };

其中 msg 是需要打印的信息,lineNum 和 sourceId 是 console.log 在文件中的行号以及这个文件对应的标识 id。

includeJs()

可以使用 includeJs()方法加载外部脚本,例如 jquery。

  1. var webPage = require('webpage');
  2. var page = webPage.create();
  3. page.open('http://www.example.com', function(status) {
  4. if(status !== "success") {
  5. console.log("open fail!");
  6. }
  7. page.includeJs('http://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js', function() {
  8. page.evaluate(function() {
  9. // jQuery is loaded, now manipulate the DOM
  10. var $loginForm = $('form#login');
  11. $loginForm.find('input[name="username"]').value('phantomjs');
  12. $loginForm.find('input[name="password"]').value('c45p3r');
  13. $('#loginBtn').click();
  14. });
  15. phantom.exit();
  16. });
  17. })

注意,由于includeJs是异步加载脚本,所以phantom.exit()需要放在page.includeJs()的回调函数中,否则phantomjs进程会过早退出。

render()

render() 可以将打开的网页截图并保存成本地图片,可以将指定的图片文件名作为参数传入,render 方法可以根据文件名的后缀将图片保存成对应的格式。目前支持PNGGIFJPEGPDF四种图片格式。

  1. var webPage = require('webpage');
  2. var page = webPage.create();
  3. page.viewportSize = { width: 1920, height: 1080 };
  4. page.open("http://www.google.com", function start(status) {
  5. page.render('google_home.jpeg', {format: 'jpeg', quality: '100'});
  6. phantom.exit();
  7. });

该方法的第一个参数是保存的文件名,第二个可选参数是一个 JSON 对象,format 指定图片格式, quality 指定0-100区间内的图片质量,必须是整数。

onResourceRequested

当页面去请求一个资源时,会触发 onResourceRequested() 方法的回调函数。回调函数接受两个参数,第一个参数requestData是这个HTTP请求的元数据对象,包括以下属性:

  • id: 所请求资源的id号,这个应该是phantomjs给标识的。

  • method: 所使用的HTTP方法(GET/POST/PUT/DELETE等)。

  • url: 所请求资源的URL

  • time: 包含请求该资源时间的一个Date对象。

  • headers: 该请求的http请求头中的信息数组。

第二个参数networkRequest包含以下方法:

  • abort(): 终止当前的网络请求,这会导致调用onResourceError回调函数。
  • changeUrl(newUrl):改变当前网络请求的URL。
  • setHeader(key, value):设置HTTP头信息。
  1. var webPage = require('webpage');
  2. var page = webPage.create();
  3. page.onResourceRequested = function(requestData, networkRequest) {
  4. console.log('Request (#' + requestData.id + '): ' + JSON.stringify(requestData));
  5. };
  6. page.open("http://ke.qq.com", function(status) {
  7. if(status) {
  8. console.log("fail!");
  9. }
  10. phantom.exit();
  11. });

onResourceReceived

onResourceReceived属性用于指定一个回调函数,当网页收到所请求的资源时,就会执行该回调函数。回调函数只有一个参数,就是所请求资源的服务器发来的HTTP response的元数据对象,包括以下字段。

  • id:所请求的资源编号,此编号phantomjs标识。

  • url:所请求的资源的URL

  • time:包含HTTP回应时间的Date对象

  • headers:响应的HTTP头信息数组

  • bodySize:解压缩后的收到的内容大小

  • contentType:接到的内容种类

  • redirectURL:重定向URL(如果有的话)

  • stage:对于多数据块的HTTP回应,头一个数据块为start,最后一个数据块为end。

  • status:HTTP状态码,成功时为200。

  • statusText:HTTP状态信息,比如OK。

需要注意的是,该方法收到的response对象是没有response.body的具体内容的。

可以利用正则表达式,来筛选出我们想要操作的一些响应资源。比如我想从淘宝教育的课程详情页跳转到购买页(在淘宝网中),可以从淘宝同学请求的资源url中筛选出带淘宝网商品详情页的商品id,然后用这个淘宝网商品id拼接成一个淘宝网的商品详情页url,再次使用open()方法打开这个url,就可以跳转到该课程的购买页中。

  1. var page = require('webpage').create(),
  2. url1 = "http://i.xue.taobao.com/detail.htm?courseId=32679",
  3. url2 = "https://item.taobao.com/item.htm?id=",
  4. itemId = 0,
  5. mItem = "",
  6. siteType = "taobao";
  7. page.onConsoleMessage = function(msg) {
  8. console.log('console: ' + msg);
  9. };
  10. page.onResourceReceived = function(response) {
  11. /*if(mItem = response.url.match(/^http\:\/\/(?:.*)[?|&]item=(\d*)/)) {
  12. itemId = mItem[1];
  13. console.log(itemId);
  14. phantom.exit();
  15. }*/
  16. // 获取课程对应的淘宝网商品id
  17. if(mItem = response.url.match(/itemId=(\d*)/)) {
  18. itemId = parseInt(mItem[1]);
  19. }
  20. }
  21. page.open(url1, function(status) {
  22. if(status !== "success") {
  23. console.log("tongxue fail!");
  24. phantom.exit();
  25. }
  26. page.render("tongxue.png");
  27. // 打开课程对应的淘宝商品详情页。
  28. page.open(url2 + itemId, function(status) {
  29. if(status !== "success") {
  30. console.log("tongxue fail!");
  31. phantom.exit();
  32. }
  33. // 由于页面中的资源是动态加载的,需要setTimeout 10s 等待资源加载完,再操作页面。
  34. setTimeout(function() {
  35. var apply = page.evaluate(function() {
  36. // 获取课程交易量
  37. return document.getElementById("J_SellCounter").innerText;
  38. //return document.getElementById("bd").innerHTML;
  39. });
  40. console.log("apply:", apply);
  41. //fs.write("body.html", apply, "w");
  42. phantom.exit();
  43. }, 10000);
  44. });
  45. });

小栗子

动态获取淘宝商品详情页的商品交易量

相信大家都知道爬虫的基本方式无非是抓取页面中的 url,然后分析;但是页面中的 url 也些是静态的,有些事通过js动态生成的,故爬虫也分抓静及抓动之分。

因为淘宝商品详情页的交易量是异步拉取的,在异步数据还没有返回时,页面上交易量那一栏只是一个无意义的“-”,如图:

当异步数据返回后,才会显示出真正的交易量:

因此,

  1. var webPage = require('webpage');
  2. var page = webPage.create();
  3. var pageTb = webPage.create();
  4. var tbUrl = "https://item.taobao.com/item.htm?id=520115087331";
  5. page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36";
  6. pageTb.open(tbUrl, function(status) {
  7. // 由于是拉取异步数据,我们打开页面后,等待12s再去操作dom,获取交易量
  8. setTimeout(function() {
  9. var result = pageTb.evaluate(function() {
  10. return document.getElementById("J_SellCounter").innerText;
  11. });
  12. console.log(result);
  13. //生成当前页面截图
  14. pageTb.render("xuqintb2.png");
  15. phantom.exit();
  16. }, 12000);
  17. });

win7上执行命令:

  1. $ phantomjs.exe --ssl-protocol=any xuqinTb.js
  2. 1379

win7上得到了交易量(由于是打开https协议头的网页,所以执行js文件时,需要添加"--ssl-protocol=any"参数)

PhantomJS不能做什么

  • PhantomJS是一个阉割版的webkit,不支持flash、webGL、video/audio、css 3-d,phontomjs不想背负操作系统强相关的特性,跨平台比较困难。
  • 如果使用Page模块的onResourceReceived()方法监听页面收到的请求资源,是无法得到该资源的response.body的,这也是目前PhantomJS最受开发者吐槽的点之一。

原文链接:http://ivweb.io/topic/560b402ac2317a8c3e08621c

PhantomJS 基础及示例 (转)的更多相关文章

  1. PhantomJS 基础及示例

    腾讯云技术社区-掘金主页持续为大家呈现云计算技术文章,欢迎大家关注! 作者:link 概述 PhantomJS is a headless WebKit scriptable with a JavaS ...

  2. canvas基础动画示例

    canvas基础动画示例 本文主要用最简单的例子,展示canvas动画效果是如何实现的 动画效果,是一个球绕着一点旋转 const canvas = document.getElementById(' ...

  3. docker-compose 构建mongodb并导入基础数据示例

    使用docker-compose构建mongodb服务并导入基础数据示例. 1.文件目录结构 ——mongo/ |——docker-compose.yml |——mongo-Dockerfile |— ...

  4. Spring温习(1)--最基础的示例

    Spring温习(1)--最基础的示例 博客分类: 框架-Spring专栏 SpringXMLBeanWebDAO 从现在开始,我将从Spring为起点,逐步复习几大框架各方面的知识,以便今后查看使用 ...

  5. java 网络编程(三)---TCP的基础级示例

    下面是TCP java网络编程的基础示例: tcp传输:客户端建立过程的思路:1.创建TCP客户端的Socket服务,使用的是socket对象,建议在创建的过程中,就明确了目的地和要连接的主机2.如果 ...

  6. asp.net core系列 59 Ocelot 构建基础项目示例

    一.入门概述 从这篇开始探讨Ocelot,Ocelot是一个.NET API网关,仅适用于.NET Core,用于.NET面向微服务/服务的架构中.当客户端(web站点.ios. app 等)访问we ...

  7. Spring Boot 1.5.x 基础学习示例

    一.为啥要学Spring Boot? 今年从原来.Net Team“被”转到了Java Team开始了微服务开发的工作,接触了Spring Boot这个新瓶装旧酒的技术,也初步了解了微服务架构.Spr ...

  8. Confluence 6 配置服务器基础地址示例

    如果 Confluence 的安装是没有安装在非根目录路径(这个是上下文路径),然后服务器基础 URL 地址应该包括上下文地址.例如,你的 Confluence 正在运行在下面的地址: http:// ...

  9. KVM虚拟化原理与基础应用示例

    一.KVM简介 Kernel-based Virtual Machine的简称,是一个开源的系统虚拟化模块,自Linux 2.6.20之后集成在Linux的各个主要发行版本中.它使用Linux自身的调 ...

随机推荐

  1. poj 2499第K短路模板

    第k*短路模板(单项边) #include <iostream> #include <cstdio> #include <algorithm> #include & ...

  2. 九度oj 题目1458:汉诺塔III

    题目描述: 约19世纪末,在欧州的商店中出售一种智力玩具,在一块铜板上有三根杆,最左边的杆上自上而下.由小到大顺序串着由64个圆盘构成的塔.目的是将最左边杆上的盘全部移到右边的杆上,条件是一次只能移动 ...

  3. Unity3D - UGUI的初级应用

    添加字体: 把下载好的字体拖拽到Project面板中 - 点击Text组件中Text属性后面的圆点 - 选择刚刚拖拽的字体即可. 创建ToggleGroup(开关组): 1.在Canvas下创建两个T ...

  4. HDU4548 美素数

    Problem Description 小明对数的研究比较热爱,一谈到数,脑子里就涌现出好多数的问题,今天,小明想考考你对素数的认识. 问题是这样的:一个十进制数,如果是素数,而且它的各位数字和也是素 ...

  5. BFC浅析

    1.定义 BFC(Block formatting context)即"块级格式化上下文".它是一个独⽴的渲染区域,只有Block-level box参与, 它规定了内部的Bloc ...

  6. setsockopt等高级使用

    参考: setsockopt函数使用http://hi.baidu.com/yelangdefendou/item/74161d0f384abd3c4ac4a316http://blog.csdn.n ...

  7. Java面试题之final、finally和finalize的区别

    final: final是一个修饰符,可以修饰变量.方法和类,如果final修饰变量,意味着变量的值在初始化后不能被改变: 防止编译器把final域重排序到构造函数外:(面试的时候估计答出这个估计会加 ...

  8. python object与dict互相转换

    代码如下 # 将class转dict,以_开头的属性不要 def props(obj): pr = {} for name in dir(obj): value = getattr(obj, name ...

  9. 如何应用r.js对requirejs下的js代码合并

    1.在根目录新建build.js ({ baseUrl:'js', paths:{ jquery:'static/jquery-1.10.2.min', underscore:'static/unde ...

  10. javap的基本用法

    参考:http://www.cnblogs.com/beautiful-code/p/6424977.html javap是JDK自带的反汇编器,可以查看java编译器为我们生成的字节码.通过它,我们 ...