phantomjs+selenium实现爬取动态网址

之前使用 selenium + firefox驱动浏览器来实现爬取动态网址，但是firefox经常更新，更新后时常会导致webdriver启动不来，所以改用phantomjs+selenium来改善一下。

使用phantomjs和使用浏览器区别并不大。

一，首先还是需要下载Phantomjs

Phantomjs对各个主流的平台都支持，下载页面。选择好存放的目录，例如D:\phantomjs。

phantomjs的可执行文件就在bin目录下，可以将D:\phantomjs\bin目录加入环境变量中。如果不加入环境变量，那么selenium在驱动phantomjs时就需要指定路径。

二，在Selenium中驱动Phantomjs

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

##可以对phantomjs配置

#cap = webdriver.DesiredCapabilities.PHANTOMJS    #获取webdriver对Phantomjs的默认配置

#cap["phantomjs.page.settings.resourceTimeout"] = 5000    #资源加载超时时长

#cap["phantomjs.page.settings.loadImages"] = False    #是否加载图片

#driver = webdriver.PhantomJS(desired_capabilities=cap)

#未将phantomjs加入环境变量,需要指定phantomjs的路径

#driver = webdriver.PhantomJS(executable_path="D:\phantomjs\bin\phantomjs.exe")

driver = webdriver.PhantomJS()

driver.set_page_load_timeout(5)    #设置页面超时时长

#driver.set_script_timeout(5)    #设置页面JS超时时长，这两者超时后会报TimeoutException错

##当超时后停止页面的加载

##有些页面在加载出你想要的数据后，还是会一直加载一些其他资源

tru:

    driver.get("www.tvmao.com")

exception TimeoutException:

    driver.execute_script("window.stop()")

##获取网页源代码后，就可以将其保存起来进而进行数据解析了

page_source = driver.page_source()

############

#

#数据解析部分

#

############

phantomjs可配置的选项，可以看官方文档说明

phantomjs+selenium实现爬取动态网址的更多相关文章

爬虫 selenium+Xpath 爬取动态js页面元素内容
介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如 ...
selenium自动化测试爬取动态页面大全
目录一:浏览器信息测试二:查找结点三:测试动作四:获取节点信息五:切换子页面Frame 六,延时请求七:前进和后退八:Cookies 八:选项卡处理九:捕获异常这里之讲解用法,安 ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...

随机推荐

Array常用方法
定义二维数组: list = [['保密',''],['男',1],['女',0]] 引用怎么创建与返回值是二维数组形式不知道你想要怎样的答案如果是一方法想要返回二维数组,方法的最后一行是那个数 ...
Delphi 调用C# DLL(包含委托)
例子 C# Dll: using System; using System.Collections.Generic; using System.Text; using System.Diagnosti ...
Best Part
Django（三）
1.Django请求的生命周期路由系统 -> 视图函数(获取模板+数据-->渲染) -> 字符串返回给用户 2.路由系统 /index/ ...
[转]SSAS没有注册类 (异常来自 HRESULT:0x80040154 (REGDB_E_CLASSNOTREG)) (Microsoft Visual Studio)的解决办法
转自:http://www.cnblogs.com/xvqm00/archive/2011/07/15/2107338.html 打开SSAS 数据源视图浏览数据时,提示没有注册类别 (异常来自 H ...
sql命令
oracle 查询所有表中以TICKET开头,TYPE结尾的表,同时不显示末尾为数字的时间表 SELECT * FROM user_col_comments WHERE COLUMN_NAME lik ...
《编写可维护的JavaScript》——JavaScript编码规范（六）
变量.函数和运算符在讨论过基本的JavaScript书写格式化之后,接下来关注如何使用函数.变量和运算符来减少复杂度和增强可读性就显得十分重要了. 变量声明变量声明是通过var语句来完成的.var ...
git的一些命令行
以下代码均在命令行中执行:在目标文件夹目录下: 1.初始化一个Git仓库,使用git init命令. 2.添加文件到Git仓库,分两步: 第一步,使用命令git add <file>,注意 ...
Web Service简介内部资料请勿转载谢谢合作
1.1.Web Service基本概念 Web Service也叫XML Web Service WebService是一种可以接收从Internet或者Intranet上的其它系统中传递过来的请求, ...
Vim升华之树形目录插件NERDTree安装图解
来源:CSDN 作者:mybelief321 无意中看到实验室的朋友使用的vim竟然能在左边显示树形目录,感觉很方便,这样子文件夹有什么文件一目了然.他说是一个插件叫NERDTree,安装执行后的效果 ...

phantomjs+selenium实现爬取动态网址

一，首先还是需要下载Phantomjs

二，在Selenium中驱动Phantomjs

phantomjs+selenium实现爬取动态网址的更多相关文章

随机推荐

热门专题