selenium + PhantomJS 爬取js页面

from selenium import webdriver

import time

_url="http://xxxxxxxx.com"

driver = webdriver.PhantomJS()

driver.get(_url)

time.sleep(5)

webdata=driver.page_source

#这样就得到了web页面的内容,最好加个延时页面加载需要时间

#下面的就可以对这个页面进行爬取了

.

.

.

.

# 最好要记得关闭浏览器

driver.quit()

在这里标记一个小坑：在爬取页面的下载连接时，出现这样的：http%3A%2F%2Ftencent.myaora.net%2Ftest%2Fupload%2Fopen%2F2017%2F03%2F48023%2Fapk%2F20171114142640_380_0290.apk
一堆的%+大写字母+数字 混淆了真实地址，解决方法就是：

download_url="http%3A%2F%2Ftencent.myaora.net%2Ftest%2Fupload%2Fopen%2F2017%2F03%2F48023%2Fapk%2F20171114142640_380_0290.apk"

urllib.parse.unquote(download_url)# quote & unquote 可以将连接“加密和解密”

selenium + PhantomJS 爬取js页面的更多相关文章

selenium+phantomjs爬取动态页面数据
1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/down ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
selenium+phantomjs爬取bilibili
selenium+phantomjs爬取bilibili 首先我们要下载phantomjs 你可以到 http://phantomjs.org/download.html 这里去下载下载完之后解压到 ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页及获取JS返回值
前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化.如果处理这种网页是还用requests库或者 ...
selenium + phantomjs 爬取落网音乐
题记: 作为一个业余程序猿,最大的爱好就是电影和音乐了,听音乐当然要来点有档次的.落网的音乐的逼格有点高,一听听了10年.学习python一久了,于是想用python技术把落网的音乐爬下来随便听. 目 ...
python+selenium+PhantomJS爬取网页动态加载内容
一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...
Selenium+PhantomJs 爬取网页内容
利用Selenium和PhantomJs 可以模拟用户操作,爬取大多数的网站.下面以新浪财经为例,我们抓取新浪财经的新闻版块内容. 1.依赖的jar包.我的项目是普通的SSM单间的WEB工程.最后一个 ...
Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页
1.安装selenium pip install selenium Collecting selenium Downloading selenium-3.4.1-py2.py3-none-any.wh ...

随机推荐

nginx学习1
访问abc.xxx.com就跳转到www.xxx.com/abc.html server { listen 80; server_name abc.xxx.com; rewrite ^.*$ ww ...
二.jQuery源码解析之构建jQuery之构建函数jQuery的7种用法
一:$(selectorStr[,限制范围]),接受一个选择器(符合jQuery规范的字符串),返回一个jQuery对象; 二:$(htmlStr[,文档对象]),$(html[,json对象])传入 ...
WebAPI认证与授权
Web APi之认证(Authentication)及授权(Authorization)[一](十二) http://www.cnblogs.com/CreateMyself/p/4856133.ht ...
MySQL与PostgreSQL相比哪个更好？
网上已经有很多拿PostgreSQL与MySQL比较的文章了,这篇文章只是对一些重要的信息进行下梳理.在开始分析前,先来看下这两张图: MySQL MySQL声称自己是最流行的开源数据库.LAMP中的 ...
django-控制mysql事物
from django.db import transaction 两种方式控制事务:为了保持数据一致性一个Book表,一个Author表.添加一本书,也要保证添加作者.By事物控制 book = ...
ES6系列_14之promise对象的简单使用
1.产生原因在前端开发中,最常见的的就是"回调",我相信很多人对于这个"回调"可谓是印象深刻呢.究其原因是因为层层回调会造成所谓的“回调地狱 (callbac ...
Wasserstein距离和 Lipschitz连续
EMD(earth mover distance)距离: 在计算机科学与技术中,地球移动距离(EMD)是一种在D区域两个概率分布距离的度量,就是被熟知的Wasserstein度量标准.不正式的说,如果 ...
WPF 出现“调用线程无法访问此对象，因为另一个线程拥有该对象”
引起这种错误多半是由于在非UI线程刷新界面,解决此问题可以使用Dispatcher this.Dispatcher.Invoke(new Action(() => { UpdateUI(stri ...
.NET 同步异步委托
1.定义委托: using System; using System.Collections.Generic; using System.IO; using System.Linq; using Sy ...
横向文本框 cursor:pointer 出现手型
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

selenium + PhantomJS 爬取js页面

selenium + PhantomJS 爬取js页面的更多相关文章

随机推荐

热门专题