爬虫：Selenium + PhantomJS

更：Selenium特征过多（language/UserAgent/navigator/en-US/plugins），以Selenium打开的浏览器处于自测模式，很容易被检测出来，解决方法可选：

用mitmproxy拦截请求，在请求间修改框架特征。
手动修改自动化框架特征。
不改特征的话，用pyppeteer修改js代码中特征检测逻辑。
用其它webdriver。

做爬虫two years，爬过网站数百上千，简单点的用lxml,xpath,css,re,解析源码、稍复杂点的数据用AJAX加载的、js加载的、源码数据加密的、再复杂限制cookies带cookie，封IP的上代理IP，出验证码的破解验证码，更复杂的携带参数加密的，略简单的对加密方式用python模拟解密，困难的用PyV8等方法执行加密js文件，各式各样反反爬手段

这场恩恩怨怨了无尽头，对于异步加载数据的情况，可以抓包，也可以用Selenium + PhantomJS模拟浏览器，Selenium是一个用于Web应用程序测试的工具，它直接运行在浏览器中，就像真实的用户在操作一样。由于这个性质，Selenium也是一个强大的网络数据采集工具，可以获取异步加载技术的网页。

安装方法请点击

放一个爬淘宝的例子感受一下

#encoding: utf-8

'''

    使用selenium + PhantomJS 爬淘宝“男士手表”前100页，三四千个item

    存入MongoDB

    用到selenium：点击，清空，输入

'''

from selenium import webdriver

from pymongo import MongoClient

from lxml import etree

# 实例化浏览器

driver = webdriver.PhantomJS()

# 窗口最大化

driver.maximize_window()

# 连接MongoDB数据库

client = MongoClient('localhost',27017)

taobao = client['test']['taobao']

def scrapy_item(url, page):

    '''采集并写入MongoDB'''

    # 打开商品页

    driver.get(url)

    # 智能等待10s

    driver.implicitly_wait(10)

    sel = etree.HTML(driver.page_source)

    divs = sel.xpath('//div[@class="ctx-box J_MouseEneterLeave J_IconMoreNew"]')

    for x in divs:

        d = {}

        d["price"] = x.xpath('div[1]/div[1]/strong/text()')[0]

        d["counts"] = x.xpath('div[1]/div[2]/text()')[0]

        d["description"] = x.xpath('string(div[2]/a)').strip()

        d["shop"] = x.xpath('div[3]/div[1]/a/span[2]/text()')[0]

        # item写入MongoDB

        taobao.insert_one(d)

        print(d)

    if page < 100:

        # 少于100页，继续下一页

        page += 1

        # 传入参数是：当前页面URL，下页页码

        nextpage(driver.current_url, page)

def nextpage(url, page):

    '''获得下一页连接并采集'''

    # 打开刚采集完毕的页面

    driver.get(url)

    # 智能等待10s

    driver.implicitly_wait(10)

    # 点击下一页

    driver.find_element_by_xpath('//a[@trace="srp_bottom_pagedown"]').click()

    driver.implicitly_wait(5)

    driver.get(driver.current_url)

    driver.implicitly_wait(10)

    # 得到下一页URL，继续采集

    scrapy_item(driver.current_url, page)

if __name__ == '__main__':

    # 打开淘宝首页

    driver.get('https://www.taobao.com/')

    # 智能等待10s

    driver.implicitly_wait(10)

    # 找到搜索框，清空搜索框内容

    driver.find_element_by_id('q').clear()

    # 填入搜索条件

    driver.find_element_by_id('q').send_keys('男士手表')

    # 点击“搜索”

    driver.find_element_by_class_name('btn-search').click()

    # 搜索完毕，到达商品页面;拿着商品页面URL开始采集，页码初始化为1

    scrapy_item(driver.current_url, 1)

使用前第一步先实例化浏览器，这里用PhantomJs,它是一种“无头”浏览器，开销小，速度快。另外还有Chrome,Firefox，用的比较少

driver = webdriver.PhantomJS()

第二步发请求，get()后的driver.page_source含有异步加载信息

driver.get(url)

第三步，打开一个网页肯定需要时间，webdriver有implicitly_wait(time)智能等待一段时间，超过time不等了，没到time但加载好了，也就不等了

driver.implicitly_wait(10)

第四步，锁定数据位置，有通过Id的，Xpath的，Css的，类名Class_name的，标签名tag_name的,等。

第五步，有时异步数据是基于事件驱动的，例如当鼠标下拉到页面上某一位置时才加载数据，当点击某一处才加载数据。两种办法，一把鼠标移动到某个位置点击触发事件，二把鼠标移动到页面最下端触发事件后，再解析源码；知乎解答

用Chrome()方法模拟浏览器

打开出现data;不跳转网页的，需下载chrome浏览器驱动下载地址或更换Chrome版本，将下载好的chromedriver.exe 放在chrome安装目录下，并设置chrome路径到path环境变量中

使用示例：

# coding = utf-8

from selenium import webdriver

driver = webdriver.Chrome()

driver.get('http://www.baidu.com')

driver.close()

爬虫：Selenium + PhantomJS的更多相关文章

[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
爬虫 selenium + phantomjs / chrome
selenium 模块 Web自动化测试工具, 可运行在浏览器,根据指定命令操作浏览器, 必须与第三方浏览器结合使用安装 sudo pip3 install selenium phantomjs 浏 ...
[转]爬虫 selenium + phantomjs / chrome
目录 selenium 模块安装 phantomjs 浏览器安装 chromedriver 接口安装对比两个接口整合使用基本实例常用属性方法定位节点节点操作其他操作实例解析 - ...
[Python爬虫] Selenium +phantomjs 模拟下拉滚动条
在爬虫中,有时会遇到这种情况,数据的展示是不是一页一页的,而是通过不断的下拉滚动条来加载数据.例如一点咨询(http://www.yidianzixun.com/)和微博(在未登录的状态下:http: ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...
[Python爬虫] 之一： Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...
爬虫之图片懒加载, selenium , phantomJs, 谷歌无头浏览器
一.图片懒加载懒加载 : JS 代码是页面自然滚动 window.scrollTo(0,document.body.scrollHeight) (重点) bro.execute_ ...

随机推荐

Hackerrank--Savita And Friends(最小直径生成树MDST）
题目链接 After completing her final semester, Savita is back home. She is excited to meet all her friend ...
mybatis深入理解(六)-----MyBatis的二级缓存的设计原理
MyBatis的二级缓存是Application级别的缓存,它可以提高对数据库查询的效率,以提高应用的性能.本文将全面分析MyBatis的二级缓存的设计原理. 1.MyBatis的缓存机制整体设计以及 ...
springmvc报404错误No mapping found for HTTP request with URI [/mavenSpringmvc/requesttest] in DispatcherServlet with name 'spring'
问题404错误的原因有很多种有这种,后边不带url的这种一般就是没有进入到controller中可以在toncat中看到信息十一月 12, 2018 12:21:25 下午 org.sprin ...
Apache HttpComponents 工具类 [ HttpUtil ]
pom.xml <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId&g ...
day36 03-Hibernate检索方式：排序、参数绑定、投影查询
排序之后是分页查询. 检索单个对象还可以进行参数的绑定. HQL的参数绑定,按参数名称绑定或者是按参数位置绑定. 还可以用投影的操作,投影的操作是只查询这里面的某几个属性.只查询某一个属性,查询多个 ...
IDEA 创建文件夹总默认根节点问题解决
上面是文件夹结构显示,如果勾掉,就是按层级显示,空目录不会自动折叠成一行原文地址;https://blog.csdn.net/huangjunwei6/article/details/7150755 ...
Ubuntu查找通过apt命令已安装软件
方法一 apt list --installed 方法二 dpkg -l
iOS音频篇：使用AVPlayer播放网络音乐
http://www.cocoachina.com/ios/20160324/15767.html 引言假如你现在打算做一个类似百度音乐.豆瓣电台的在线音乐类APP,你会怎样做? 首先了解一下音频播 ...
QT加载qss
QString CommonHelper::setStyle(const QString &style) { QByteArray str; QFile qss(style); qss.ope ...
nodeJs koa-generator脚手架
koa-generator 脚手架全局安装:cnpm install -g koa-generator 查看版本:koa2 --version 创建项目:koa2 project 默认的是用jade ...

爬虫：Selenium + PhantomJS

用Chrome()方法模拟浏览器

爬虫：Selenium + PhantomJS的更多相关文章

随机推荐

热门专题