selenium在爬虫中的应用之动态数据爬取

一、selenium概念

　　selenium 是一个基于浏览器自动化的模块

　　selenium爬虫之间的关联：

　　　　1.便捷的获取动态加载的数据

　　　　2.实现模拟登录

　　基本使用

　　　　pip install selenium

　　　　获取浏览器的驱动程序

　　google驱动地址下载链接：http://chromedriver.storage.googleapis.com/index.html

selenium基本使用

from selenium import webdriver

from time import sleep

#实例化一个浏览器对象

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

#发送请求

bro.get('https://www.jd.com/')

sleep(2)

#定位标签

search_tag = bro.find_elements_by_xpath('//*[@id="key"]')[0]

search_tag.send_keys('mac pro')

#定位搜索按钮

btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')

btn.click()

#js注入

bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

sleep(3)

bro.quit()

基于selenium爬取动态加载的数据

from selenium import webdriver

from time import sleep

from lxml import etree

#实例化一个浏览器对象

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

bro.get('http://125.35.6.84:81/xk/')

sleep(1)

#当前浏览器显示对应的所有的页面数据

page_text = bro.page_source

all_page_text = [page_text]

for i in range(1,4):

    next_page_tag = bro.find_element_by_xpath('//*[@id="pageIto_next"]')

    next_page_tag.click()

    sleep(1)

    all_page_text.append(bro.page_source)

for page_text in all_page_text:

    tree = etree.HTML(page_text)

    li_list = tree.xpath('//*[@id="gzlist"]/li')

    for li in li_list:

        title = li.xpath('./dl/a/text()')

        print(title)

sleep(3)

bro.quit()

selenium在爬虫中的应用之动态数据爬取的更多相关文章

爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
Python爬虫：用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
爬虫1.5-ajax数据爬取
目录爬虫-ajax数据爬取 1. ajax数据 2. selenium+chromedriver知识准备 3. selenium+chromedriver实战拉勾网爬虫代码爬虫-ajax数据爬取 ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
[Python3网络爬虫开发实战] 7-动态渲染页面爬取
在前一章中,我们了解了Ajax的分析和抓取方式,这其实也是JavaScript动态渲染的页面的一种情形,通过直接分析Ajax,我们仍然可以借助requests或urllib来实现数据爬取. 不过Jav ...

随机推荐

LC 981. Time Based Key-Value Store
Create a timebased key-value store class TimeMap, that supports two operations. 1. set(string key, s ...
mfc移动文件夹
SHFILEOPSTRUCT FileOp; ZeroMemory((void*)&FileOp,sizeof(SHFILEOPSTRUCT)); FileOp.fFlags = FOF_NO ...
深入理解Flink ---- Metrics的内部结构
从Metrics的使用说起 Flink的Metrics种类有四种Counters, Gauges, Histograms和Meters. 如何使用Metrics呢? 以Counter为例, publi ...
Spring Aop（十四）——Aop自动创建代理对象的原理
转发地址:https://www.iteye.com/blog/elim-2398725 Aop自动创建代理对象的原理我们在使用Spring Aop时,通常Spring会自动为我们创建目标bean的 ...
Linux 系统中用Systemd 管理系统服务
Systemd 命令详解: https://www.digitalocean.com/community/tutorials/how-to-use-systemctl-to-manage-syste ...
golang web框架设计5：配置设计
配置信息的解析,实现的是一个key=value,键值对的一个配置文件,类似于ini的配置格式,然后解析这个文件,把解析的数据保存到map中,最后调用的时候通过几个string,int之类的函数返回相应 ...
19 个让 MySQL 效率提高 3 倍的 SQL 优化技巧
优化成本: 硬件>系统配置>数据库表结构>SQL及索引优化效果: 硬件<系统配置<数据库表结构<SQL及索引本文我们就来谈谈 MySQL 中常用的 SQL 优化 ...
javascript一些实用的方法
判断数据类型 function isType(type) { return function(obj) { return {}.toString.call(obj) == "[object ...
LAG函数实现环比
,)OVER(ORDER BY 年月) 环比金额 from( 年, 季度, 年月 ,SUM(金额本位币) 金额 FROM ( SELECT * FROM [dbo].[T_output] ) cb_v ...
spring使用FactoryBean给ioc容器加入组件
FactoryBean是srping的一个接口,现在我们来创建一个类MyFactoryBean 来实现FactoryBean接口 package org.springframework.beans.f ...

selenium在爬虫中的应用之动态数据爬取

selenium在爬虫中的应用之动态数据爬取的更多相关文章

随机推荐

热门专题