python-爬虫-selenium和phantomJs

1.selenum：三方库。可以实现让浏览器完成自动化的操作。

2.环境搭建

2.1 安装：pip install selenium

2.2 获取浏览器的驱动程序

下载地址：

http://chromedriver.storage.googleapis.com/index.html

http://npm.taobao.org/mirrors/chromedriver/

浏览器版本和驱动版本的对应关系表：

chromedriver版本支持的Chrome版本

https://blog.csdn.net/huilan_same/article/details/51896672

定位元素的8种方式：

#使用下面的方法，查找指定的元素进行操作即可

find_element_by_id 根据id找节点

find_elements_by_name 根据name找

find_elements_by_xpath 根据xpath查找

find_elements_by_tag_name 根据标签名找

find_elements_by_class_name 根据class名字查找

# 通过id定位:

dr.find_element_by_id("kw")

# 通过name定位:

dr.find_element_by_name("wd")

# 通过class name定位:

dr.find_element_by_class_name("s_ipt")

# 通过tag name定位:

dr.find_element_by_tag_name("input")

# 通过xpath定位，xpath定位有N种写法，这里列几个常用写法:

dr.find_element_by_xpath("//*[@id='kw']")

dr.find_element_by_xpath("//*[@name='wd']")

dr.find_element_by_xpath("//input[@class='s_ipt']")

dr.find_element_by_xpath("/html/body/form/span/input")

dr.find_element_by_xpath("//span[@class='soutu-btn']/input")

dr.find_element_by_xpath("//form[@id='form']/span/input")

dr.find_element_by_xpath("//input[@id='kw' and @name='wd']")

# 通过css定位，css定位有N种写法，这里列几个常用写法:

dr.find_element_by_css_selector("#kw")

dr.find_element_by_css_selector("[name=wd]")

dr.find_element_by_css_selector(".s_ipt")

dr.find_element_by_css_selector("html > body > form > span > input")

dr.find_element_by_css_selector("span.soutu-btn> input#kw")

dr.find_element_by_css_selector("form#form > span > input")

接下来，我们的页面上有一组文本链接。

<a class="mnav" href="http://news.baidu.com" name="tj_trnews">新闻</a>

<a class="mnav" href="http://www.hao123.com" name="tj_trhao123">hao123</a>

# 通过link text定位:

dr.find_element_by_link_text("新闻")

dr.find_element_by_link_text("hao123")

# 通过partial link text定位:

dr.find_element_by_partial_link_text("新")

dr.find_element_by_partial_link_text("hao")

dr.find_element_by_partial_link_text("")

Selenium库下webdriver模块常用方法的使用
控制浏览器操作的一些方法
方法说明
set_window_size() 设置浏览器的大小
back() 控制浏览器后退
forward() 控制浏览器前进
refresh() 刷新当前页面
clear() 清除文本
send_keys (value) 模拟按键输入
click() 单击元素
submit() 用于提交表单
get_attribute(name) 获取元素属性值
is_displayed() 设置该元素是否用户可见
size 返回元素的尺寸
text 获取元素的文本
---------------------

例子：

1.chrom浏览器自动搜索

from selenium import webdriver

from time import sleep

# 创建浏览器对象 驱动为浏览器的路径

bro = webdriver.Chrome("./chromedriver.exe")

url = "https://www.baidu.com"7 # 发送请求

bro.get(url)

# 让百度指定词条的搜索

text = bro.find_element_by_id('kw')

# 发送关键字

text.send_keys('python')

# 点击搜索按钮

button = bro.find_element_by_id('su')

button.click()

# 关闭浏览器

bro.quit()

2.phantomjs无界面浏览器,其自动化流程上述操作谷歌自动化流程一

致。

from selenium import webdriver

from time import sleep

bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬虫课件/5. 动态数据加载

爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe')

url = "https://www.baidu.com"

# 发送请求

bro.get(url)

bro.save_screenshot('./1.png')

# 让百度指定词条的搜索

text = bro.find_element_by_id('kw')

# 发送关键字

text.send_keys('python')

bro.save_screenshot('./2.png')

# 点击搜索按钮

button = bro.find_element_by_id('su')

button.click()

sleep(3)

bro.save_screenshot('./3.png')

# 关闭浏览器

bro.quit()

3.豆瓣网电影排行榜滚动条数据

from selenium import webdriver

from time import sleep3 url = 'https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&typ

e=24&interval_id=100:90&action='

bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬虫课件/5. 动态数据加载

爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe')

bro.get(url)

sleep(1)

bro.save_screenshot("./1.png")

js = 'window.scrollTo(0,document.body.scrollHeight)'

# 执行js代码 滚动条

bro.execute_script(js)

sleep(1)

bro.save_screenshot('./2.png')

# 获取页面数据

page_source = bro.page_source

print(page_source)

python-爬虫-selenium和phantomJs的更多相关文章

Python爬虫 Selenium与PhantomJS
Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动化操作,不同是Sele ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...
Python爬虫教程-26-Selenium + PhantomJS
Python爬虫教程-26-Selenium + PhantomJS 动态前端页面 : JavaScript: JavaScript一种直译式脚本语言,是一种动态类型.弱类型.基于原型的语言,内置支持 ...
Python爬虫-selenium的使用（2）
使用selenium打开chrome浏览器百度进行搜索 12345678910111213141516171819202122232425 from selenium import webdriver ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)
转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍一. 定位元素方法官网地址:http://selenium-python.readthedocs.org/locat ...

随机推荐

Nginx location模块整理
location模块 Nginx location location 指令的作用是根据用户请求的URI来执行不同的应用,URI就是根据用户请求到的网址URL进行匹配,匹配成功了进行相关的操作. loc ...
小程序是单页面应用，有一个页面执行wx.showLoading()，其他页面也会显示
my.js onLoad: function (options) { setTimeout(res=>{ wx.showLoading({ title: '10s后出现', }) }, ) }, ...
箭头函数中可改变this作用域，回调函数用箭头函数this指向page，自定义事件用箭头函数this指向undefined
1.回调函数中,用箭头函数改变this的作用域 success: (res)=>{ this.setData({ //此时,this指向page页面 ... }) } 2.自定义事件中,如果使用 ...
ingress部署
# 手动部署 # 部署ingress-nginx 官方地址:https://github.com/kubernetes/ingress-nginx # 参考链接:https://www.jianshu ...
坚果Pro2刷魔趣系统教程，刷回锤子系统教程
一.刷魔趣系统 1.高通驱动安装 https://blog.csdn.net/qq_43653944/article/details/86702169 2.刷入twrp rec https://blo ...
Java进阶知识04 Struts2的基础配置详解
1.Struts2的原理/流程步骤简单的理解: 1.客户端发送一个request请求,Tomcat服务器接收到的请求经过web.xml配置文件去处理,进入struts2的核心过滤器,从而进入s ...
51 Nod 1629 B君的圆锥
1629 B君的圆锥基准时间限制:1 秒空间限制:131072 KB 分值: 10 难度:2级算法题收藏关注 B君要用一个表面积为S的圆锥将白山云包起来. B君希望包住的白山云体积尽量大 ...
interp2
%关于interp2的自我理解 %利用已知的信息,对数据进行拟合 %用一个例子进行理解例:设有数据x=1,2,3,4,5,6,y=1,2,3,4,在由x,y构成的网格上,数据为:12,10,11,1 ...
JavaWeb_(Struts2框架)struts.xml核心配置、动态方法调用、结果集的处理
此系列博文基于同一个项目已上传至github 传送门 JavaWeb_(Struts2框架)Struts创建Action的三种方式传送门 JavaWeb_(Struts2框架)struts.xml核 ...
新版uni-app 在微信小工具调试遇到报错解决方案
问题描述:我在运行到微信小程序是运行报错打不开微信小程序报错如下图结局方案:将微信小程序安全设置开启如下图

python-爬虫-selenium和phantomJs

定位元素的8种方式：

python-爬虫-selenium和phantomJs的更多相关文章

随机推荐

热门专题