在日常工作中常常需要重复填写某些表单,如果人工完成,费时费力,而且网络延迟令人十分崩溃。如果能够用程序实现自动填表,效率可以提高一倍以上,并且能够移植到多台计算机,进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具,它能完全模拟浏览器的操作,无需处理复杂的request、post,对爬虫初学者十分友好。

一、环境配置

  python3.6+selenium库+xlrd库+xlwt库

  其中xlrd和xlwt库用于读写excel表中的数据。

  还要下载一个浏览器的driver文件用于打开浏览器,注意要选择与计算机系统相符合的版本(max/windows64位/windows32位)

  ChromeDriver:http://npm.taobao.org/mirrors/chromedriver/

    IEDriver:http://selenium-release.storage.googleapis.com/index.html

  将下载下来的driver.exe放到浏览器根目录和python的根目录

二、打开网页

  以IE浏览器为例,以下两行代码就可以实现打开一个IE浏览器并且访问我们需要填表的网站

    driver= webdriver.Ie()
driver.get('http://xxxx.com/')

  如果网站需要登陆(需要填表的一般是公司内部网站),再写一个login函数,将driver作为参数调用

  driver = login(driver)

  注意一定要将driver传回,这样driver才能继续接受程序的指令

三、元素定位

  webdriver的工作原理是找到网页中某一个元素,可以对其进行填入数据或点击等操作。

  关于元素定位可以参考这篇博客https://blog.csdn.net/bananasssss/article/details/51316369

  我主要用到的元素定位方式有

  driver.find_element_by_id('someid')#通过元素的id定位
  driver.find_element_by_css_selector("input[value='确定'")#查找一个input元素,它的value属性值为'确定'
  driver.find_element_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#查找一个style属性值为'COLOR:red'的span元素的第一个span子元素

 (1)通过id定位

  如果我们想在网页表单的某一个位置填某项值或者点击某个按钮,我们首先要用开发者工具查看这个元素的源代码,然后首先观察它有没有id,如果有id,直接用id定位该元素。然后,用

  driver.find_element_by_id('someid').click()#点击元素
  driver.find_element_by_id('someid').send_keys('somekeys')#填入'somekeys'
  driver.find_element_by_id('someid').clear()#清空输入框中已有的值

  实现我们想要做的操作。

 (2)通过ccs selector定位

  如果我们想要操作的元素没有ID,那么我们就要找到它跟网页其他元素不同的特征,ccs selector是一种十分灵活的定位方式,其中用value定位是一个不错的选择。以

  driver.find_element_by_css_selector("input[value='确定'")

  为例,双引号中的input可以换成任何网页元素(div、span、input、a等),中括号中是该元素的某一个属性(style、id、value、class等),等号后面是该属性的值。

  注意,如果网页中有多个元素同时满足ccs selector的条件,如有多个value=“确定” 的input,那么find_element_by_css_selector只会定位到在html源代码中最靠前的一个,而find_elements_by_css_selector会找到源代码中所有满足条件的元素,并以列表的形式返回这些找到的元素。例如,网页中弹出很多个提示框,我们要一一去点确定,可以这样操作

    list=driver.find_elements_by_css_selector("input[value=' 确定 ']")
for l in list:
l.click()

  但是,如果这些提示框是重叠出现的,而最上层的提示框实际上在源码中更靠后的位置,那么列表中第一个“确定”元素就会被叠在上面的提示框遮挡,无法点击,这个时候倒序一下数组就可以了,从最后一个“确定”元素开始点击

     query=driver.find_elements_by_css_selector("input[value=' 确定 ']")
for q in query[::-1]:
q.click()

 (3)通过xpath定位

  关于xpath定位详解可以参考https://www.jianshu.com/p/820dcd013993

  xpath定位比较复杂但是非常全面,当这个元素的class、style属性和其他元素一样,实在没什么特点可以一步定位的时候,我们就可以用xpath,先找到我们想要的元素的父子兄弟元素,再定位到我们想要的元素。例如

   driver.find_element_by_xpath('//*[@class="submit clear"]/input[1]').click()
  text =driver.find_element_by_xpath("//input[@value=' 确定 ']/../preceding-sibling::div[1]").text
driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")

  引号中的//表示相对定位,表示从源代码中任何地方开始寻找。

  //后可以跟任何元素,*代表任意元素,即定位符合属性筛选任何元素。

  中括号内是属性的筛选条件,@后可以加任意属性。contains(@style,'COLOR: red')表示的筛选条件是:style属性中包含”COLOR:red“。这里为什么不直接用@style='COLOR: red'

的原因是,可能在我们审查源代码的时候这个元素的style属性只有'COLOR: red'这一条,但是动态界面的style属性经常变化,程序运行时直接用等于是定位不到这个元素的。

  我们通常需要靠先找到某个有id的元素,再通过层级关系定位到我们真正想要定位的元素,关于兄弟父子元素定位请参考https://blog.csdn.net/huilan_same/article/details/52541680

  /..  可以定位这个元素的父亲元素

  /  可以定位这个元素的子元素

  /preceding-sibling::  可以定位这个元素的哥哥元素

  /following-sibling::  可以定位这个元素的弟弟元素

  如/input[1]表示子元素中第一个input、/../preceding-sibling::div[1]表示父元素的哥哥元素中的第一个div

 (4)通过当前节点定位

  有时候我们会遇到需要判断一下元素当前的状态(是否被选择)再决定接下来的操作的情况,这时就需要用一个变量来保存当前节点

   LTE=driver.find_element_by_xpath("//input[@id='LTE']/../span[1]"

  然后再用get_attribute获得当前节点元素的属性,在这个例子里,如果元素为蓝色,就不需要点击。代码实现为:

    if LTE.get_attribute("style")=="COLOR: blue":
pass
else:
LET.click()

  需要筛选出特定文本的情况:

    red=driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#找出所有红色的文本
for r in red:
if '低消' in r.text:#如果文本信息中包含‘低消’
r.find_element_by_xpath("./../preceding-sibling::input[1]").click()#注意从当前节点定位的时候要以‘./’开头
break

  

  如果寻找的元素需要滚动界面才能看到,这个时候可以用js聚焦此元素,页面便会滚动到该元素的位置

    target=driver.find_element_by_css_selector("input[value=' 确定 ']")
driver.execute_script("arguments[0].scrollIntoView();", target)
target.click()

  

四、不确定情况处理

 (1)有可能出现的弹窗

  在填表过程中,有些地方有可能出现一个弹框也有可能不出现,这个时候,无论这个弹窗是什么,用try..except语句处理就可以解决

  js触发的弹窗:

    try:
driver.find_element_by_css_selector("input[value=' 确定 ']").click()
except Exception as e:
pass

  网页alert弹窗:

    try:
driver.switch_to.alert.dismiss()
except Exception:
pass

  dismiss()对应的是alert弹窗的”取消“项,accept()对应的是”确定“项,driver.switch_to.alert.text 可以获得弹窗的文本内容。

  

 (2)数量不定的弹窗

  对上文提到的多个提示框情况,除了用 query=driver.find_elements_by_css_selector("input[value=' 确定 ']") 一次性找到所有元素再顺序或倒序点击之外,还可以用一个while循环解决

    while(1):
try:
driver.find_element_by_css_selector("input[value=' 确定 ']").click()
except Exception as e:
break

  

 (3)网络延迟

  有些网页在点击查询信息之后需要加载一段时间,加载中的页面是找不到我们接下来想找的元素的,因此程序就会报错,此时有两种解决方法。

  一种是固定等待一段时间,等待网页加载完毕,这种方法的缺点是很难找到等待的最佳时间,太短的话页面还没加载完,太长就影响效率

    time.sleep(2)

  另一种是用一个while循环一直寻找下一个我们要找的元素

    while(1):
try:
driver.find_element_by_id('continueTrade').click()
break
except Exception:
pass

  这种方法的前提是下一个要找的元素必定会出现

五、frame处理

  关于frame处理这篇博客写得非常好https://blog.csdn.net/huilan_same/article/details/52200586

  总结起来就是:frameset不用切,frame层层切。最好一系列填表操作完后都用 driver.switch_to.default_content() 回到原文档,这样不容易混乱

  这里再补充一点frame没有id时的切入方法

    frame= self.driver.find_element_by_xpath("/html/body/div[12]/iframe")#先定位frame位置,用一个变量储存这个节点
self.driver.switch_to_frame(frame)#再切入这个节点

  

六、excel数据读写

  excel数据读写十分简单,看代码就好了:

def read(file):
data = xlrd.open_workbook(file)#打开excel文件
table = data.sheets()[0]#读取第一个sheet的数据
phones = table.col_values(0)#以列表形式存储第一列数据
peoples = table.col_values(1)#以列表形式存储第二列数据 return phones,peoples def write(result):
file=xlwt.Workbook()#创建一个excel文件
table = file.add_sheet('sheet1')#添加一个sheet
for i in range(len(result)):#写入数据
table.write(i,0,result[i][0])
table.write(i,1,result[i][1])
table.write(i,2,result[i][2])
file.save('result.xls')

  

结语:希望技术能让人们从无意义的重复劳动中解脱:D

用python-webdriver实现自动填表的更多相关文章

  1. 转:python webdriver API 之简单对象的定位

    对象(元素)的定位和操作是自动化测试的核心部分,其中操作又是建立在定位的基础上的,因此元素定位就显得非常重要. (本书中用到的对象与元素同为一个事物)一个对象就像是一个人,他会有各种的特征(属性) , ...

  2. python webdriver测试报告

    python webdriver测试报告 即将开始一系列的自动化项目实践,很多公共类和属性都需要提前搞定.今天,解决了测试报告的一些难题,参照了很多博文,最终觉得HTMLTestRunner非常不错, ...

  3. Python WebDriver 文件上传(二)

    今天补充一种文件上传的方法 主要是因为工作中使用SendKeys方法不稳定,具体方法见: Python WebDriver 文件上传(一) 这种方法直接通过命令行执行脚本时没有问题,可以成功上传,但是 ...

  4. 转:python webdriver 环境搭建

    第一节 环境搭建准备工具如下:-------------------------------------------------------------下载 python[python 开发环境]ht ...

  5. C# 网页自动填表自动登录(转)

    自动填表的方式有很多,关键是获取控件的id或者name. 比如源代码有 <input id="pwdInput" tabindex="2" class=& ...

  6. python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客

    python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如 ...

  7. 测试开发Python培训:自动发布新浪微博-技术篇

    测试开发Python培训:自动发布新浪微博-技术篇   在前面我们教大家如何登陆,大家需要先看自动登陆新浪微博(http://www.cnblogs.com/laoli0201/articles/48 ...

  8. python webdriver安装

    前言 本次就python webdriver的安装和驱动不同浏览器的配置进行分享,以解决大家在入门过程中的一些基本的环境问题. python安装 目前python有2.x和3.x版本,笔者在这里推荐2 ...

  9. 前端自动化测试python+webdriver

    前言:很多做测试的朋友的就知道,python+webdriver  可以做自动化测试,这对前端开发是非常有用的.  python 入门我就不讲了  ,推荐学习 廖雪峰老师的python入门3.5新版哈 ...

随机推荐

  1. Mysql SQL Mode详解

    Mysql SQL Mode简介 MySQL服务器能够工作在不同的SQL模式下,并能针对不同的客户端以不同的方式应用这些模式.这样,应用程序就能对服务器操作进行量身定制以满足自己的需求.这类模式定义了 ...

  2. Swift基础之OC文件调用Swift代码(在上次的基础上写的)

    前两天刚写过Swift调用OC,今天在原来的基础上,实现OC调用Swift. 首先,创建一个OneSwiftFile.swift文件,创建一个继承于NSObject的类(这个地方你可以自己选择继承的父 ...

  3. 匿名内部类使用外面的类为什么要用final型

    从程序设计语言的理论上:局部内部类(即:定义在方法中的内部类),由于本身就是在方法内部(可出现在形式参数定义处或者方法体处),因而访问方法中的局部变量(形式参数或局部变量)是天经地义的.是很自然的 为 ...

  4. Google Guava的5个鲜为人知的特性

    译文出处: 花名有孚   原文出处:takipi.com Google Guava有哪些比较冷门但却又实用的特性呢? 它是最流行的开源库之一,你应该听过它的大名,它诞生的地方正是人们举办真正的魁地奇比 ...

  5. EBS DBA指南笔记(二)

    第三章 监控和诊断   本章涵盖以下几个主题:监测的方法,数据库的监测,apache的监测,forms的监测,并发管理器的监测,服务器的监测,网络的监测,其它的一些监测和诊断方法. 1.监测的方法:主 ...

  6. 【一天一道LeetCode】#89. Gray Code

    一天一道LeetCode 本系列文章已全部上传至我的github,地址:ZeeCoder's Github 欢迎大家关注我的新浪微博,我的新浪微博 欢迎转载,转载请注明出处 (一)题目 The gra ...

  7. UNIX环境高级编程——文件I/O

    一.文件描述符 对于Linux而言,所有对设备或文件的操作都是通过文件描述符进行的.当打开或者创建一个文件的时候,内核向进程返回一个文件描述符(非负整数).后续对文件的操作只需通过该文件描述符,内核记 ...

  8. Dynamics CRM 2011/2013 section的隐藏

            代码如下 Xrm.Page.ui.tabs.get("TabName").sections.get("SectionName").setVisi ...

  9. Socket编程实践(6) --TCP服务端注意事项

    僵尸进程处理 1)通过忽略SIGCHLD信号,避免僵尸进程 在server端代码中添加 signal(SIGCHLD, SIG_IGN); 2)通过wait/waitpid方法,解决僵尸进程 sign ...

  10. 海量数据挖掘MMDS week2: 频繁项集挖掘 Apriori算法的改进:非hash方法

    http://blog.csdn.net/pipisorry/article/details/48914067 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...