用python-webdriver实现自动填表

　　在日常工作中常常需要重复填写某些表单，如果人工完成，费时费力，而且网络延迟令人十分崩溃。如果能够用程序实现自动填表，效率可以提高一倍以上，并且能够移植到多台计算机，进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具，它能完全模拟浏览器的操作，无需处理复杂的request、post，对爬虫初学者十分友好。

一、环境配置

　　python3.6+selenium库+xlrd库+xlwt库

　　其中xlrd和xlwt库用于读写excel表中的数据。

　　还要下载一个浏览器的driver文件用于打开浏览器，注意要选择与计算机系统相符合的版本（max/windows64位/windows32位）

　　ChromeDriver：http://npm.taobao.org/mirrors/chromedriver/

　 IEDriver：http://selenium-release.storage.googleapis.com/index.html

　　将下载下来的driver.exe放到浏览器根目录和python的根目录

二、打开网页

　　以IE浏览器为例，以下两行代码就可以实现打开一个IE浏览器并且访问我们需要填表的网站

    driver= webdriver.Ie()
    driver.get('http://xxxx.com/')

　　如果网站需要登陆（需要填表的一般是公司内部网站），再写一个login函数，将driver作为参数调用

　　driver = login(driver)

　　注意一定要将driver传回，这样driver才能继续接受程序的指令

三、元素定位

　　webdriver的工作原理是找到网页中某一个元素，可以对其进行填入数据或点击等操作。

　　关于元素定位可以参考这篇博客https://blog.csdn.net/bananasssss/article/details/51316369

　　我主要用到的元素定位方式有

　　driver.find_element_by_id('someid')#通过元素的id定位
　　driver.find_element_by_css_selector("input[value='确定'")#查找一个input元素，它的value属性值为'确定'
　　driver.find_element_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#查找一个style属性值为'COLOR:red'的span元素的第一个span子元素

（1）通过id定位

　　如果我们想在网页表单的某一个位置填某项值或者点击某个按钮，我们首先要用开发者工具查看这个元素的源代码，然后首先观察它有没有id，如果有id，直接用id定位该元素。然后，用

　　driver.find_element_by_id('someid').click()#点击元素
　　driver.find_element_by_id('someid').send_keys('somekeys')#填入'somekeys'
　　driver.find_element_by_id('someid').clear()#清空输入框中已有的值

　　实现我们想要做的操作。

（2）通过ccs selector定位

　　如果我们想要操作的元素没有ID，那么我们就要找到它跟网页其他元素不同的特征，ccs selector是一种十分灵活的定位方式，其中用value定位是一个不错的选择。以

　　driver.find_element_by_css_selector("input[value='确定'")

　　为例，双引号中的input可以换成任何网页元素（div、span、input、a等），中括号中是该元素的某一个属性（style、id、value、class等），等号后面是该属性的值。

　　注意，如果网页中有多个元素同时满足ccs selector的条件，如有多个value=“确定” 的input，那么find_element_by_css_selector只会定位到在html源代码中最靠前的一个，而find_elements_by_css_selector会找到源代码中所有满足条件的元素，并以列表的形式返回这些找到的元素。例如，网页中弹出很多个提示框，我们要一一去点确定，可以这样操作

    list=driver.find_elements_by_css_selector("input[value=' 确定 ']")
    for l in list:
        l.click()

　　但是，如果这些提示框是重叠出现的，而最上层的提示框实际上在源码中更靠后的位置，那么列表中第一个“确定”元素就会被叠在上面的提示框遮挡，无法点击，这个时候倒序一下数组就可以了，从最后一个“确定”元素开始点击

     query=driver.find_elements_by_css_selector("input[value=' 确定 ']")
     for q in query[::-1]:
         q.click()

（3）通过xpath定位

　　关于xpath定位详解可以参考https://www.jianshu.com/p/820dcd013993

　　xpath定位比较复杂但是非常全面，当这个元素的class、style属性和其他元素一样，实在没什么特点可以一步定位的时候，我们就可以用xpath，先找到我们想要的元素的父子兄弟元素，再定位到我们想要的元素。例如

   driver.find_element_by_xpath('//*[@class="submit clear"]/input[1]').click()
　　text =driver.find_element_by_xpath("//input[@value=' 确定 ']/../preceding-sibling::div[1]").text
   driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")

　　引号中的//表示相对定位，表示从源代码中任何地方开始寻找。

　　//后可以跟任何元素，*代表任意元素，即定位符合属性筛选任何元素。

　　中括号内是属性的筛选条件，@后可以加任意属性。contains(@style,'COLOR: red')表示的筛选条件是：style属性中包含”COLOR：red“。这里为什么不直接用@style='COLOR: red'

的原因是，可能在我们审查源代码的时候这个元素的style属性只有'COLOR: red'这一条，但是动态界面的style属性经常变化，程序运行时直接用等于是定位不到这个元素的。

　　我们通常需要靠先找到某个有id的元素，再通过层级关系定位到我们真正想要定位的元素，关于兄弟父子元素定位请参考https://blog.csdn.net/huilan_same/article/details/52541680

　　/.. 可以定位这个元素的父亲元素

　　/ 可以定位这个元素的子元素

　　/preceding-sibling:: 可以定位这个元素的哥哥元素

　　/following-sibling:: 可以定位这个元素的弟弟元素

　　如/input[1]表示子元素中第一个input、/../preceding-sibling::div[1]表示父元素的哥哥元素中的第一个div

（4）通过当前节点定位

　　有时候我们会遇到需要判断一下元素当前的状态（是否被选择）再决定接下来的操作的情况，这时就需要用一个变量来保存当前节点

   LTE=driver.find_element_by_xpath("//input[@id='LTE']/../span[1]"

　　然后再用get_attribute获得当前节点元素的属性，在这个例子里，如果元素为蓝色，就不需要点击。代码实现为：

    if LTE.get_attribute("style")=="COLOR: blue":
        pass
    else:
        LET.click()

　　需要筛选出特定文本的情况：

    red=driver.find_elements_by_xpath("//span[contains(@style,'COLOR: red')]/span[1]")#找出所有红色的文本
    for r in red:
        if '低消' in r.text:#如果文本信息中包含‘低消’
            r.find_element_by_xpath("./../preceding-sibling::input[1]").click()#注意从当前节点定位的时候要以‘./’开头
            break

　　如果寻找的元素需要滚动界面才能看到，这个时候可以用js聚焦此元素，页面便会滚动到该元素的位置

    target=driver.find_element_by_css_selector("input[value=' 确定 ']")
    driver.execute_script("arguments[0].scrollIntoView();", target)
    target.click()

四、不确定情况处理

（1）有可能出现的弹窗

　　在填表过程中，有些地方有可能出现一个弹框也有可能不出现，这个时候，无论这个弹窗是什么，用try..except语句处理就可以解决

　　js触发的弹窗：

    try:
        driver.find_element_by_css_selector("input[value=' 确定 ']").click()
    except Exception as e:
        pass

　　网页alert弹窗：

    try:
        driver.switch_to.alert.dismiss()
    except Exception:
        pass

　　dismiss()对应的是alert弹窗的”取消“项，accept()对应的是”确定“项，driver.switch_to.alert.text 可以获得弹窗的文本内容。

（2）数量不定的弹窗

　　对上文提到的多个提示框情况，除了用 query=driver.find_elements_by_css_selector("input[value=' 确定 ']") 一次性找到所有元素再顺序或倒序点击之外，还可以用一个while循环解决

    while(1):
        try:
            driver.find_element_by_css_selector("input[value=' 确定 ']").click()
        except Exception as e:
            break

（3）网络延迟

　　有些网页在点击查询信息之后需要加载一段时间，加载中的页面是找不到我们接下来想找的元素的，因此程序就会报错，此时有两种解决方法。

　　一种是固定等待一段时间，等待网页加载完毕，这种方法的缺点是很难找到等待的最佳时间，太短的话页面还没加载完，太长就影响效率

    time.sleep(2)

　　另一种是用一个while循环一直寻找下一个我们要找的元素

    while(1):
        try:
            driver.find_element_by_id('continueTrade').click()
            break
        except Exception:
            pass

　　这种方法的前提是下一个要找的元素必定会出现

五、frame处理

　　关于frame处理这篇博客写得非常好https://blog.csdn.net/huilan_same/article/details/52200586

　　总结起来就是：frameset不用切，frame层层切。最好一系列填表操作完后都用 driver.switch_to.default_content() 回到原文档，这样不容易混乱

　　这里再补充一点frame没有id时的切入方法

    frame= self.driver.find_element_by_xpath("/html/body/div[12]/iframe")#先定位frame位置，用一个变量储存这个节点
    self.driver.switch_to_frame(frame)#再切入这个节点

六、excel数据读写

　　excel数据读写十分简单，看代码就好了：

def read(file):
    data = xlrd.open_workbook(file)#打开excel文件
    table = data.sheets()[0]#读取第一个sheet的数据
    phones = table.col_values(0)#以列表形式存储第一列数据
    peoples = table.col_values(1)#以列表形式存储第二列数据
 
    return phones,peoples
 
def write(result):
    file=xlwt.Workbook()#创建一个excel文件
    table = file.add_sheet('sheet1')#添加一个sheet
    for i in range(len(result)):#写入数据
        table.write(i,0,result[i][0])
        table.write(i,1,result[i][1])
        table.write(i,2,result[i][2])
    file.save('result.xls')

结语：希望技术能让人们从无意义的重复劳动中解脱：D

用python-webdriver实现自动填表的更多相关文章

转：python webdriver API 之简单对象的定位
对象(元素)的定位和操作是自动化测试的核心部分,其中操作又是建立在定位的基础上的,因此元素定位就显得非常重要. (本书中用到的对象与元素同为一个事物)一个对象就像是一个人,他会有各种的特征(属性) , ...
python webdriver测试报告
python webdriver测试报告即将开始一系列的自动化项目实践,很多公共类和属性都需要提前搞定.今天,解决了测试报告的一些难题,参照了很多博文,最终觉得HTMLTestRunner非常不错, ...
Python WebDriver 文件上传（二）
今天补充一种文件上传的方法主要是因为工作中使用SendKeys方法不稳定,具体方法见: Python WebDriver 文件上传(一) 这种方法直接通过命令行执行脚本时没有问题,可以成功上传,但是 ...
转：python webdriver 环境搭建
第一节环境搭建准备工具如下:-------------------------------------------------------------下载 python[python 开发环境]ht ...
C# 网页自动填表自动登录(转)
自动填表的方式有很多,关键是获取控件的id或者name. 比如源代码有 <input id="pwdInput" tabindex="2" class=& ...
python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客
python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如 ...
测试开发Python培训：自动发布新浪微博-技术篇
测试开发Python培训:自动发布新浪微博-技术篇在前面我们教大家如何登陆,大家需要先看自动登陆新浪微博(http://www.cnblogs.com/laoli0201/articles/48 ...
python webdriver安装
前言本次就python webdriver的安装和驱动不同浏览器的配置进行分享,以解决大家在入门过程中的一些基本的环境问题. python安装目前python有2.x和3.x版本,笔者在这里推荐2 ...
前端自动化测试python+webdriver
前言:很多做测试的朋友的就知道,python+webdriver 可以做自动化测试,这对前端开发是非常有用的. python 入门我就不讲了 ,推荐学习廖雪峰老师的python入门3.5新版哈 ...

随机推荐

UNIX网络编程——I/O复用：select和poll函数
我们看到TCP客户同时处理两个输入:标准输入和TCP套接字.我们遇到的问题是就在客户阻塞于(标准输入上)fgets调用,服务器进程会被杀死.服务器TCP虽然正确的给客户TCP发送了一个FIN,但是既然 ...
python读写word、excel、csv、json文件
http://blog.csdn.net/pipisorry/article/details/50368044 python读写word文档 (include wps)将word文档转换成txt文档 ...
网站开发进阶(三十七)JSP页面跳转问题解决
JSP页面跳转问题解决 PS:本篇博文质量欠佳,仅供个人学习之用. 前言在做Web开发时,对别人的应用(jsp+servlet)进行服务器部署时出现了页面跳转无效的情况.但是项目在本地未出现此状况. ...
【翻译】如何创建Ext JS暗黑主题之二
原文:How to Create a Dark Ext JS Theme– Part 2 我已经展示了如何去开发一个精致的暗黑主题,看起来就像Spotify.在本文的第一部分,了解了Fashion.S ...
谈谈Ext JS的组件——组件基类：Ext.Component
概述 Ext.Component是所有Ext组件的基类,这在Ext.Component的API中第一句话就提到了.然后第二段说明了它包含的基本功能:隐藏/显示.启用/禁用以及尺寸控制等.除了以上这些基 ...
浅谈OC内存管理
一.基本原理 (一)为什么要进行内存管理. 由于移动设备的内存极其有限,所以每个APP所占的内存也是有限制的,当app所占用的内存较多时,系统就会发出内存警告,这时需要回收一些不需要再继续使用的内存空 ...
H5 学习之旅-H5表格（7）
表格语法 table:简历表格 captian:表格标题 th:表格行表头 tr:表格行 td:单元格 thead:表格页眉 tfoot:表格页脚 tbody:表格主体 col:列属性 !!!代码实例 ...
android动画之interpolator和typeEvaluator用法详解
Interpolator (插值器) 我们在写动画的时候为了达到某种效果往往需要设置插值器,用来真实的模拟生活中的场景. Interpolator (插值器)被用来修饰动画效果,定义动画的变化率,可以 ...
[SqlServer]2008转到2005的步骤步骤
2008转到2005的步骤步骤 1. 生成for 2005版本的数据库脚本 2005 的manger studio -- 打开"对象资源管理器"(没有的话按F8), 连接到你的实例 ...
JVM学习笔记 -- 从一段几乎所有人代码都会犯错的代码开始
废话不多说看看这段代码.告诉我结果: import java.io.*; class Test { public static Test t = new Test(); public Test(){ ...

用python-webdriver实现自动填表

用python-webdriver实现自动填表的更多相关文章

随机推荐

热门专题