解析导航栏的url--selnium，beautifulsoup实战

前段时间做ui自动化测试的时候，导航栏菜单始终有点问题，最后只好直接获取到url，然后直接使用driver.get(url)进入页面；

包括做压测的时候，比如我要找出所有报表菜单的url，这样不可能手动去一个一个找出来，然后复制，这样浪费时间，并且也容易漏掉，所以我就写了个脚本来干这事；

首先说下思路：登录-->获取所有的a标签-->筛选掉不用的标签-->打印或者保存到文件中

其中我获取页面所有的标签使用了两种方法，webdriver和beautifulsoup4，两种的区别：1、beautifulsoup4来解析的时候，比较稳定，并且速度快，2、webdriver可能简单一点吧，我推荐是用beautifulsoup4；之所以是用webdriver登录，是因为用webdriver登录简单，不像requests来请求的话，第一次还要分析url，参数之类的，用webdriver的话，只需要定位几个元素就ok了，何乐而不为呢。。。

下面我将两种方式的运行时间、最终的解析结果：

下面的是第一种方式：使用beautifulsoup4来解析：

 #coding=utf-8

 """

 是为了获取XXX系统菜单的url

 使用的是selenium登录，获取网页的内容，然后用beautifulsoup来解析

 """

 import unittest

 import time

 from selenium import webdriver

 from bs4 import BeautifulSoup

 # 登录url

 url = 'http://XXXX.XXXX.com/' # 系统的url

 username = 'XXXX'

 password = 'XXXXX'

 class GetUrl(unittest.TestCase):

     def setUp(self):

         self.dr = webdriver.Chrome()

         self.dr.get(url)

     def tearDown(self):

         self.dr.quit()

     def _login(self):

         self.dr.find_element_by_id('username').send_keys(username) # 输入用户名

         self.dr.find_element_by_id('password').send_keys(password) # 输入密码

         # self.dr.find_element_by_id('verifycode').send_keys('XXXXX') 这里原来是需要验证码的，后来取消掉了

         self.dr.find_element_by_id('weblogin').click() # 点击登录按钮

         time.sleep(3)

     def _gethtmlcontent(self):

         """获取当前页面的html的所有内容"""

         content = self.dr.page_source # 将该页面的内容 返回给content保存起来方便后面解析

         return content

     def _geturl(self,pagesource):

         """

         找出所有的a标签，然后筛选掉非导航连接的a标签。返回的是一个dict

         """

         result = dict()

         soup = BeautifulSoup(pagesource, "lxml")

         eles = soup.find_all("a")

         flag = 0

         for ele in eles:

             if '#' in ele['href']:

                 continue

             tmp = ele.string

             if tmp is not None and '@' not in tmp:

                 flag += 1

                 ele_url = ele['href'].split('?')[0]

                 # print('{0} ==> {1}'.format(tmp,ele_url))

                 result[tmp] = ele_url

         # print('Find out {0} datas.'.format(len(result)))

         return result

     def _writetotxt(self,contents):

         """

         将结果写入文件中

         """

         print('写入开始')

         with open('urlcontent.txt','w') as f:

            for title,value in contents.items():

                 f.write('{0} ==> {1}\n'.format(title,value))

         print('写入完毕')

     def test_run(self):

         self._login()

         pagesources = self._gethtmlcontent()

         result = self._geturl(pagesources)

         self._writetotxt(result)

 if __name__ == '__main__':

     unittest.main()

第二种全都是使用webdriver来解析的：

 #coding=utf-8

 """

 是为了获取XXX系统菜单的url

 使用的是selenium登录，查找元素，获取元素的属性

 """

 from selenium import webdriver

 import unittest

 import time

 # 登录url

 url = 'http://XXX.XXX.com/'

 username = 'XXX'

 password = 'XXX'

 class GetUrl(unittest.TestCase):

     def setUp(self):

         self.dr = webdriver.Chrome()

         self.dr.get(url)

     def tearDown(self):

         self.dr.quit()

     def _login(self):

         # time.sleep(2)

         self.dr.find_element_by_id('username').send_keys(username)

         self.dr.find_element_by_id('password').send_keys(password)

         # self.dr.find_element_by_id('verifycode').send_keys('XXXXX')

         self.dr.find_element_by_id('weblogin').click()

         time.sleep(3)

     def _geturl(self):
　　　　　　# 这里返回的是一个list，然后里面是一个个字典

         result = list()

         eles = self.dr.find_elements_by_css_selector('menu.u-menu a')

         for ele in eles:

             tmp = dict()

             href = ele.get_attribute('href').split('?')[0]

             # 获取菜单 的名称

             name = ele.get_attribute('innerHTML')

             if "<i>" not in name:

                 tmp['name'] = name.strip()

                 tmp['href'] = href

                 result.append(tmp)

                 # print('name: {0},href: {1}'.format(name,href))

         return result

     def _writetotxt(self,contents):

         print("一共{0}条数据".format(len(contents)))

         print('写入开始')

         with open('urlcontent.txt','w') as f:

             for content in contents:

                 f.write('{0} ==> {1}\n'.format(content['name'],content['href']))

         print('写入完毕')

     def test_run(self):

         self._login()

         self._writetotxt(self._geturl())

 if __name__ == '__main__':

     unittest.main()

好了，就到这里吧。。。

解析导航栏的url--selnium，beautifulsoup实战的更多相关文章

解析导航栏的url
前段时间做ui自动化测试的时候,导航栏菜单始终有点问题,最后只好直接获取到url,然后直接使用driver.get(url)进入页面: 包括做压测的时候,比如我要找出所有报表菜单的url,这样不可能手 ...
day77:luffy:导航栏的实现&DjangoRestFramework JWT&多条件登录
目录 1.导航栏的实现 2.登录前戏:用户表初始化 3.DjangoRestFramework JWT 4.多条件登录 5.登录状态的判断和退出登录 1.导航栏的实现 1.设计导航栏的model模型类 ...
Android ActionBar完全解析，使用官方推荐的最佳导航栏(下) .
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/25466665 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
Html5 学习笔记【PC固定布局】实战2 导航栏搜索区域
<!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset="UTF-8& ...
Html5 学习笔记【PC固定布局】实战1 导航栏
导航栏html文件: <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=& ...
Android ActionBar完全解析，使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
Android ActionBar全然解析，使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc.我翻译之后又做了些加工 ...
【转】Android ActionBar完全解析，使用官方推荐的最佳导航栏(上)
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/18234477 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
Bootstrap 学习笔记项目实战响应式导航栏
导航代码HTML: <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=&q ...

随机推荐

生产环境下实践DDD中的规约模式
最近的开发工作涉及到两个模块“任务”和“日周报”.关系是日周报消费任务,因为用户在写日周报的时候,需要按一定的规则筛选当前用户的任务,作为日周报的一部分提交.整个项目采用类似于Orchard那种平台加 ...
在Ubuntu中安装Python3
首先,通过命令行安装Python3.2,只需要在终端中通过命令行安装即可: sudo apt-get install python3 一路yes. 因为Ubuntu很多底层采用的是Python2. ...
再谈扩展方法，从string.IsNullOrEmpty()说起
string.IsNullOrEmpty()这个方法算得上是.net中使用频率最高的方法之一.此方法是string的一个静态方法,类似的静态方法在string这个类中还有很多.那么这样的方法作为静态方 ...
[.net 面向对象编程基础] (13) 面向对象三大特性——多态
[.net 面向对象编程基础] (13) 面向对象三大特性——多态前面两节,我们了解了面向对象的的封装和继承特性,面向对象还有一大特性就是多态.比起前面的封装和继承,多态这个概念不是那么好理解.我们 ...
Linux下Java开发环境搭建—CentOS下Eclipse的安装教程
据了解,在Linux下的Java开发很多时候都比较喜欢使用vim + 插件,反而很少使用Eclipse,但是我是第一次使用Linux来进行Java编程,就什么都体验下啦,好啦,废话不多说,直接开始啦. ...
[源码]RandomId 生成随机字符串
/* * 名称:RandomId * 功能:生成随机ID * 作者:冰麟轻武 * 日期:2012年1月31日 03:36:28 * 版本:1.0 * 最后更新:2012年1月31日 03:36:28 ...
Web开发人员必读的12个网站
The more you actually create, the more you’ll learn.(创造的越多,学习的越多),世界上有无数个开发人员会在网上分享他们的开发经验,我们无法向所有人学 ...
Lucene系列-facet
1.facet的直观认识 facet:面.切面.方面.个人理解就是维度,在满足query的前提下,观察结果在各维度上的分布(一个维度下各子类的数目). 如jd上搜“手机”,得到4009个商品.其中品牌 ...
MYSQL-用户操作
说明:本文主要写了,MYSQL对于用户的一些操作,有:查看用户,创建用户,权限的赋予,收回,用户的密码修改和删除. MySql的用户管理是通过 User表来实现的,添加新用户常用的方法有两个,一是在U ...
webservice5
如何访问webservice . 三种方式我知道, 但是, 方式1 只说明了如何访问wsdl, 不知道如何调用,现在就是需要知道如何像下面url描述一样 , http get .post 方式调用ws ...

解析导航栏的url--selnium，beautifulsoup实战

解析导航栏的url--selnium，beautifulsoup实战的更多相关文章

随机推荐

热门专题