Python爬虫(二十三)_selenium案例：动态模拟页面点击

本篇主要介绍使用selenium模拟点击下一页，更多内容请参考:Python学习指南

#-*- coding:utf-8 -*-

import unittest

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from bs4 import BeautifulSoup

import time

class douyuSelenium(unittest.TestCase):

    #初始化方法

    def setUp(self):

        self.driver = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true', '--ssl-protocol=any'])

    #具体的测试用例方法，一定要以test开头

    def testDouyu(self):

        self.driver.get("http://www.douyu.com/directory/all")

        while True:

            #指定xml解析

            soup = BeautifulSoup(self.driver.page_source, "lxml")

            #返回当前页面的所有房间标题列表和观众人数列表

            titles = soup.find_all('h3' , {'class':"ellipsis"})

            print(len(titles))

            nums = soup.find_all('span', {'class': "dy-num fr"})

                # #使用zip()函数把列表合并，并创建一个远相对的列表[(1, 2), (3, 4)]

            for title, num in zip(nums, titles):

                print(u'观众人数： '+num.get_text().strip(), u'\t房间标题： '+title.get_text().strip())

            #page_source.find()未找到内容则返回-1

            if self.driver.page_source.find('shark-pager-disable-next') != -1:

                break

            self.driver.find_element_by_class_name('shark-pager-next').click()

            time.sleep(1)

    # 退出时的清理方法

    def tearDown(self):

        print("加载完成...")

        self.driver.quit()

if __name__ == '__main__':

    unittest.main()

Python爬虫(二十三)_selenium案例：动态模拟页面点击的更多相关文章

Python爬虫(二十一)_Selenium与PhantomJS
本章将介绍使用Selenium和PhantomJS两种工具用来加载动态数据,更多内容请参考:Python学习指南 Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试 ...
Python爬虫二
常见的反爬手段和解决思路 1)明确反反爬的主要思路反反爬的主要思路就是尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现;浏览器先请求了地址url1,保留了cookie在本地,之后请求地址u ...
Python爬虫实战——反爬策略之模拟登录【CSDN】
在<Python爬虫实战-- Request对象之header伪装策略>中,我们就已经讲到:=="在header当中,我们经常会添加两个参数--cookie 和 User-Age ...
[Python爬虫] 之十三：Selenium +phantomjs抓取活动树会议活动数据
抓取活动树网站中会议活动数据(http://www.huodongshu.com/html/index.html) 具体的思路是[Python爬虫] 之十一中抓取活动行网站的类似,都是用多线程来抓取, ...
Python爬虫(二十二)_selenium案例：模拟登陆豆瓣
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 #-*- coding:utf-8 -*- from sel ...
Python爬虫(二十四)_selenium案例：执行javascript脚本
本章叫介绍如何使用selenium在浏览器中使用js脚本,更多内容请参考:Python学习指南隐藏百度图片 #-*- coding:utf-8 -*- #本篇将模拟执行javascript语句 fr ...
Python爬虫(二十)_动态爬取影评信息
本案例介绍从JavaScript中采集加载的数据.更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import requests import re import t ...
python爬虫入门（五）Selenium模拟用户操作
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库), ...
Python爬虫实战点触验证码，模拟登陆bilibili
爬虫思路如下: 利用自动化爬虫工具 Selenium 模拟点击输入等操作来进行登录分析页面,获取点触验证码的点触图片,通过将图片发送给超级鹰打码平台识别后获取坐标信息根据超级鹰返回的数据,模拟坐标 ...

随机推荐

java.io.File类操作
一.java.io.File类 String path="E:/222/aaa";//路径 String path1="aaa.txt"; File file= ...
C#中获取当前系统中安装的所有字体及预定义颜色
需要引用命名空间using System.Drawing.Text;.... //获取系统字体:InstalledFontCollection fc = new InstalledFontCollec ...
c#中获取路径方法
要在c#中获取路径有好多方法,一般常用的有以下五种: //获取应用程序的当前工作目录. String path1 = System.IO.Directory.GetCurrentDirectory() ...
python 中 urlparse 模块介绍
urlparse模块主要是用于解析url中的参数对url按照一定格式进行拆分或拼接 1.urlparse.urlparse 将url分为6个部分,返回一个包含6个字符串项目的元组:协议.位置.路 ...
【JAVA零基础入门系列】Day15 对象的比较
最近一直有事,博客也停笔了一段时间,十分抱歉. 这一篇主要讲讲对象的比较,什么是对象的比较,我们知道两个数值类型只需要用"=="符号即可进行相等判断,但如果是两个Goods对象呢? ...
canvas图表(3) - 饼图
原文地址:canvas图表(3) - 饼图这几天把canvas图表都优化了下,动画效果更加出色了,可以说很逼近echart了.刚刚写完的饼图,非常好的实现了既定的功能,交互的动画效果也是很棒的. 效 ...
Postman+newman+jenkins构建
最近忙着项目接口测试,经过不同工具的对比,发现postman使用起来挺顺手的,所以马上决定使用这个工具进行接口测试工作.刚开始的时候,了解了下接口测试的相关信息,直接着手编写接口测试的测试用例信息 ...
Redis 高可用集群
Redis 高可用集群 Redis 的集群主从模型是一种高可用的集群架构.本章主要内容有:高可用集群的搭建,Jedis连接集群,新增集群节点,删除集群节点,其他配置补充说明. 高可用集群搭建集群(c ...
Android智能下拉刷新加载框架—看这些就够了
一些值得学习的几个下拉刷新上拉加载开源库 Android智能下拉刷新框架-SmartRefreshLayout 支持所有的 View(AbsListView.RecyclerView.WebView. ...
iscroll遇到的两个坑
最近移动端闪付遇到的两个坑做下总结: 1.使用iscroll后,滑动并没有生效解决方案: 首先要查看:结构是否正确: <div id="wrapper"> //w ...

Python爬虫(二十三)_selenium案例：动态模拟页面点击

Python爬虫(二十三)_selenium案例：动态模拟页面点击的更多相关文章

随机推荐

热门专题