爬虫之动态HTML处理（Selenium与PhantomJS ）动态页面模拟点击

动态页面模拟点击

#!/usr/bin/env python

# -*- coding:utf-8 -*-

# python的测试模块

import unittest

from selenium import webdriver

from bs4 import BeautifulSoup

class douyuSelenium(unittest.TestCase):

    # 初始化方法

    def setUp(self):

        self.driver = webdriver.PhantomJS()

    #具体的测试用例方法，一定要以test开头

    def testDouyu(self):

        self.driver.get('http://www.douyu.com/directory/all')

        while True:

            # 指定xml解析

            soup = BeautifulSoup(driver.page_source, 'xml')

            # 返回当前页面所有房间标题列表 和 观众人数列表

            titles = soup.find_all('h3', {'class': 'ellipsis'})

            nums = soup.find_all('span', {'class': 'dy-num fr'})

            # 使用zip()函数来可以把列表合并，并创建一个元组对的列表[(1,2), (3,4)]

            for title, num in zip(nums, titles):

                print u"观众人数:" + num.get_text().strip(), u"\t房间标题: " + title.get_text().strip()

            # page_source.find()未找到内容则返回-1

            if driver.page_source.find('shark-pager-disable-next') != -1:

                break

            # 模拟下一页点击

            self.driver.find_element_by_class_name('shark-pager-next').click()

    # 退出时的清理方法

    def tearDown(self):

        print '加载完成...'

        self.driver.quit()

if __name__ == "__main__":

    unittest.main()

爬虫之动态HTML处理（Selenium与PhantomJS ）动态页面模拟点击的更多相关文章

七、Selenium与phantomJS----------动态页面模拟点击、网站模拟登录
每天一个小实例1(动态页面模拟点击,并爬取你想搜索的职位信息) from selenium import webdriver from bs4 import BeautifulSoup # 调用环境变 ...
Python爬虫开发【第1篇】【动态HTML、Selenium、PhantomJS】
JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言.它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏. 我们可以在网页 ...
爬虫之动态HTML处理（Selenium与PhantomJS ）网站模拟登录
#coding=utf-8from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport tim ...
selenium + firefox/chrome/phantomjs登陆之模拟点击
登陆之模拟点击工具:python/java + selenium + firefox/chrome/phantomjs (1)windows开发环境搭建默认已经安装好了firefox 安装pip ...
python爬虫积累（一）--------selenium+python+PhantomJS的使用（转）
阅读目录一.Selenium介绍二.爬虫为什么要用selenium? 三.PhantomJS介绍四.PhantomJS安装五.操作实战六.在此推荐虫师博客的学习资料 selenium + p ...
python爬虫积累（一）--------selenium+python+PhantomJS的使用
最近按公司要求,爬取相关网站时,发现没有找到js包的地址,我就采用selenium来爬取信息,相关实战链接:python爬虫实战(一)--------中国作物种质信息网一.Selenium介绍 Se ...
python爬虫入门（五）Selenium模拟用户操作
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库), ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
[Python爬虫] 之一： Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...

随机推荐

centos 7.5 最小化安装
参考:https://www.tecmint.com/centos-7-installation/ ================================================== ...
监控之snmpd 服务
监控离不开数据采集,经常使用的Mrtg ,Cacti,Zabbix,等等监控软件都是通过snmp 协议进行数据采集的! 1 什么是snmp 协议? 简单网络管理协议(SNMP,Simple Netwo ...
crontab下设置ntpdate的问题
1.在crontab里设置了ntpdate 同步时间,一段时间发现没有起作用原来的写法是 20 00 × × × ntpdate cn.pool.ntp.org 单独拿出来执行也是没问题的,最近好好 ...
Pycharm配置同步服务器
一.使用场景我们一般需要将代码放到服务器上运行,但如果等我们将项目全部开发好之后再上传到服务器,而且每次在开发阶段需要经过多次修改,每修改一次,都手动上传一次,这样就太麻烦了,有没有一种方法可以达到 ...
C++继承模型
在C++继承模型中,一个派生类对象表现出来的东西,是其自己的成员加上其基类成员的总和.但这些成员怎样摆放,标准并未强制规定.一般而言,低地址放基类子对象,高地址放派生类对象. 以下从四个部分讨论C++ ...
Spark2.0 特征提取、转换、选择之二：特征选择、文本处理，以中文自然语言处理(情感分类)为例
特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具. 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见 ...
PHP计算经纬度之间的距离
<?php /** * 求两个已知经纬度之间的距离,单位为米 * * @param lng1 $ ,lng2 经度 * @param lat1 $ ,lat2 纬度 * @return floa ...
hashmap，ConcurrentHashMap与hashtable的区别
1.hashmap与hashtable的区别 1.我们从他们的定义就可以看出他们的不同,HashTable基于Dictionary类,而HashMap是基于AbstractMap.Dictionary ...
百度NLP一面
C++ : 1.拷贝构造函数和重载=符分别在什么情况下被调用,实现有什么区别 2.虚函数的目的,虚函数和模板类的区别,如何找到虚函数常规算法: 1. 如何输出一个集合的所有真子集,递归和非递 ...
机器学习第2周---炼数成金-----线性回归与Logistic
重点归纳回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测用途:预测,判别合理性例子:利用身高预测体重:利用广告费用预测商品销售额:等等.线性回归分析:一元线性:多元线性:广 ...

爬虫之动态HTML处理（Selenium与PhantomJS ）动态页面模拟点击

动态页面模拟点击

爬虫之动态HTML处理（Selenium与PhantomJS ）动态页面模拟点击的更多相关文章

随机推荐

热门专题