selenium,webdriver爬取斗鱼主播信息实操

from selenium import webdriver

import time

from bs4 import BeautifulSoup

class douyuSelenium():

    #初始化,启动斗鱼浏览器

    def setUp(self):

        self.driver = webdriver.PhantomJS()

    #获取斗鱼房间信息

    def testDouyu(self):#'https://www.douyu.com/directory/all'

        self.driver.get('https://www.douyu.com/directory/all')

        while True:

            time.sleep(2)

            #指定解析器,生成一个soup对象

            soup = BeautifulSoup(self.driver.page_source,'lxml')

            #获取当前页面所有的房间标题,观众人数

            titles = soup.find_all('h3',{'class':'ellipsis'})

            nums = soup.find_all('span',{'class':'dy-num fr'})

            for title,num in zip(titles,nums):

                info = "房间标题:" + title.get_text().strip() + '\t' + "人气:" + num.get_text().strip()

                print(info)

            #下一页

            #查找下一页  在最后一页会有shark-pager-disable-next元素 表示没有下一页

            if self.driver.page_source.find('shark-pager-disable-next') != -1:

                break

            #点击 页面到下一页

            next_page = self.driver.find_element_by_class_name('shark-pager-next')

            next_page.click()

    def shutdown(self):

        print('加载完成...')

        #加载完成 退出浏览器

        self.driver.quit()

if __name__ == '__main__':

    douyu = douyuSelenium()

    douyu.setUp()

    douyu.testDouyu()

    douyu.shutdown()

selenium,webdriver爬取斗鱼主播信息实操的更多相关文章

『Scrapy』爬取斗鱼主播头像
分析目标爬取的是斗鱼主播头像,示范使用的URL似乎是个移动接口(下文有提到),理由是网页主页属于动态页面,爬取难度陡升,当然爬取斗鱼主播头像这么恶趣味的事也不是我的兴趣...... 目标URL如下, ...
爬虫之selenium爬取斗鱼主播图片
这是我GitHub上简单的selenium介绍与简单使用:https://github.com/bwyt/spider/tree/master/selenium%E5%9F%BA%E7%A1%80 & ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正from selenium import webdriver import time class Douyu: "&q ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 import requests from lxml import etree from multiprocessing imp ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(协程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from gevent import monkey monkey.patch_all() from gevent.pool i ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from queue import Queue import requests from lxml import etree ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from queue import Queue import requests from lxml import etree ...
python实战之原生爬虫(爬取熊猫主播排行榜)
""" this is a module,多行注释 """ import re from urllib import request # B ...

随机推荐

一波骚操作，我把 SQL 执行效率提高了 10,000,000 倍！
作者:风过无痕-唐 http://www.cnblogs.com/tangyanbo/p/4462734.html 场景我用的数据库是mysql5.6,下面简单的介绍下场景课程表: create ...
bootstrap-select、datatables插件使用
1.引入样式文件 <%--引入bootstrap_select样式--%> <link rel="stylesheet" type="text/css& ...
BZOJ 1040 [ZJOI2008]骑士 (基环树+树形DP)
<题目链接> 题目大意: Z国的骑士团是一个很有势力的组织,帮会中汇聚了来自各地的精英.他们劫富济贫,惩恶扬善,受到社会各界的赞扬.最近发生了一件可怕的事情,邪恶的Y国发动了一场针对Z国的 ...
defer、panic和recover
1. defer(1)defer用于将某个方法或语句推迟到当前函数返回的最后一刻执行,一般用于释放某些已分配的资源.函数返回的最后一刻指的是,return语句更新返回值变量之后,函数返回之前,所以de ...
js 柯里化、深拷贝、浅拷贝
curry const sum = (a, b, c, d) => a + b + c + d const curry = fn => (judge = (...args) => a ...
elasticsearch 基础 —— Query String
使用查询解析器来解析其内容的查询.下面是一个例子: GET /_search { "query": { "query_string" : { "def ...
lodash throttle和debounce
https://lodash.com/docs#debounce throttle(又称节流)和debounce(又称防抖)其实都是函数调用频率的控制器 throttle:将一个函数的调用频率限制在一 ...
smbspool - 将一个打印文件发送到一台SMB打印机
总览 SYNOPSIS smbspool {job} {user} {title} {copies} {options} [filename] 描述 DESCRIPTION 此程序是Samba(7)套 ...
java 指定日期后n天
RT 算时间本来就是我的弱项:不废话了,贴代码想传什么参数自己在改改就ok,传入String,放回String public class Text { public static void main ...
【LeetCode】链表 linked list（共34题）
[2]Add Two Numbers (2018年11月30日,第一次review,ko) 两个链表,代表两个整数的逆序,返回一个链表,代表两个整数相加和的逆序. Example: Input: ( ...

selenium,webdriver爬取斗鱼主播信息 实操

selenium,webdriver爬取斗鱼主播信息 实操的更多相关文章

随机推荐

热门专题

selenium,webdriver爬取斗鱼主播信息实操

selenium,webdriver爬取斗鱼主播信息实操的更多相关文章