Python——selenium爬取斗鱼房间信息

 from selenium import webdriver

 import os

 import json

 import time

 class Douyu:

     def __init__(self):

         # 1.发送首页的请求

         self.driver = webdriver.Chrome('../chromedriver.exe')

         self.driver.get('https://www.douyu.com/g_yz')

     # 获取页面内容

     def get_content(self):

         time.sleep(3)

         li_list = self.driver.find_elements_by_xpath("//*[@class='layout-Cover-list']/li[@class='layout-Cover-item']")

         length = len(li_list)

         contents = []

         # 遍历房间列表

         for i in range(length):

             item = {}

             item['主播'] = self.driver.find_elements_by_xpath('//h2[@class="DyListCover-user"]')[i].text

             item['房间名'] = self.driver.find_elements_by_xpath('//h3[@class="DyListCover-intro"]')[i].get_attribute(

                 'title')

             item['热度'] = self.driver.find_elements_by_xpath('//span[@class="DyListCover-hot"]')[i].text

             item['封面'] = self.driver.find_elements_by_class_name('DyImg-content')[i].get_attribute(

                 'src')

             contents.append(item)

         return contents

     # 保存数据到本地

     def save_content(self, contents):

         with open('douyu.json', 'a',encoding='utf-8') as f:

             for content in contents:

                 json.dump(content, f, ensure_ascii=False, indent=2)

                 f.write(os.linesep)

     def run(self):

         # 1.发送首页的请求：初始化时已经发送请求

         # 2.获取第一页的数据

         contents = self.get_content()

         self.save_content(contents)

         # 3.循环:点击下一页按钮,只要没有下一页的按钮

         while self.driver.find_elements_by_class_name('dy-Pagination-item-custom')[1]:

             # 点击下一页的按钮

             self.driver.find_elements_by_class_name('dy-Pagination-item-custom')[1].click()

             # 4.继续获取下一页的内容

             contents = self.get_content()

             # 4.保存下一页保存内容

             self.save_content(contents)

 if __name__ == '__main__':

     douyu = Douyu()

     douyu.run()

Python——selenium爬取斗鱼房间信息的更多相关文章

Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息.但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息. 下 ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...
爬虫—Selenium爬取JD商品信息
一,抓取分析本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称.抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Sea ...
python itchat 爬取微信好友信息
原文链接:https://mp.weixin.qq.com/s/4EXgR4GkriTnAzVxluJxmg 「itchat」一个开源的微信个人接口,今天我们就用itchat爬取微信好友信息,无图言虚 ...

随机推荐

DRF之注册器响应器分页器
概要 url注册器响应器分页器 url注册器通过DRF的视图组件,数据接口逻辑被我们优化到最剩下一个类,接下来,我们使用DRF的url控制器来帮助我们自动生成url,使用步骤如下: 第一步:导入 ...
javascipt——原型
1.原型存在的意义 JS不是面向对象的语言,没有类的概念,但是提供了构造器函数,其也可以创建一个对象.构造器函数如下: function people(name, age, sex) { this.n ...
leetcode598
public class Solution { public int MaxCount(int m, int n, int[,] ops) { ); ); || col == ) { return m ...
Codeforce 1004C
Description Since Sonya is interested in robotics too, she decided to construct robots that will rea ...
Mysql慢查询定位和优化实践分享
调优目标:提高io的利用率,减少无谓的io能力浪费. 1.打开慢查询日志定位慢sql: my.cnf: slow_query_log slow_query_log_file=mysql.slow lo ...
c语言语法目录一
1.#include<stdio.h> include 是要告诉编译器,包含一个头文件在c语言中,任何库函数调用都需要提前包含头文件 <头文件> 代表让c语言编译器去系统目录 ...
WebFlux04 SpringBootWebFlux集成MongoDB之Windows版本、WebFlux实现CRUD、WebFlux实现JPA、参数校验
1 下载并安装MongoDB 1.1 MongoDB官网 1.2 下载 solutions -> download center 1.3 安装双击进入安装即可 1.3.1 安装时常见bug01 ...
spring框架事务 xml配置方式
user=LF password=LF jdbcUrl=jdbc:oracle:thin:@localhost:1521:orcl driverClass=oracle.jdbc.driver.Ora ...
框架面试题:谈谈我对Spring IOC与DI的理解
IOC是一种叫做“控制反转”的设计思想. 1.较浅的层次——从名字上解析 “控制”就是指对对象的创建.维护.销毁等生命周期的控制,这个过程一般是由我们的程序去主动控制的,如使用new关键字去创建一个 ...
32.GROUP BY
合计函数 (比如 SUM) 常常需要添加 GROUP BY 语句. GROUP BY 语句 GROUP BY 语句用于结合合计函数,根据一个或多个列对结果集进行分组. SQL GROUP BY 语法 ...

Python——selenium爬取斗鱼房间信息

Python——selenium爬取斗鱼房间信息的更多相关文章

随机推荐

热门专题