python3 selenium模拟登陆斗鱼提取数据保存数据库

# coding=utf-8
from selenium import webdriver
import json
import time
import pymongo

class Douyu:
　　def __init__(self):
　　　　self.driver = webdriver.Chrome()
　　　　# 发送首页请求
　　　　self.driver.get("https://www.douyu.com/directory/all")
　　　　self.host = '127.0.0.1'
　　　　self.port = 27017
　　　　self.DBname = 'douyu'

　　def get_content(self):
　　　　time.sleep(3)
　　　　li_list = self.driver.find_elements_by_xpath('//ul[@id="live-list-contentbox"]/li')
　　　　# print(li_list)

　　　　contents = []
　　　　# 遍历房间列表
　　　　for i in li_list:
　　　　　　item = {}
　　　　　　# 获取房间图片
　　　　　　item['img'] = i.find_element_by_xpath('./a//img').get_attribute("src")
　　　　　　# 获取房间名字
　　　　　　item['title'] = i.find_element_by_xpath('./a').get_attribute("title")
　　　　　　# 获取房间分类
　　　　　　item['category'] = i.find_element_by_xpath('./a/div[@class="mes"]/div/span').text
　　　　　　# 获取主播名字
　　　　　　item['name'] = i.find_element_by_xpath("./a/div[@class='mes']/p/span[1]").text

　　　　　　# 观看人数
　　　　　　item['watch_num'] = i.find_element_by_xpath("./a/div[@class='mes']/p/span[2]").text
　　　　　　# print(item)
　　　　　　contents.append(item)
　　　　return contents

　　# 保存到MongoDB
　　def save_content(self, contents):
　　　　# 创建MongoDB连接
　　　　client = pymongo.MongoClient(host=self.host, port=self.port)
　　　　# 指向指定的数据库
　　　　mdb = client[self.DBname]
　　　　self.post = mdb[self.DBname]
　　　　self.post.insert(contents)

　　# 保存到本地
　　# def save_content(self, contents):
　　　　# with open("douyu.json", "a") as f:
　　　　　　# for content in contents:
　　　　　　# json.dump(content, f, ensure_ascii=False, indent=2)
　　　　　　# f.write(',\n')

　　def run(self):
　　　　# 1.发送首页请求
　　　　# 2.获取首页信息
　　　　contents = self.get_content()
　　　　# 3.保存内容
　　　　self.save_content(contents)
　　　　# 4.循环　点击下一页按钮，直到下一页对应的class名字不再是"shark-pager-next"
　　　　# 判断有没有下一页
　　　　while self.driver.find_element_by_class_name("shark-pager-next"):
　　　　　　# 5.点击下一页按钮
　　　　　　self.driver.find_element_by_class_name("shark-pager-next").click()
　　　　　　# 6.获取下一页的内容
　　　　　　contents = self.get_content()
　　　　　　# 7.保存内容
　　　　　　self.save_content(contents)

if __name__ == '__main__':
douyu = Douyu()
douyu.run()

python3 selenium模拟登陆斗鱼提取数据保存数据库的更多相关文章

Python3 使用selenium库登陆知乎并保存cookie为本地文件
Python3 使用selenium库登陆知乎并保存cookie为本地文件学习使用selenium库模拟登陆知乎,并将cookie保存为本地文件,然后供以后(requests模块)使用,用selen ...
selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
php中CURL技术模拟登陆抓取数据实战，抓取某校教务处学生成绩。
这两天有基友要php中curl抓取教务处成绩的源码,用于微信公众平台的开发.下面笔者只好忍痛割爱了.php中CURL技术模拟登陆抓取数据实战,抓取沈阳工学院教务处学生成绩. 首先,教务处登录需要验证码 ...
Selenium模拟登陆百度贴吧
Selenium模拟登陆百度贴吧 from selenium import webdriver from time import sleep from selenium.webdriver.commo ...
Python3.x：定时获取页面数据存入数据库
Python3.x:定时获取页面数据存入数据库 #间隔五分钟采集一次数据入库 import pymysql import urllib.request from bs4 import Beautifu ...
使用selenium模拟登陆淘宝、新浪和知乎
如果直接使用selenium访问淘宝.新浪和知乎这些网址.一般会识别出这是自动化测试工具,会有反制措施.当开启开发者模式后,就可以绕过他们的检测啦.(不行的,哭笑) 如果网站只是对windows.na ...
Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化
代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml ...
使用selenium模拟登陆新浪微博
1.selenium基本使用 1.selenium安装及基本操作 selenium是一个自动化测试工具,它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面浏览器驱动,也包括Ph ...
验证码破解 | Selenium模拟登陆微博
模拟登陆微博相对来说,并不难.验证码是常规的5个随机数字字母的组合,识别起来也比较容易.主要是用到许多Selenium中的知识,如定位标签.输入信息.点击等.如对Selenium的使用并不熟悉,请先移 ...

随机推荐

UI自动化测试（四）AutoIT工具使用和robot对象模拟键盘按键操作
AutoIT简介 AutoIt 目前最新是v3版本,这是一个使用类似BASIC脚本语言的免费软件,它设计用于Windows GUI(图形用户界面)中进行自动化操作.它利用模拟键盘按键,鼠标移动和窗口/ ...
《算法导论》学习总结 — XX.第23章最小生成树
一.什么叫最小生成树一个无向连通图G=(V,E),最小生成树就是联结所有顶点的边的权值和最小时的子图T,此时T无回路且连接所有的顶点,所以它必须是棵树. 二.为什么要研究最小生成树问题 <算法 ...
.Neter玩转Linux系列之六：Linux下MySQL的安装、配置、使用
一.Linux安装MySQL (1)下载安装包:https://dev.mysql.com/downloads/mysql/ (2)解压并安装命令:tar zxvf 文件名解压完成之后,重名一下文 ...
URL不能过长，否则summit方法提交失败
MVC5.0+EF6.0,和浏览器的版本有关系.IE最多1024KB. URL不能过长,否则summit方法提交失败.
html5获取用户当前的地理位置，即经纬度。
$("document").ready(function(){ getMap(); }); function getMap(){ // 百度地图API功能 var map = ne ...
给vue项目添加ESLint
eslint配置方式有两种: 注释配置:使用js注释来直接嵌入ESLint配置信息到一个文件里配置文件:使用一个js,JSON或者YAML文件来给整个目录和它的子目录指定配置信息.这些配置可以写在一 ...
第五章 MySQL事务,视图,索引,备份和恢复
第五章 MySQL事务,视图,索引,备份和恢复一.事务 1.什么是事务事务是一种机制,一个操作序列,它包含了一组数据库操作命令,并且把所有的命令作为一个整体一起向系统提交或撤销操作请求.要么都执行 ...
Python和SQL Server 2017的强大功能
Python和SQL Server 2017的强大功能摘要: 源:https://www.red-gate.com/simple-talk/sql/sql-development/power-pyt ...
深入理解计算机系统（4.2）------逻辑设计和硬件控制语言HCL
上一篇博客我们简单介绍了Y86指令集体系,而这篇博客我们将介绍指令集体系的逻辑设计和硬件控制语言HCL,为后面去实现Y86打下基础. 在硬件设计中,用电子电路来计算对位进行运算的函数,以及在各种存储器 ...
win10 uwp 使用 Geometry resources 在 xaml
经常会遇到在 xaml 使用矢量图,对于 svg 的矢量图,一般都可以拿出来写在 Path 的 Data ,所以可以写为资源,但是写出来的是字符串,如何绑定 Geometry 到字符串资源? 假如在资 ...

python3 selenium模拟登陆斗鱼提取数据保存数据库

python3 selenium模拟登陆斗鱼提取数据保存数据库的更多相关文章

随机推荐

热门专题