用Python爬取斗鱼网站的一个小案例

思路解析：

　　1、我们需要明确爬取数据的目的：为了按热度查看主播的在线观看人数

　　2、浏览网页源代码，查看我们需要的数据的定位标签

　　3、在代码中发送一个http请求，获取到网页返回的html(需要注意的是，许多网页都有反爬虫机制，所以需要在请求中添加user-agent,伪装成客户端访问)

　　4、对获取到的html进行分析，使用正则表达式提取我们需要的部分（需要注意的是要把主播名称和观看人数所在的块整个提取，分别提取的话如果网页设计不规律的话很难对应）

　　5、将得到的单个主播的数据存储在字典中，并把所有主播的数据存储在list中

　　6、如果抓取到的数据中包含空格换行等无用字符，还需要对数据进行精炼。

　　7、对抓取到的数据从大到小进行排序（需要注意的是：我们抓取到的数据是字符串，并且单位可能是人或者万人，所以要对观看人数进行处理）

　　8、将排好序的数据遍历输出。

由于斗鱼网站的网页是采用模板实现的，案例是抓取王者荣耀的主播的数据，想抓取别的类目的话，只需要修改url即可~

代码实现：

'''

    爬取斗鱼网站的王者荣耀分类主播的观看人数和主播名字，并按热度排名

'''

from urllib import request

from io import BytesIO

import gzip

import re

class Spider():

    url = 'https://www.douyu.com/g_wzry'

    # 根节点的字符串匹配正则表达式，匹配除了根节点中间的所有字符,非贪婪模式，找到第一个</div>就结束

    root_pattern = '<div class="DyListCover-info">([\s\S]*?)</div>'

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}

    # 观看人数匹配字符串

    number_pattern_str = '<span class="DyListCover-hot is-template">([\s\S]*?)</span>'

    # 观看人数的字符串，删除前面的icon部分

    number_pattern = '<svg><use xlink:href="#icon-hot_8a57f0b"></use></svg>'

    name_pattern_str = '<h2 class="DyListCover-user is-template">([\s\S]*?)</h2>'

    name_pattern = '<svg><use xlink:href="#icon-user_c95acf8"></use></svg>'

    # 抓取自定网页内容并解码

    def __fetch_content(self):

        # 发送一个http的请求，获取返回的html代码

        req = request.Request(Spider.url, headers=Spider.headers)

        htmls = request.urlopen(req).read()

        # 解码

        buff = BytesIO(htmls)

        f = gzip.GzipFile(fileobj=buff)

        htmls = f.read().decode('utf-8')

        return htmls

    # 分析抓取内容，选取标签时尽量选取闭合标签，标签成组的选择好对应

    def __analysis(self, htmls):

        # 获取到需要的全部数据

        root_html = re.findall(Spider.root_pattern, htmls)

        # 由于网页中一个块有两个相同的class类，其中第一个主播介绍

        # 第二个才是需要的数据，所以选取奇数下标元素

        root_info_html = root_html[1::2]

        # 最后获取到的数据列表

        anchors = []

        # 遍历列表，提取用户名和观看人数

        for html in root_info_html:

            # 提取到的是带icon的部分

            watch_num_str = re.findall(Spider.number_pattern_str, html)

            # 剔除icon部分

            watch_num = re.sub(Spider.number_pattern, '', watch_num_str[0])

            # 提取带icon的name的部分

            name_str = re.findall(Spider.name_pattern_str, html)

            name = re.sub(Spider.name_pattern, '', name_str[0])

            # 将名字和观看人数用字典存储，最后再用列表存储每个主播的数据

            anchor = {'name': name, 'number': watch_num}

            anchors.append(anchor)

        return anchors

    # 精炼函数

    # def __refine(self, anchors):

    #    lam = lambda anchor: {'name': anchor['name'][0], 'number': anchor['number'][0]}

    #    return map(lam, anchors)

    # 排序

    def __sort(self, anchors):

        anchors = sorted(anchors, key=self.__sort_key, reverse=True)

        return anchors

    # 排序规则

    def __sort_key(self, anchor):

        # 提取数字并计算

        r = re.findall('\d*', anchor['number'])

        number = float(r[0])

        if '万' in anchor['number']:

            number *= 10000

        return number

    # 显示数据

    def __show(self, anchors):

        # for anchor in anchors:

        #    print(anchor['name'], ':', anchor['number'])

        for rank in range(0, len(anchors)):

            print("Rank ", rank+1, ": ", anchors[rank]['name'], "    ", anchors[rank]['number'])

    # 入口方法

    def go(self):

        htmls = self.__fetch_content()

        anchors = self.__analysis(htmls)

        anchors = self.__sort(anchors)

        self.__show(anchors)

spider = Spider()

spider.go()

用Python爬取斗鱼网站的一个小案例的更多相关文章

python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
利用Python爬取电影网站
#!/usr/bin/env python #coding = utf-8 ''' 本爬虫是用来爬取6V电影网站上的电影资源的一个小脚本程序,爬取到的电影链接会通过网页的形式显示出来 ''' impo ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
Python爬取mn52网站美女图片以及图片防盗链的解决方法
防盗链原理 http标准协议中有专门的字段记录referer 一来可以追溯上一个入站地址是什么二来对于资源文件,可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段 ...
python爬取招聘网站数据
# -*- coding: utf-8 -*- # 爬虫分析 from bs4 import BeautifulSoup from lxml import etree from selenium im ...
Python爬取某网站文档数据完整教程（附源码）
基本开发环境 (https://jq.qq.com/?_wv=1027&k=NofUEYzs) Python 3.6 Pycharm 相关模块的使用 (https://jq.qq.com/?_ ...
python爬取斗鱼B总直播弹幕
在某群中看到关于弹幕爬取的需求,又因为斗鱼比较OP,就以这个作为切入点. 如果你想了解如何获取弹幕,我的这个例子就可以让你豁然开朗,对于哪些没有开发弹幕的直播或视频平台,就需要用抓包工具获取请求,然后 ...
python爬取电影网站信息
一.爬取前提1)本地安装了mysql数据库 5.6版本2)安装了Python 2.7 二.爬取内容电影名称.电影简介.电影图片.电影下载链接三.爬取逻辑1)进入电影网列表页, 针对列表的html内 ...
python爬取视频网站m3u8视频，下载.ts后缀文件，合并成整视频
最近发现一些网站,可以解析各大视频网站的vip.仔细想了想,这也算是爬虫呀,爬的是视频数据. 首先选取一个视频网站,我选的是影视大全 ,然后选择上映不久的电影 “一出好戏” . 分析页面我用的是c ...

随机推荐

Azure KeyVault（四）另类在 .NET Core 上操作 Secrets 的类库方法-----Azure.Security.KeyVault.Secrets
一,引言上一篇文章我们在 .Net Core Web 项目中添加了 "Microsoft.Azure.KeyVault" 的 Nuget 包操作 Azure KeyVault 的 ...
SQL从零到迅速精通【触发器】
essay from:http://www.cnblogs.com/hoojo/archive/2011/07/20/2111316.html 触发器就类似一个小账本,记录了你在数据库做了哪些操作,可 ...
MySQL-DB-封装-升级版
<?php class DB { //定义属性 private $host;//主机名 private $port;//端口号 private $name;//用户名 private $pass ...
[动态规划] LeetCode 2055. 蜡烛之间的盘子
LeetCode 2055 蜡烛之间的盘子前言: 这个题做的时间略长了,开始的时候打算先定位两个端点的蜡烛,之后在遍历其中的盘子,结果不言而喻,必time limit了,之后就预处理了前x的蜡烛间盘 ...
mysql 索引模板
DROP TABLE IF EXISTS `table_name`; CREATE TABLE `table_name` ( `id` bigint(20) UNSIGNED NOT NULL AUT ...
七天接手react项目系列 —— react 脚手架创建项目
其他章节请看: 七天接手react项目系列 react 脚手架创建项目前面我们一直通过 script 的方式学习 react 基础知识,而真实项目通常是基于脚手架进行开发. 本篇首先通过 reac ...
关于DP动规
今天学了动规,简单记录一下自己理解了的:(要不俺就忘了) 首先,啥是DP??? 动态规划,其实就是组合子问题的解来解决整个问题的解,由于每个子问题他只判断一次,所以不会重复计算,那就很牛啊!!! 专业 ...
pip安装使用国内源的两种方法
pip安装后使用pip安装第三方库默认是国外源,一般安装慢连接不稳定,等得花儿都谢了,结果还告诉你安装失败..../(ㄒoㄒ)/~~ 这时我们就要想想其它办法啦,毕竟不能强求国外不行,就只有国内了赛 ...
关于MVC WebAPI 中加入任务调度功能的问题（MVC WebAPI 任务调度）
在MVC WebAPI中加入任务调度功能.即在MVC WebAPI启动时,启用任务调度程序. 但是这里有一个问题点,就是部署好IIS站点后,发现任务调度并没有启用.原因为何? 原因是部署好IIS站点后 ...
CLion入门教程
1. 说点什么以下我将介绍地表最强(可能是之一,别打我) C/C++ 开发 IDE--CLion,以及如何使用它来快乐刷题. 工欲善其事,必先利其器.一个好的编程工具对写代码或是做题来说格外重要,尤 ...

用Python爬取斗鱼网站的一个小案例

用Python爬取斗鱼网站的一个小案例的更多相关文章

随机推荐

热门专题