Python(十一) 原生爬虫

一、分析抓取目的确定抓取页面

#爬取主播人气排行

二、整理爬虫常规思路

爬虫前奏

明确目的

找到数据对应的网页

分析网页的结构找到数据所在的标签位置

模拟 HTTP 请求， 向服务器发送这个请求， 获取到服务器返回给我们的HTML

用正则表达式提取我们要的数据（名字，人数）

三、 VSCode中调试代码

F5 启动和vs 调试一样

BeautifulSoup , Scrapy

爬虫、反爬虫、反反爬虫

ip 封

代理 ip库

五、数据提取层级分析及原则三、正则分析HTML、正则分析获取名字和人数

from urllib import request

import re

#断点调试 有坑 7i

class  Spider():

    url = 'https://www.panda.tv/cate/lol'

    root_pattern ='<div class="video-info">([\s\S]*?)</div>'

    name_pattern = '</li>([\s\S]*?)</span>'

    number_pattern = '<span class="video-number">([\s\S]*?)</span>'

    def __fetch_content(self):

        r = request.urlopen(Spider.url)

        #bytes

        htmls = r.read()

        htmls = str(htmls,encoding='utf-8')

        return htmls

    def __analysis(self,htmls):

        root_html = re.findall(Spider.root_pattern, htmls)

        anchors = []

        for html in root_html:

            name = re.findall(Spider.name_pattern, html)

            number = re.findall(Spider.number_pattern, html)

            anchor = {'name':name,'number':number}

            anchors.append(anchor)

        # print(anchors[0])

        return anchors

    def __refine(self, anchors):

        l = lambda anchor:{

            'name':anchor['name'][0].strip(),

            'number':anchor['number'][0]

            }

        return map(l,anchors)

    def go(self):

        htmls = self.__fetch_content()

        anchors = self.__analysis(htmls)

        anchors =list(self.__refine(anchors))

        print(anchors[0])

s = Spider()

s.go()

结果：

{'name': 'LOL丶摇摆哥', 'number': '26.8万'}

八、数据精炼、 sorted 排序

from urllib import request

import re

#断点调试 坑 7i

class  Spider():

    url = 'https://www.panda.tv/cate/lol'

    root_pattern ='<div class="video-info">([\s\S]*?)</div>'

    name_pattern = '</li>([\s\S]*?)</span>'

    number_pattern = '<span class="video-number">([\s\S]*?)</span>'

    # 获取数据的页面

    def __fetch_content(self):

        r = request.urlopen(Spider.url)

        #bytes

        htmls = r.read()

        htmls = str(htmls,encoding='utf-8')

        return htmls

    # 从页面上抓取数据

    def __analysis(self,htmls):

        root_html = re.findall(Spider.root_pattern, htmls)

        anchors = []

        for html in root_html:

            name = re.findall(Spider.name_pattern, html)

            number = re.findall(Spider.number_pattern, html)

            anchor = {'name':name,'number':number}

            anchors.append(anchor)

        # print(anchors[0])

        return anchors

    # 数据取杂质（空格换行）strip() 字符串去空格换行

    def __refine(self, anchors):

        l = lambda anchor:{

            'name':anchor['name'][0].strip(),

            'number':anchor['number'][0]

            }

        return map(l,anchors) #map类  对字典每一个序列进行l这个函数

    # 对抓取的数据进行排序 reverse=True 倒序

    def __sort(self, anchors):

        anchors = sorted(anchors, key=self.__sort_seed, reverse=True)

        return anchors

    # 给 key 写的函数 说明用那个进行排序

    def __sort_seed(self, anchors):

        r = re.findall('\d*', anchors['number'])

        number = float(r[0])

        if '万' in anchors['number']:

            number *= 10000

        return number

    # 显示排名

    def __show(self, anchors):

        for rank in range(0,len(anchors)):

            print('rank '+ str(rank +1)+'   : '+anchors[rank]['name']+'    '+anchors[rank]['number']+'人')

    # 主程序

    def go(self):

        htmls = self.__fetch_content()

        anchors = self.__analysis(htmls)

        anchors =list(self.__refine(anchors))

        print(anchors[0])

        anchors= self.__sort(anchors)

        self.__show(anchors[:20])

s = Spider()

s.go()

结果：

{'name': 'LOL丶摇摆哥', 'number': '20.2万'}

rank 1   : 贾克虎丶虎神    96.9万人

rank 2   : LOL丶摇摆哥    20.2万人

rank 3   : LPL熊猫官方直播    12.1万人

rank 4   : WUCG官方直播平台    8.4万人

rank 5   : 温州丶黄小明    5.1万人

rank 6   : 暴君aa    4.6万人

rank 7   : 顺顺套路王    3.1万人

rank 8   : 火苗OB解说    2.5万人

rank 9   : 兰晨丶    1.1万人

rank 10   : 海洋OvO    1.9万人

rank 11   : 小马哥玩盖伦    1.6万人

rank 12   : 牛老师丶    1.5万人

rank 13   : Riot国际赛事直播间    1.5万人

rank 14   : 小白Mini    7361人

rank 15   : 一个很C的稻草人    7223人

rank 16   : 抗寒使者    4976人

rank 17   : 小麦子鲜奶油    4902人

rank 18   : 祝允儿    4574人

rank 19   : 请叫我大腿岩丶    4201人

rank 20   : 李小青ZJ    3838人

Python(十一) 原生爬虫的更多相关文章

Python3(十一) 原生爬虫
一.爬虫实例 1.原理:文本分析并提取信息——正则表达式. 2.实例目的:爬取熊猫TV某个分类下面主播的人气排行分析网站结构操作:F12查看HTML信息,Ctrl+Shift+C鼠标选取后找到对应 ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫03
Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...
Python 开发轻量级爬虫02
Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...

随机推荐

PHP 使用 Swoole - TaskWorker 实现异步操作 Mysql
在一般的 Server 程序中都会有一些耗时的任务,比如:发送邮件.聊天服务器发送广播等.如果我们采用同步阻塞的防水去执行这些任务,那么这肯定会非常的慢. Swoole 的 TaskWorker 进程 ...
setjmp()和longjmp()函数
之前我们讲到了过程活动记录(AR),那么如何来操纵AR呢,一个可能的方法是,根据局部变量的地址进行推算,例如对于上面的a函数,执行a函数时的当前AR地址就是参数i的地址偏移8个字节,也就是 ((cha ...
【转】 C#学习笔记14——Trace、Debug和TraceSource的使用以及日志设计
[转] C#学习笔记14——Trace.Debug和TraceSource的使用以及日志设计 Trace.Debug和TraceSource的使用以及日志设计 .NET Framework 命名空 ...
15个开发者最亲睐的Android代码编辑器
如果你希望你的Android设备,如智能手机和平板电脑,在任何时间和任何地方都能够编写代码,那么,不妨看看下面我将介绍的15款Android代码编辑器,它们必将成为你的理想工具. 1.Deuter I ...
python Flask 学前班
0.Flask简单介绍 Flask是一个用Python编写的轻量级的Web应用框架.本文第一部分将简单解说Flask的安装,接着展示一个Flask的样例,第一个样例非常easy但也存在缺陷-- ...
MetaSploit攻击实例讲解------终端下PostgreSQL数据库的使用（包括kali linux 2016.2(rolling) 和 BT5）
不多说,直接上干货! 配置msf连接postgresql数据库我这里是使用kali linux 2016.2(rolling) 用过的博友们都知道,已经预安装好了PostgreSQL. 1. p ...
RadioButton的drawableTop图片文字不居中
在安卓应用的开发中,一般普通应用用到最多的就是底部放一个RadioGroup实现切换的布局,今天在实现的时候,却出现了底部RadiButton的drawableTop图片及文字无法居中的情况,经过对比 ...
JDK5新特性：可变参数方法
JDK1.5增加可变参方法,其定义格式为: 访问修饰符返回值类型方法标识符(参数类型参数标识符1,参数类型参数标识符2,参数类型...参数标识符){} 如可能要定义一个求和功能的方法,但求和的 ...
实体转XML XML转实体
// <summary> /// 实体类序列化成xml /// </summary> /// <param name="enitities">实 ...
birthday
2.29 7.25 7.... 5... 10.01 02 03

Python(十一) 原生爬虫

Python(十一) 原生爬虫的更多相关文章

随机推荐

热门专题