一、写在前面

当你看着你的博客的阅读量慢慢增加的时候，内心不禁有了些小激动，但是不得不吐槽一下--博客园并不会显示你的博客的总阅读量是多少。而这一篇博客就将教你怎么利用队列这种结构来编写爬虫，最终获取你的博客的总阅读量。

二、必备知识

队列是常用数据结构之一，在Python3中要用queue这个模块来实现。queue这个模块实现了三种队列：

class queue.Queue(maxsize=0)：FIFO队列（first in first out），先进先出，第一个进入队列的元素会第一个从队列中出来。maxsize用于设置队列里的元素总数，若小于等于0，则总数为无限大。

class queue.LifoQueue(maxsize=0)：LIFO队列（last in first out），后进先出，最后一个进入队列的元素会第一个从队列中出来。maxsize用于设置队列里的元素总数，若小于等于0，则总数为无限大。

class queue.PriorityQueue(maxsize=0)：优先级队列（first in first out），给队列中的元素分配一个数字标记其优先级。maxsize用于设置队列里的元素总数，若小于等于0，则总数为无限大。

这次我使用的是Queue这个队列，Queue对象中包含的主要方法如下：

Queue.put(item, block=True, timeout=None)：将元素放入到队列中。block用于设置是否阻塞，如果timeout为正数，表明最多阻塞多少秒。

Queue.get(block=True, timeout=None)：从队列中删除并返回一个元素，如果队列为空，则报错。block用于设置是否阻塞，如果timeout为正数，表明最多阻塞多少秒。

Queue.empty()：判断队列是否为空，如果队列为空，返回False，否则返回True。

三、具体步骤

首先进入博客，然后打开开发者工具选择查看元素，如下：

这里只要定位到类名为postDesc的div节点就可以提取到我们想要的阅读量信息了，这一步是很简单的。问题在于如何实现翻页？先定位到下一页查看一下元素：

好像定位到id为nav_next_page的div节点就行了，是这样吗？点击进入下一页，然后再次定位查看一下：

可以看到用之前定位div节点的方法已经不行了，怎么办呢？我的解决办法是用正则表达式进行匹配，因为下一页对应的元素都是这样的：

<a href="链接">下一页</a>

所以只需要进行一下正则匹配就能获取下一页的链接了，如果获取不到，就说明已经是最后一页了！

四、完整代码

 """

 Version: Python3.5

 Author: OniOn

 Site: http://www.cnblogs.com/TM0831/

 Time: 2019/3/11 10:46

 """

 import re

 import queue

 import requests

 from lxml import etree

 class CrawlQueue:

     def __init__(self):

         """

         初始化

         """

         self.q = queue.Queue()  # 爬取队列

         self.username = input("请输入您的博客名称：")

         self.q.put("http://www.cnblogs.com/" + self.username)

         self.urls = ["http://www.cnblogs.com/" + self.username]  # 记录爬取过的url

         self.result = []  # 储存阅读量数据

     def request(self, url):

         """

         发送请求和解析网页

         :param url: 链接

         :return:

         """

         res = requests.get(url)

         et = etree.HTML(res.text)

         lst = et.xpath('//*[@class="postDesc"]/text()')

         for i in lst:

             num = i.split(" ")[5].lstrip("阅读(").rstrip(")")

             self.result.append(int(num))

         # 下一页

         next_page = re.search('<a href="(.*?)">下一页</a>', res.text)

         if next_page:

             href = next_page.group().split('&nbsp;')[-1].replace('<a href="', '').replace('">下一页</a>', '')

             if href not in self.urls:  # 确保之前没有爬过

                 self.q.put(href)

                 self.urls.append(href)

     def get_url(self):

         """

         从爬取队列中取出url

         :return:

         """

         if not self.q.empty():

             url = self.q.get()

             self.request(url)

     def main(self):

         """

         主函数

         :return:

         """

         while not self.q.empty():

             self.get_url()

 if __name__ == '__main__':

     crawl = CrawlQueue()

     crawl.main()

     print("您的博客总阅读量为：{}".format(sum(crawl.result)))

完整代码已上传到GitHub！

【Python3爬虫】用Python中的队列来写爬虫的更多相关文章

python中利用队列asyncio.Queue进行通讯详解
python中利用队列asyncio.Queue进行通讯详解本文主要给大家介绍了关于python用队列asyncio.Queue通讯的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细 ...
java/python中的队列
Queue<TreeNode> que=new LinkedList<>(); 用linkedlist实现队列,offer,poll进出队列,peek对列顶部元素 python ...
Python中的队列
参考资料: https://www.cnblogs.com/yhleng/p/9493457.html 问:我们为什么想使用队列? 答:为了方便,我就想喂给队列一堆object,就想让它们先进先出(F ...
6、Python 中利用 openpyxl 读写 excel 操作
__author__ = 'Administrator' from openpyxl import load_workbook # Excel_Util 类 class Excel_util: #初始 ...
python中的Queue(队列)详解
一.Queue简介 python中的队列分类可分为两种: 1.线程Queue,也就是普通的Queue 2.进程Queue,在多线程与多进程会介绍. Queue的种类: FIFO: Queue.Que ...
python中的生成器函数是如何工作的？
以下内容基于python3.4 1. python中的普通函数是怎么运行的? 当一个python函数在执行时,它会在相应的python栈帧上运行,栈帧表示程序运行时函数调用栈中的某一帧.想要获得某个函 ...
爬虫开发python工具包介绍（1）
本文来自网易云社区作者:王涛本文大纲: 简易介绍今天要讲解的两个爬虫开发的python库详细介绍 requests库及函数中的各个参数详细介绍 tornado 中的httpcilent的应用 ...
Python中生成器,迭代器,以及一些常用的内置函数.
知识点总结生成器生成器的本质就是迭代器. 迭代器:Python中提供的已经写好的工具或者通过数据转化得来的. 生成器:需要我们自己用Python代码构建的创建生成器的三种方法: 通过生成器函数 ...
Python中HTTPS连接
permike 原文 Python中HTTPS连接今天写代码时碰到一个问题,花了几个小时的时间google, 首先需要安装openssl,更新到最新版本后,在浏览器里看是否可访问,如果是可以的,所以 ...

随机推荐

MacOS多版本Python切换方案
1. 安装homebrew 官网 http://brew.sh/index_zh-cn.html 打开终端,在终端中粘贴如下脚本 /usr/bin/ruby -e "$(curl -fsSL ...
html块级元素与行内元素
1.关于行内元素和快元素的说明: 根据CSS规范的规定,每一个网页元素都有一个display属性,用于确定该元素的类型,每一个元素都有默认的display属性值,比如div元素,它的默认display ...
HTML5这个概念的解释
关于HTML5这个概念我一直很多困惑,稍微总结一下. 从HTML说起,HTML作为一个标记语言,通过这种标记定义了一个网页的dom tree,也定义了网页的结构,然后CSS定义了在这个结构基础上的样式 ...
my views--软件工程、python
这是大三第二学期开的一门课,由吴世枫老师和王韬助教教的. 大一开了C语言,大二开了java.matlab,而用得最多的应该是学java顺便学会的C++了.matlab在实训和数学建模用了多次,尤其是数 ...
基于ASP.NET MVC 微信网页登录授权(scope为snsapi_base) 流程上获取OPENID
流程图我们需要判断是否存在OPENID 首先我们得先定义一个全局的OPENID 类似于普通账号密码登录系统的当前登录用户ID 因为我是MVC 框架我这里定义一个控制器基类 BaseCont ...
Maven学习（八）-- 使用Nexus搭建Maven私服
摘自:http://www.cnblogs.com/xdp-gacl/p/4068967.html 一.搭建nexus私服的目的为什么要搭建nexus私服,原因很简单,有些公司都不提供外网给项目组人 ...
3GPP 测试 /etc/udev/ruse.d/50文件 /lib/udev/ruse.d/55* 网络配置
3GPP是个标准化协议组织,其工作目标是制定协议实现由2G网络到3G网络的平滑过渡,保证未来技术的后向兼容性,支持轻松建网及系统间的漫游和兼容性. 3GPP协议的制订主要是以GSM核心网为基础. 测试 ...
idea 和 eclipse 常用快捷键汇总
序号所属类别快捷键名称快键键方式备注所属平台 1 查询类 search everywhere double shift idea 2 全文搜索 ctrl + H 通用 3 打开资源 ...
Java开源生鲜电商平台-搜索模块的设计与架构(源码可下载）
Java开源生鲜电商平台-搜索模块的设计与架构(源码可下载) 说明:搜索模块针对的是买家用户,在找菜品找的很费劲下的一种查询方面.目前也是快速的检索商品. 对于移动端的APP买家用户而言,要求的速度在 ...
Inception体验之安装
Inception介绍 MySQL Inception是数据库管理员的工具.它允许DBA构建好的SQL语句,在只读数据集上测试它们,并最终针对生产数据库运行这些SQL语句,并且能够在SQL语句出于某种 ...