python3 爬虫五大模块之二：URL管理器

Python的爬虫框架主要可以分为以下五个部分：

爬虫调度器：用于各个模块之间的通信，可以理解为爬虫的入口与核心（main函数），爬虫的执行策略在此模块进行定义；

URL管理器：负责URL的管理，包括带爬取和已爬取的URL、已经提供相应的接口函数（类似增删改查的函数）

网页下载器：负责通过URL将网页进行下载，主要是进行相应的伪装处理模拟浏览器访问、下载网页

网页解析器：负责网页信息的解析，这里是解析方式视具体需求来确定

信息采集器：负责将解析后的信息进行存储、显示等处理

代码示例是爬取CSDN博主下的所有文章为例，文章仅作为笔记使用，理论知识rarely

一、URL管理器简介

URL管理器主要负责对爬虫的URL进行管理，它会将待爬取的URL和已经爬取的URL分别记录下来。

URL管理器如要对外提供添加、查询URL的功能。

核心框架如下：

'''

自定义Python伪代码

'''

# 1. 初始化待管理的URL

# 2. 提供一系列操作URL的接口函数

# 例如：

#      添加一个URL

#      添加多个URl

#      查询是否有未爬取的URL

#      取出未爬取的URL

#      ...

二、URL管理器示例：（爬取CSDN博主下的所有文章）

# author : s260389826

# date : 2019/3/22

# position: chengdu

class UrlManager(object):

    def __init__(self):

        self.urls_article_new = set()  #待爬取文章

        self.urls_article_old = set()  #已爬取文章

        self.urls_page_new = set()     #待爬取页

        self.urls_page_old = set()     #已爬取页

    def add_article_url(self, url):

        '''

        一次添加一个文章的URL

        '''

        if url is None:

            print("url_manager: add article url error")

            return

        if url not in self.urls_article_new and url not in self.urls_article_old:

            self.urls_article_new.add(url)

    def add_article_urls(self, urls):

        '''

        一次添加多个文章的URL

        '''

        if urls is None or len(urls) == 0:

            print("url_manager: add article urls error")

            return

        for url in urls:

            self.add_article_url(url)

    def add_page_url(self, url):

        '''

        一次添加一个页的URL

        '''

        if url is None:

            print("url_manager: add page url error")

            return

        if url not in self.urls_page_new and url not in self.urls_page_old:

            self.urls_page_new.add(url)

    def add_page_urls(self, urls):

        '''

        一次添加多个页的URL

        '''

        if urls is None or len(urls) == 0:

            print("url_manager: add page urls error")

            return

        for url in urls:

            self.add_page_url(url)

    def has_page_url(self):

        '''

        查询是否有带爬取的页

        '''

        return len(self.urls_page_new) != 0

    def get_page_url(self):

        '''

        取出带爬取的页

        '''

        page_url = self.urls_page_new.pop()

        self.urls_page_old.add(page_url)

        return page_url

三、上述代码用到的知识点：

1. URL管理器使用集合：

    def __init__(self):

        self.urls_article_new = set()

        self.urls_article_old = set()

        self.urls_page_new = set()

        self.urls_page_old = set()

使用集合主要为了去除重复的URL，它可以自动的去除重复URL。非必须但是比较方便

2. 集合操作：

        page_url = self.urls_page_new.pop()

        self.urls_page_old.add(page_url)

pop(): 从集合中去掉一个元素

add(): 往集合中添加一个元素

python3 爬虫五大模块之二：URL管理器的更多相关文章

python3 爬虫五大模块之三：网页下载器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之四：网页解析器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之一：爬虫调度器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之五：信息采集器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python爬虫模块之URL管理器模块
URL管理器模块一般是用来维护爬取的url和未爬取的url已经新添加的url的,如果队列中已经存在了当前爬取的url了就不需要再重复爬取了,另外防止造成一个死循环.举个例子我爬www.baidu. ...
Tkinter模块：Grid几何管理器
Tkinter模块是Python的标准库模块之一,也是使用Python语言进行图形化用户界面(GUI)开发的基础. 本文介绍一下Tkinter模块的Grid几何管理器. 使用VB.MFC进行GUI开发 ...
第4章 URL管理器和实现方法
URL管理器:管理待抓取URL集合和已抓取URL集合 -- 防止重复抓取.防止循环抓取 URL需要支持哪些功能: 添加新URL到待爬取集合中.判断待添加URL是否在容器中,判断是否还有待爬取URL,获 ...
python3爬虫 url管理器
import urllib.request #python3中将urllib2拆分为了urllib.request.urllib.error.urllib.response等 import http. ...

随机推荐

Netty基础招式——ChannelHandler的最佳实践
本文是Netty系列第7篇上一篇文章我们深入学习了Netty逻辑架构中的核心组件EventLoop和EventLoopGroup,掌握了Netty的线程模型,并且介绍了Netty4线程模型中的无锁串 ...
C++ //拷贝构造函数调用时机//1.使用一个已经创建完毕的对象来初始化一个新对象 //2.值传递的方式给函数参数传值 //3.值方式返回局部对象
1 //拷贝构造函数调用时机 2 3 4 #include <iostream> 5 using namespace std; 6 7 //1.使用一个已经创建完毕的对象来初始化一个新对象 ...
“入职一年，那个被高薪挖来的Android开发被劝退了。”
其实,在很多小伙伴的想法中,是希望通过跳槽实现薪酬涨幅,可是跳槽不是冲动后决定,应该谨慎啊~ 01 我的学弟,最近向我吐槽,2020 年上半年入职一家公司,当时是高薪挖走的他,所谓钱到位,工作也是充满 ...
Windows API 进程相关笔记
0. 前言最近做了一个进程信息相关的项目,整理了一下自己做项目时的笔记,分享给大家 1. 相关概念 1.1 HANDLE 概念 HANDLE(句柄)是Windows操作系统中的一个概念. 在Wind ...
Access, Modify, Change Time of Linux File
All these 3 time can be viewed by "stat " command. Access time is influenced by read opera ...
GO Time 类型方法处理集合
1.判断2个时间是否超时 package main import ( "fmt" "time" ) func main() { //获取1秒后时间 var No ...
linux service脚本
vim /etc/systemd/system/node_exporter.service [Unit] Description=node_exporter Documentation=https:/ ...
Python 应用爬虫下载酷狗音乐
应用爬虫下载酷狗音乐首先我们需要进入到这个界面想要爬取这些歌曲链接,然而这个是一个假的网站,虽然单机右键进行检查能看到这些歌曲的链接,可进行爬取时,却爬取不到这些信息. 这个时候我们就应该换一种思 ...
解决uni-file-picker组件在ios点击失效的问题
从组件源码里找到choose-and-upload-file.js文件,查找chooseAndUploadFile方法,在方法里添加下面代码,保存即可解决. opts.sourceType = ['a ...
SSH以及ROS远程登录设置保姆级教程
本文用来实现在同一局域网内的两台计算机之间的相互通信,实现一台计算机登录到另一台计算机,本文基于SSH来实现. 1.SSH简介 Secure Shell(SSH)是由 IETF(The Interne ...

python3 爬虫五大模块之二：URL管理器

python3 爬虫五大模块之二：URL管理器的更多相关文章

随机推荐

热门专题