python爬虫模块之调度模块

调度模块也就是对之前所以的模块的一个调度，作为一个流水的入口。

下面的代码的获取数据部分暂时没有写，细节部分在实际开发中，要根据要求再定义，这里说的是使用方法

from savedb import DataOutput

from getnodelist import GetNodeList

from gethtml import Gethtml

from urlqueue import URLQueue

class Run(object):

    def __init__(self):

        self.queue = URLQueue()

        self.downloader = Gethtml()

        self.parser = GetNodeList()

        self.output = DataOutput()

    def crawl(self, root_url):

        # 添加入口URL

        self.queue.add_new_url(root_url)

        # 判断URL管理器是否有新的URL，同时计算抓取了多少个url

        while (self.queue.has_new_url() and self.queue.old_url_size() < 100):

            try:

                new_url = self.queue.get_new_url()

                html = self.downloader.get_source(new_url)

                new_urls = self.parser.use_xpath(new_url, html)

                self.queue.add_new_urls(new_urls)

                # 数据存储器存储文件

                data="" #datalist一般是上面取xpath获取值的一个集合这里略。

                self.output.store_data(data)

                print("已经抓取%s个链接" % self.queue.old_url_size())

            except Exception:

                print("err")

if __name__ == "__main__":

    spider_man = Run()

    spider_man.crawl("https://www.baidu.com")

python爬虫模块之调度模块的更多相关文章

python爬虫模块之URL管理器模块
URL管理器模块一般是用来维护爬取的url和未爬取的url已经新添加的url的,如果队列中已经存在了当前爬取的url了就不需要再重复爬取了,另外防止造成一个死循环.举个例子我爬www.baidu. ...
python爬虫模块之HTML解析模块
这个就比较简单了没有什么好强调的,如果返回的json 就是直接按照键值取,如果是网页就是用lxml模块的html进行xpath解析. from lxml import html import json ...
python爬虫模块之HTML下载模块
HTML下载模块该模块主要是根据提供的url进行下载对应url的网页内容.使用模块requets-HTML,加入重试逻辑以及设定最大重试次数,同时限制访问时间,防止长时间未响应造成程序假死现象. 根 ...
python爬虫模块之数据存储模块
数据存储模块的话,目前我这用的比较多的是存储到mysql,所以下面的这个例子也是保存到mysql,用到了ORM映射的SQLAlchemy ,(ORM:Object-Relational Mapping ...
Python "爬虫"出发前的装备之二数据先行（ Requests 模块）
1. 概念爬虫不是动物,而是一种计算机程序. 这种程序有自己特定的功能,能按照使用者给定的一系列规则自行浏览万维网并获取需要的信息.此类程序被称为网络爬虫(web crawler) 或网络蜘蛛( ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
Python爬虫之urllib模块1
Python爬虫之urllib模块1 本文来自网友投稿.作者PG,一个待毕业待就业二流大学生.玄魂工作室未对该文章内容做任何改变. 因为本人一直对推理悬疑比较感兴趣,所以这次爬取的网站也是平时看一些悬 ...
Python爬虫与数据分析之模块：内置模块、开源模块、自定义模块
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

随机推荐

【bzoj1782】[Usaco2010 Feb]slowdown 慢慢游树链剖分+线段树
题目描述每天Farmer John的N头奶牛(1 <= N <= 100000,编号1…N)从粮仓走向他的自己的牧场.牧场构成了一棵树,粮仓在1号牧场.恰好有N-1条道路直接连接着牧场, ...
[NOIP2016] 天天爱跑步桶 + DFS
---题面--- 题解: 很久以前就想写了,一直没敢做,,,不过今天写完没怎么调就过了还是很开心的. 首先我们观察到跑步的人数是很多的,要一条一条的遍历显然是无法承受的,因此我们要考虑更加优美的方法. ...
Educational Codeforces Round 39 (Rated for Div. 2) G
Educational Codeforces Round 39 (Rated for Div. 2) G 题意: 给一个序列\(a_i(1 <= a_i <= 10^{9}),2 < ...
BZOJ1458 士兵占领【带上下界网络流】
题目链接 BZOJ1458 题解对行列分别建边,拆点,设置流量下限然后\(S\)向行连边\(inf\),列向\(T\)连边\(inf\),行列之间如果没有障碍,就连边\(1\) 然后跑最小可行流即 ...
Mysql数据库的主从复制
怎么安装mysql数据库,这里不说了,只说它的主从复制,步骤如下: 1.主从服务器分别作以下操作: 1.1.版本一致 1.2.初始化表,并在后台启动mysql 1.3.修改root的密码 2.修 ...
Mysql 语句优化技巧
前言有人反馈之前几篇文章过于理论缺少实际操作细节,这篇文章就多一些可操作性的内容吧. 注:这篇文章是以 MySQL 为背景,很多内容同时适用于其他关系型数据库,需要有一些索引知识为基础. 优化目标 ...
ACE反应器(Reactor)模式(1)
转载于:http://www.cnblogs.com/TianFang/archive/2006/12/13/591332.html 1．ACE反应器框架简介反应器(Reactor):用于事件多路分 ...
ACE主动对象模式(1)
转载于:http://www.cnblogs.com/TianFang/archive/2006/12/11/589168.html 主动对象模式用于降低方法执行和方法调用之间的耦合.该模式描述了另外 ...
printk打印机别
1.查看当前控制台的打印级别 cat /proc/sys/kernel/printk 4 4 1 7 其中第一个“4”表示内核打印函数printk的打印级别,只有级别比他高的信息才能 ...
JN5169 --------- zigbee代码
队列: 需要创建3个标准队列(只创建不使用): ------Queue with handle zps_msgMlmeDcfmInd to receive IEEE 802.15.4 MACcomma ...

python爬虫模块之调度模块

python爬虫模块之调度模块的更多相关文章

随机推荐

热门专题