webmagic源码学习(一)

　　最近工作主要是一些爬虫相关的东西，由于公司需要构建自己的爬虫框架，在调研过程中参考了许多优秀的开源作品，包括webmagic，webcollector,Spiderman等，通过学习这些优秀的源码获益良多。

webmagic是一个简单灵活的爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。(官网地址：http://webmagic.io/)

本篇是webmagic源码阅读第一篇，主要探讨webmagic的核心机制，即一个BFS的爬虫是如何构建出来的。

webmagic分为以下四大组件，Downloader(页面下载器),Scheduler(下载调度器),PageProcessor(页面解析器),Pipeline(管道组件，通常做将抓取结果入库写文件等操作)

（图片来自官网）

以上四个组件由Spider组件组装起来，爬取数据时协同工作。我们先研究webmagic的核心类Spider。

在Spider中的run()方法中可以清晰的看到典型的BFS代码，通过一个循环不断地从scheduler中的内存队列中取一个抓取任务(Request)并进行相应处理(processRequest)，如果抓取成功则回调监听器中的onSuccess()方法，失败则调用onError()方法,最后将已抓取页面的数量自增。如果队列中没有任何抓取任务了，爬虫会在这里停一会防止有新的任务

加入(waitNewURL()),当然，这里的暂停时间是由你自己决定的。

最后，如果等待一段时间后队列中仍没有请求，退出循环，将爬虫的状态改为停止并释放资源。

     /**

     * 爬虫的核心方法，广度优先遍历

     */

    @Override

    public void run() {
        //检查爬虫状态:初始化，抓取中，停止

        checkRunningStat();

        //初始化爬虫组件

        initComponent();

        logger.info("Spider " + getUUID() + " started!");

        //注意，这里的stat状态是一个CAS变量，保证了多线程访问的安全性

        //这里是一个BFS算法

        while (!Thread.currentThread().isInterrupted() && stat.get() == STAT_RUNNING) {

            final Request request = scheduler.poll(this);

            if (request == null) {

                if (threadPool.getThreadAlive() == 0 && exitWhenComplete) {

                    break;

                }

                // wait until new url added

                //队列为空时等待一会以防有新URL加入

                waitNewUrl();

            } else {

                threadPool.execute(new Runnable() {

                    @Override

                    public void run() {

                        try {

                            //处理遍历到的request

                            processRequest(request);

                            //成功时回调我们注册的所有SpiderListener中的onSuccess()方法

                            onSuccess(request);

                        } catch (Exception e) {

                            //失败时回调我们注册的所有SpiderListener中的onError()方法

                            onError(request);

                            logger.error("process request " + request + " error", e);

                        } finally {

                            //抓取总数自增，这里同样是一个CAS操作

                            pageCount.incrementAndGet();

                            signalNewUrl();

                        }

                    }

                });

            }

        }

        stat.set(STAT_STOPPED);

        // release some resources

        if (destroyWhenExit) {

            close();

        }

    }

　　需要注意的是，这里无论是爬虫的状态变量检查还是最后的自增变量(pageCount)都是CAS操作，因为我们的大多数情况下都会为爬虫开多个线程(当然，你要确保你的

爬虫不会被网站封禁，而且最好也不要开过多线程，避免给对方服务器造成太大压力)。

这里的另一个核心方法是processRequest(见下图)，对于从scheduler中取到的每个抓取请求，都会做如下操作:

1.页面下载：首先使用Downloader进行网页下载，获取网页对象Page，如果抓取内容为空，说明抓取出现错误，回调Listener中的onError方法并退出。

2.页面解析：接下来Spider会回调我们自己写的pageProcessor中的process方法，由于每个网页都有自己的特点，所以需要我们自己进行处理。

3.新URL抽取：如果事先定义了爬虫需要循环抓取(needCycleRetry)则从当前页面中抽取新的链接并放入调度队列中

4.数据入库/写文件：Spider回调我们注册的所有pipline,在pipline中我们通常会将结果诸如入库，写文件或简单输出到控制台(webmagic默认支持)。

    /**

     * 处理队列中的某个请求

     * @param request

     */

    protected void processRequest(Request request) {

        Page page = downloader.download(request, this);

        if (page == null) {

            sleep(site.getSleepTime());

            onError(request);

            return;

        }

        // for cycle retry

        if (page.isNeedCycleRetry()) {

            extractAndAddRequests(page, true);

            sleep(site.getRetrySleepTime());

            return;

        }

        //注意，在这里回调了我们自己写的process方法

        pageProcessor.process(page);

        //提取链接并放入调度队列中

        extractAndAddRequests(page, spawnUrl);

        //顺序调用我们注册的pipline，在pipline通常将结果入库，写文件

        if (!page.getResultItems().isSkip()) {

            for (Pipeline pipeline : pipelines) {

                pipeline.process(page.getResultItems(), this);

            }

        }

        sleep(site.getSleepTime());

    }

接下来，我们探讨一下爬虫的另一个核心组件Scheduler(任务调度器)，以下代码是webmagic中调度器的接口，我们可以看到，它仅仅需要支持两个操作，插入待抓取

链接(push)和取链接(poll)

 public interface Scheduler {

     /**

      * add a url to fetch

      *

      * @param request request

      * @param task task

      */

     public void push(Request request, Task task);

     /**

      * get an url to crawl

      *

      * @param task the task of spider

      * @return the url to crawl

      */

     public Request poll(Task task);

 }

下面的代码是webmagic默认提供的任务调度器，由于内存中的任务需要进行性排重，我们可以看到webmagic默认使用了HashSet排重，有可能你会说使用单机内存进

行排重会OOM，事实上在webmagic-extension(webmagic的扩展包)里支持其他几种排重方式，包括Redis排重，布隆过滤器排重(如果不了解的话可以维基一下)。当然，

如果使用布隆过滤器的话会有一定的误差。

public abstract class DuplicateRemovedScheduler implements Scheduler {

    protected Logger logger = LoggerFactory.getLogger(getClass());

    //可以看到，webmagic默认使用HashSet进行链接去重

    private DuplicateRemover duplicatedRemover = new HashSetDuplicateRemover();

    public DuplicateRemover getDuplicateRemover() {

        return duplicatedRemover;

    }

    public DuplicateRemovedScheduler setDuplicateRemover(DuplicateRemover duplicatedRemover) {

        this.duplicatedRemover = duplicatedRemover;

        return this;

    }

    @Override

    public void push(Request request, Task task) {

        logger.trace("get a candidate url {}", request.getUrl());

        if (shouldReserved(request) || noNeedToRemoveDuplicate(request) || !duplicatedRemover.isDuplicate(request, task)) {

            logger.debug("push to queue {}", request.getUrl());

            pushWhenNoDuplicate(request, task);

        }

    }

    protected boolean shouldReserved(Request request) {

        return request.getExtra(Request.CYCLE_TRIED_TIMES) != null;

    }

    /**

     * 判断是否需要去重，如果是一个POST请求则不进行去重

     */

    protected boolean noNeedToRemoveDuplicate(Request request) {

        return HttpConstant.Method.POST.equalsIgnoreCase(request.getMethod());

    }

    protected void pushWhenNoDuplicate(Request request, Task task) {

    }

}

　　在上图中，我们可以看到，在webmagic中默认不对POST请求进行排重(或许是POST参数的原因)，在实际工作中，你也可以对这里进行修改，比如对POST请求的URL+Request Body做一个MD5操作，再将其放入队列中，这样会浪费一些计算时间，但可以对POST请求进行排重，也可以节省一些内存开销。

webmagic源码学习(一)的更多相关文章

Java集合专题总结（1）：HashMap 和 HashTable 源码学习和面试总结
2017年的秋招彻底结束了,感觉Java上面的最常见的集合相关的问题就是hash--系列和一些常用并发集合和队列,堆等结合算法一起考察,不完全统计,本人经历:先后百度.唯品会.58同城.新浪微博.趣分 ...
jQuery源码学习感想
还记得去年(2015)九月份的时候,作为一个大四的学生去参加美团霸面,结果被美团技术总监教育了一番,那次问了我很多jQuery源码的知识点,以前虽然喜欢研究框架,但水平还不足够来研究jQuery源码, ...
MVC系列——MVC源码学习：打造自己的MVC框架（四：了解神奇的视图引擎）
前言:通过之前的三篇介绍,我们基本上完成了从请求发出到路由匹配.再到控制器的激活,再到Action的执行这些个过程.今天还是趁热打铁,将我们的View也来完善下,也让整个系列相对完整,博主不希望烂尾. ...
MVC系列——MVC源码学习：打造自己的MVC框架（三：自定义路由规则）
前言:上篇介绍了下自己的MVC框架前两个版本,经过两天的整理,版本三基本已经完成,今天还是发出来供大家参考和学习.虽然微软的Routing功能已经非常强大,完全没有必要再“重复造轮子”了,但博主还是觉 ...
MVC系列——MVC源码学习：打造自己的MVC框架（二：附源码）
前言:上篇介绍了下 MVC5 的核心原理,整篇文章比较偏理论,所以相对比较枯燥.今天就来根据上篇的理论一步一步进行实践,通过自己写的一个简易MVC框架逐步理解,相信通过这一篇的实践,你会对MVC有一个 ...
MVC系列——MVC源码学习：打造自己的MVC框架（一：核心原理）
前言:最近一段时间在学习MVC源码,说实话,研读源码真是一个痛苦的过程,好多晦涩的语法搞得人晕晕乎乎.这两天算是理解了一小部分,这里先记录下来,也给需要的园友一个参考,奈何博主技术有限,如有理解不妥之 ...
我的angularjs源码学习之旅2——依赖注入
依赖注入起源于实现控制反转的典型框架Spring框架,用来削减计算机程序的耦合问题.简单来说,在定义方法的时候,方法所依赖的对象就被隐性的注入到该方法中,在方法中可以直接使用,而不需要在执行该函数的时 ...
ddms(基于 Express 的表单管理系统)源码学习
ddms是基于express的一个表单管理系统,今天抽时间看了下它的代码,其实算不上源码学习,只是对它其中一些小的开发技巧做一些记录,希望以后在项目开发中能够实践下. 数据层封装模块只对外暴露mod ...
leveldb源码学习系列
楼主从2014年7月份开始学习<>,由于书籍比较抽象,为了加深思考,同时开始了Google leveldb的源码学习,主要是想学习leveldb的设计思想和Google的C++编程规范.目 ...

随机推荐

（原创）我对未来的人类的发展，以及AI技术发展的一些思考。
最近AI非常的火,不仅仅是阿尔法狗的成功,因为它击败了人类最强的大脑,颠覆了人类几千年来的对传统的认识,也让人类意识到了一个问题:天外有天,人外有AI. 那么AI究竟会对人类的未来造成什么深远的影响 ...
jquery写日期选择器
跟上我的脚步,让我们来领略代码的世界! 使用jquery做一个日期时间选择器,最好使用bootstrap弹窗实现: (1)点击文本框弹出窗口: (2)弹窗里面显示日期时间选择下拉 (3)年份取当前年 ...
关于easyUI的datebox加失去焦点事件即click、blur等
想实现日期框easyui-datebox手动输入值,手动输入失去焦点判断输入值是否合法例如<input id="txtDate" type="text" ...
iOS多线程——同步异步串行并行
串行并行异步同步的概念很容易让人混淆,关于这几个概念我在第一篇GCD中有解释,但是还不够清晰,所以这里重写一篇博客专门对这几个概念进行区分: 先说一下队列和任务: (1)队列分为串行和并行,任务的执行 ...
在SSRS的每一页重复显示table header
现在在做一个关于SSRS报表展示的项目,但是我困顿在如何在table的每一页让table header重复显示.因为我在table属性中勾选了"Report header columns o ...
Ubuntu 16.04系统下出现E: 无法下载 http://ppa.launchpad.net/fcitx-team/nightly/ubuntu/dists/xenial/main/binary-amd64/Packages 404 Not Found
在安装完成Chrome浏览器后,终端执行以下更新命令 sudo apt-get update 时出现E: 无法下载 http://ppa.launchpad.net/fcitx-team/nightl ...
解决MVC中JsonResult返回弹出文件下载对话框
设置一下返回类型为HTML TEXT就可以了 JsonResult json = Json(xxx, JsonRequestBehavior.DenyGet); json.ContentType = ...
Babel指南——基本环境搭建
ECMAScript的现状 ECMAScript,本身是一个脚本语言的设计规范,基于此规范,有许多为人熟知的语言,如JavaScript.ActionScript等.而时至几年前,随着Node.js的 ...
RegExp类型（正则表达式）
直接量语法 /pattern/attributes 创建 RegExp 对象的语法: new RegExp(pattern, attributes); 一.attributes: 修饰符描述 i 执 ...
PHPSTORM下安装XDEBUG
本文不是教程安装XDEBUG,具体的请自行百度(我也是按照百度上的一步步来的). 以下纠正几点目前我安装时查看播客的不对之处: 1. Setting > PHP > DEBUG > ...

webmagic源码学习(一)

webmagic源码学习(一)的更多相关文章

随机推荐

热门专题