crawler4j 学习（二）

实现控制器类以制定抓取的种子（seed）、中间数据存储的文件夹、并发线程的数目：

public class Controller {

    public static void main(String[] args) throws Exception {

        String crawlStorageFolder = "/data/crawl/root";

        int numberOfCrawlers = 7;

        CrawlConfig config = new CrawlConfig();

        config.setCrawlStorageFolder(crawlStorageFolder);

        /*

         * Instantiate the controller for this crawl.

         */

        PageFetcher pageFetcher = new PageFetcher(config);

        RobotstxtConfig robotstxtConfig = new RobotstxtConfig();

        RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);

        CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer);

        /*

         * For each crawl, you need to add some seed urls. These are the first

         * URLs that are fetched and then the crawler starts following links

         * which are found in these pages

         */

        controller.addSeed("http://www.ics.uci.edu/~lopes/");

        controller.addSeed("http://www.ics.uci.edu/~welling/");

        controller.addSeed("http://www.ics.uci.edu/");

        /*

         * Start the crawl. This is a blocking operation, meaning that your code

         * will reach the line after this only when crawling is finished.

         */

        controller.start(MyCrawler.class, numberOfCrawlers);

    }

}

配置介绍

控制器类必须传一个类型为CrawlConfig的参数，用于配置crawler4j。下面描述了一些关于配置的细节。

抓取深度

默认情况下没有抓取深度的限制。可以通过配置来限制深度，比如，你有个种子页面A连接到B，B又连接到C，C又连接到D。结构如下：

A --> B --> C --> D

A是种子页面深度为0，B为1，C、D以此类推。如：当设置抓取深度是2是，就不会抓取页面D。抓取最大深度通过以下代码配置：

crawlConfig.setMaxDepthOfCrawling(maxDepthOfCrawling);

页面抓取的最大数量

默认情况下没有抓取数量限制，可以通过以下代码配置：

crawlConfig.setMaxPagesToFetch(maxPagesToFetch);

其他限制

crawler4j是高效的，有着极快的抓取能力（比如：每秒可以抓取200个Wikipedia页面）。然而，这会给服务器带来很大的负荷（而服务器可能会阻断你的请求！）。所以，从1.3版开始，默认情况下，crawler4j每次请求前等待200毫秒。但是这个参数可以修改：

crawlConfig.setPolitenessDelay(politenessDelay);

代理

使用下代码配置爬虫通过代理：

crawlConfig.setProxyHost("proxyserver.example.com");

crawlConfig.setProxyPort(8080);

如果你的代理需要认证：

crawlConfig.setProxyUsername(username);

crawlConfig.getProxyPassword(password);

抓取恢复

有时爬虫需要运行很长时间，但中途可能意外终止了。这种情况下，可以通过以下配置恢复停止/崩溃的爬虫：

crawlConfig.setResumableCrawling(true);

crawler4j 学习（二）的更多相关文章

crawler4j 学习
crawler4j 学习(一) crawler4j是一个轻量级多线程网络爬虫,开发者可以调用相应的接口在短时间内创建一个多线程网络爬虫. 前期准备使用maven 为了使用最近版本的crawler4j ...
emberjs学习二(ember-data和localstorage_adapter)
emberjs学习二(ember-data和localstorage_adapter) 准备工作首先我们加入ember-data和ember-localstorage-adapter两个依赖项,使用 ...
ReactJS入门学习二
ReactJS入门学习二阅读目录 React的背景和基本原理理解React.render() 什么是JSX? 为什么要使用JSX? JSX的语法如何在JSX中如何使用事件如何在JSX中如何使用 ...
TweenMax动画库学习(二)
目录 TweenMax动画库学习(一) TweenMax动画库学习(二) TweenMax动画库学习(三) Tw ...
Hbase深入学习(二) 安装hbase
Hbase深入学习(二) 安装hbase This guidedescribes setup of a standalone hbase instance that uses the local fi ...
Struts2框架学习(二) Action
Struts2框架学习(二) Action Struts2框架中的Action类是一个单独的javabean对象.不像Struts1中还要去继承HttpServlet,耦合度减小了. 1,流程拦截器 ...
Python学习二：词典基础详解
作者:NiceCui 本文谢绝转载,如需转载需征得作者本人同意,谢谢. 本文链接:http://www.cnblogs.com/NiceCui/p/7862377.html 邮箱:moyi@moyib ...
Quartz学习--二 Hello Quartz! 和源码分析
Quartz学习--二 Hello Quartz! 和源码分析三. Hello Quartz! 我会跟着第一章 6.2 的图来进行同步代码编写简单入门示例: 创建一个新的java普通工程 ...
SpringCloud学习(二)：微服务入门实战项目搭建
一.开始使用Spring Cloud实战微服务 1.SpringCloud是什么? 云计算的解决方案?不是 SpringCloud是一个在SpringBoot的基础上构建的一个快速构建分布式系统的工具 ...

随机推荐

统计SqlServer每张表内的数据量
CREATE TABLE #temp (TableName VARCHAR (255), RowCnt INT)EXEC sp_MSforeachtable 'INSERT INTO #temp SE ...
关于学习angularJS 的一些心得
从一开始接触到 angularJS 的时候,一头雾水啊. 下面根据学习资料,主要来阐述一点,关于angularJS学习中需要注意的点 1.angularJS 是可以做到MVC 模式 2.angula ...
错误 Metadata file 'C:\Common\bin\Debug\Common.dll' could not be found
一个通用方法de类库/总是报这个错误/很明显就是没有成功生成程序集... 但是就是找不到哪里的错误!!!! 如果是代码写错的话,可能会直接提示在哪个文件中哪行代码写错了,然后dll生成不了,但是这个错 ...
【Go入门教程3】流程（if、goto、for、switch）和函数（多个返回值、变参、传值与传指针、defer、函数作为值/类型、Panic和Recover、main函数和init函数、import）
这小节我们要介绍Go里面的流程控制以及函数操作. 流程控制流程控制在编程语言中是最伟大的发明了,因为有了它,你可以通过很简单的流程描述来表达很复杂的逻辑.Go中流程控制分三大类:条件判断,循环控制和 ...
dos 操作显示 > nul 2>nul
1>nul 屏蔽操作成功显示的信息,但是出错还是会显示(同 >nul)2>nul 屏蔽操作失败显示的信息,但是成功还是会显示>nul 2>nul 就是正确的错误的一起屏蔽 ...
单词words
论一类脑筋急转弯题和奇技淫巧题的解题技巧 [题意] 给定n个长为m且只包含xyz的字符串,定义两个字符串的相似程度为它们对应位置相同字符个数(比如xyz和yyz的相似程度为2,后两位相同),分别求出相 ...
android 获取Datepicker日期
1.使用的Android5.0系统,实现上面效果使用了alertdialog 2.布局文件: layout_dataselect <?xml version="1.0" en ...
如何更高效地定制你的bootstrap
bootstrap已经作为前端开发必不可少的框架之一,应用bootstrap使得我们对布局.样式的设定变得非常简单.但bootstrap提供的默认样式往往不能满足我们的需求,从而定制化bootstra ...
常用语句if,for,while
一.变量赋值 a = 3 b = a a = 5 print a,b 5,3 变量命名规则: 1.显式 2.nums_of_alex_gf = 19 3.NumsOfAlexGf = 2 4. ...
android 图片缓存
一.Picasso https://github.com/square/picasso Picasso是Square公司开源的一个Android平台上的图片加载框架,简单易用,一句话搞定项目中的图片加 ...

crawler4j 学习（二）

crawler4j 学习（二）

配置介绍

抓取深度

页面抓取的最大数量

其他限制

代理

抓取恢复

crawler4j 学习（二）的更多相关文章

随机推荐

热门专题