该事例演示了如何在多线程中统计和分析数据;

首先建一个状态实体类CrawlStat:

package com.demo.collectingData;

/**
* 爬虫状态实体类 统计爬虫信息
* @author
*
*/
public class CrawlStat {
private int totalProcessedPages; //处理的页面总数
private long totalLinks; // 总链接数
private long totalTextSize; // 总文本长度 public int getTotalProcessedPages() {
return totalProcessedPages;
} public void setTotalProcessedPages(int totalProcessedPages) {
this.totalProcessedPages = totalProcessedPages;
} /**
* 总处理页面数加1
*/
public void incProcessedPages() {
this.totalProcessedPages++;
} public long getTotalLinks() {
return totalLinks;
} public void setTotalLinks(long totalLinks) {
this.totalLinks = totalLinks;
} public long getTotalTextSize() {
return totalTextSize;
} public void setTotalTextSize(long totalTextSize) {
this.totalTextSize = totalTextSize;
} /**
* 总链接数加count个
* @param count
*/
public void incTotalLinks(int count) {
this.totalLinks += count;
} /**
* 总文本长度加total个
* @param count
*/
public void incTotalTextSize(int count) {
this.totalTextSize += count;
}
}

再建一个LocalDataCollectorCrawler类:

package com.demo.collectingData;

import java.io.UnsupportedEncodingException;
import java.util.Set;
import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page;
import edu.uci.ics.crawler4j.crawler.WebCrawler;
import edu.uci.ics.crawler4j.parser.HtmlParseData;
import edu.uci.ics.crawler4j.url.WebURL; /**
* 该类演示了如何在多线程中统计和分析数据
* @author user
*
*/
public class LocalDataCollectorCrawler extends WebCrawler { // 正则匹配后缀
private static final Pattern FILTERS = Pattern.compile(
".*(\\.(css|js|bmp|gif|jpe?g|png|tiff?|mid|mp2|mp3|mp4|wav|avi|mov|mpeg|ram|m4v|pdf" +
"|rm|smil|wmv|swf|wma|zip|rar|gz))$"); CrawlStat myCrawlStat; // 定义爬虫状态对象,用户统计和分析 /**
* 构造方法
*/
public LocalDataCollectorCrawler() {
myCrawlStat = new CrawlStat(); // 实例化爬虫状态对象
} /**
* 这个方法主要是决定哪些url我们需要抓取,返回true表示是我们需要的,返回false表示不是我们需要的Url
* 第一个参数referringPage封装了当前爬取的页面信息
* 第二个参数url封装了当前爬取的页面url信息
*/
@Override
public boolean shouldVisit(Page referringPage, WebURL url) {
String href = url.getURL().toLowerCase(); // 获取url小写
return !FILTERS.matcher(href).matches() && href.startsWith("http://www.xxx.com"); // 必须是www.xxx.com域名
} /**
* 当我们爬到我们需要的页面,这个方法会被调用,我们可以尽情的处理这个页面
* page参数封装了所有页面信息
*/
@Override
public void visit(Page page) {
System.out.println("正在爬取页面:"+page.getWebURL().getURL());
myCrawlStat.incProcessedPages(); // 处理页面加1 if (page.getParseData() instanceof HtmlParseData) { // 假如是html数据
HtmlParseData parseData = (HtmlParseData) page.getParseData(); // 获取Html数据
Set<WebURL> links = parseData.getOutgoingUrls(); // 获取输出链接
myCrawlStat.incTotalLinks(links.size()); // 总链接加link.size个
try {
myCrawlStat.incTotalTextSize(parseData.getText().getBytes("UTF-8").length); // 文本长度增加
} catch (UnsupportedEncodingException ignored) {
// Do nothing
}
}
// 每获取3个页面数据 我们处理下数据
if ((myCrawlStat.getTotalProcessedPages() % 3) == 0) {
dumpMyData();
}
} /**
* 获取下爬虫状态
*/
@Override
public Object getMyLocalData() {
return myCrawlStat;
} /**
* 当任务完成时调用
*/
@Override
public void onBeforeExit() {
dumpMyData(); // 处理处理
} /**
* 处理数据
*/
public void dumpMyData() {
int id = getMyId();
System.out.println("当前爬虫实例id:"+id);
System.out.println("总处理页面:"+myCrawlStat.getTotalProcessedPages());
System.out.println("总链接长度:"+myCrawlStat.getTotalLinks());
System.out.println("总文本长度:"+myCrawlStat.getTotalTextSize());
}
}

最后建一个控制器LocalDataCollectorController:

package com.demo.collectingData;

import java.util.List;

import edu.uci.ics.crawler4j.crawler.CrawlConfig;
import edu.uci.ics.crawler4j.crawler.CrawlController;
import edu.uci.ics.crawler4j.fetcher.PageFetcher;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtConfig;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtServer; /**
* 爬虫控制器
* @author user
*
*/
public class LocalDataCollectorController { public static void main(String[] args) throws Exception { String rootFolder = "c:/crawl"; // 定义爬虫数据存储位置
int numberOfCrawlers = 2; // 定义7个爬虫,也就是7个线程 CrawlConfig config = new CrawlConfig(); // 定义爬虫配置
config.setCrawlStorageFolder(rootFolder); // 设置爬虫文件存储位置
config.setMaxPagesToFetch(10); // 设置最大页面获取数
config.setPolitenessDelay(1000); // 设置爬取策略 1秒爬一次 // 实例化爬虫控制器
PageFetcher pageFetcher = new PageFetcher(config); // 实例化页面获取器
RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); // 实例化爬虫机器人配置 比如可以设置 user-agent // 实例化爬虫机器人对目标服务器的配置,每个网站都有一个robots.txt文件 规定了该网站哪些页面可以爬,哪些页面禁止爬,该类是对robots.txt规范的实现
RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher); // 实例化爬虫控制器
CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer); controller.addSeed("http://www.xxx.com"); // 添加爬虫种子 // 启动爬虫,爬虫从此刻开始执行爬虫任务,根据以上配置
controller.start(LocalDataCollectorCrawler.class, numberOfCrawlers); List<Object> crawlersLocalData = controller.getCrawlersLocalData(); // 当多个线程爬虫完成任务时,获取爬虫本地数据
long totalLinks = 0;
long totalTextSize = 0;
int totalProcessedPages = 0;
for (Object localData : crawlersLocalData) {
CrawlStat stat = (CrawlStat) localData;
totalLinks += stat.getTotalLinks();
totalTextSize += stat.getTotalTextSize();
totalProcessedPages += stat.getTotalProcessedPages();
} // 打印数据
System.out.println("统计数据:");
System.out.println("总处理页面:"+totalProcessedPages);
System.out.println("总链接长度:"+totalLinks);
System.out.println("总文本长度:"+totalTextSize);
}
}

打印结果:

正在爬取页面:http://www.xxx.com/
正在爬取页面:http://www.xxx.com/share/2814499085634560.htm
正在爬取页面:http://www.xxx.com/share/2519215530527744.htm
正在爬取页面:http://www.xxx.com/share/2783070349888512.htm
当前爬虫实例id:2
总处理页面:3
总链接长度:672
总文本长度:22295
正在爬取页面:http://www.xxx.com/share/2769260213275648.htm
正在爬取页面:http://www.xxx.com/share/kredis-p1-s1.htm
正在爬取页面:http://www.xxx.com/share/kswing-p1-s1.htm
当前爬虫实例id:2
总处理页面:6
总链接长度:1299
总文本长度:46674
正在爬取页面:http://www.xxx.com/share/kcodehaus-p1-s1.htm
正在爬取页面:http://www.xxx.com/user/2176279510861824.htm
正在爬取页面:http://www.xxx.com/blog/2881413902666752.htm
当前爬虫实例id:2
总处理页面:9
总链接长度:1617
总文本长度:90618
当前爬虫实例id:1
总处理页面:1
总链接长度:326
总文本长度:10321
当前爬虫实例id:2
总处理页面:9
总链接长度:1617
总文本长度:90618
统计数据:
总处理页面:10
总链接长度:1943
总文本长度:100939

  

crawler4j多线程爬虫统计分析数据的更多相关文章

  1. Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)

    1. 多进程爬虫 对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类 ...

  2. etlpy: 并行爬虫和数据清洗工具(开源)

    etlpy是python编写的网页数据抓取和清洗工具,核心文件etl.py不超过500行,具备如下特点 爬虫和清洗逻辑基于xml定义,不需手工编写 基于python生成器,流式处理,对内存无要求 内置 ...

  3. python多线程爬虫设计及实现示例

    爬虫的基本步骤分为:获取,解析,存储.假设这里获取和存储为io密集型(访问网络和数据存储),解析为cpu密集型.那么在设计多线程爬虫时主要有两种方案:第一种方案是一个线程完成三个步骤,然后运行多个线程 ...

  4. python爬虫入门(四)利用多线程爬虫

    多线程爬虫 先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进 ...

  5. [原创]一款小巧、灵活的Java多线程爬虫框架(AiPa)

    1.简介 AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架. AiPa 依赖当下最简单的HTML解析器Jsoup. AiPa 只需要使用者提供网址集合,即可在多线程下自动爬取,并对一些异常进行处理 ...

  6. python多线程爬虫+批量下载斗图啦图片项目(关注、持续更新)

    python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片 使用工具:requests ...

  7. 洗礼灵魂,修炼python(88)-- 知识拾遗篇 —— 线程(2)/多线程爬虫

    线程(下) 7.同步锁 这个例子很经典,实话说,这个例子我是直接照搬前辈的,并不是原创,不过真的也很有意思,请看: #!usr/bin/env python #-*- coding:utf-8 -*- ...

  8. Python爬虫开发【第1篇】【多线程爬虫及案例】

    糗事百科爬虫实例: 地址:http://www.qiushibaike.com/8hr/page/1 需求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户 ...

  9. 【python3两小时快速入门】入门笔记03:简单爬虫+多线程爬虫

    作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...

随机推荐

  1. ios - masonry第三方库使用自动布局(参考:http://www.cocoachina.com/ios/20141219/10702.html)

    #import "ViewController.h" #import "Masonry.h" #define kWeakSelf(weakSelf) __wea ...

  2. 用 JS + LeanCloud 给网页添加数据库(留言功能)

    记录给自己网页添加留言功能的过程. 使用工具:LeanCloud,一个自带数据库和增删改查(CRUD)功能的后台系统. 1 在JS中引入LeanCloud官方库 在LeanCloud注册并添加应用的步 ...

  3. CSS简单入门

    - Java攻城狮学习路线 - 一. 什么是CSS CSS指层叠样式表(Cascading Style Sheets),定义如何显示HTML元素 二. CSS语法 /* 选择器 { 声明: 声明:}* ...

  4. vuejs开发H5页面总结

    最近参与了APP内嵌H5页面的开发,这次使用vuejs替代了jQuery,仅仅把vuejs当做一个库来使用,效率提高之外代码可读性更强,在此分享一下自己的一些开发中总结的经验. 关于布局方案 当拿到设 ...

  5. Redux入门

    Redux入门 本文转载自:众成翻译 译者:miaoYu 链接:http://www.zcfy.cc/article/4728 原文:https://bumbu.github.io/simple-re ...

  6. (转)基于MVC4+EasyUI的Web开发框架经验总结(2)- 使用EasyUI的树控件构建Web界面

    http://www.cnblogs.com/wuhuacong/p/3669575.html 最近花了不少时间在重构和进一步提炼我的Web开发框架上,力求在用户体验和界面设计方面,和Winform开 ...

  7. Java中的常量

    常量的概念 是指在Java程序中固定不变的数据.我们可以理解为是一种特殊的变量,它的值被设定后,在程序运行过程中不允许改变. 常量的分类 整数常量:  所有的整数   例如 100 -100 123 ...

  8. WebStorm 配置 svn

    1.下载 SlikSVN.   2.安装.路径 D:\Program Files\slik\bin.   3.在WebStorm中配置 file->settings->Version Co ...

  9. Windows环境下制作MACOS X U盘安装盘

    前两天在朋友的MAC BOOK AIR上胡乱操作时把原来安装好的双系统搞坏了,一不小心又把硬盘格式化了,导致MAC系统也没了,于是只能重新安装MACOS系统,并根据网友提供的教程,在MACOS安装OK ...

  10. 前端开发—BOM对象DOM文档对象操作

    BOM 浏览器对象 BOM:Browser Object Model 操作浏览器,需要调用window对象,它是所有浏览器都支持的对象,表示的就是浏览器窗口 window对象可以通过点调用子对象 wi ...