分类

分布式网络爬虫包含多个爬虫，每个爬虫需要完成的任务和单个的爬行器类似，它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务，可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中，或者分散在不同的地理位置。

根据爬虫的分散程度不同，可以把分布式爬行器分成以下两大类：

1、基于局域网分布式网络爬虫：这种分布式爬行器的所有爬虫在同一个局域网里运行，通过高速的网络连接相互通信。这些爬虫通过同一个网络去访问外部互联网，下载网页，所有的网络负载都集中在他们所在的那个局域网的出口上。由于局域网的带宽较高，爬虫之间的通信的效率能够得到保证；但是网络出口的总带宽上限是固定的，爬虫的数量会受到局域网出口带宽的限制。

2、基于广域网分布式网络爬虫：当并行爬行器的爬虫分别运行在不同地理位置（或网络位置），我们称这种并行爬行器为分布式爬行器。例如，分布式爬行器的爬虫可能位于中国，日本，和美国，分别负责下载这三地的网页；或者位于CHINANET，CERNET，CEINET，分别负责下载这三个网络的中的网页。分布式爬行器的优势在于可以子在一定程度上分散网络流量，减小网络出口的负载。如果爬虫分布在不同的地理位置（或网络位置），需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。爬虫之间的通讯带宽可能是有限的，通常需要通过互联网进行通信。

大型分布式网络爬虫体系结构图

分布式网络爬虫是一项十分复杂系统。需要考虑很多方面因素。性能可以说是它这重要的指标。当然硬件层面的资源也是必须的。

架构

下面是项目的总体架构，第一个版本基于此方案来做。

上面的web层包括：控制台、基本权限、监控展示等，还可以根据需要再一步进行扩展。

核心层由控制者统一调度，将任务发给工人队列中的工人进行爬取操作。各个结点动态的向监控模块发送模块状态等信息，统一由展示层展示。

项目目标

众推，开源版的今日头条！

基于hadoop思维的分布式网络爬虫。

目前已经将fourinone、jeesite、webmagic整合进来，并且进一步进行改进。想最终做成一个基于设计器的动态可配置的分布式爬虫系统，这个是第一阶段的目标。

项目目前情况

目前项目进展情况：

1、sourceer，可以接入多种数据源，接口已经定义（加入builder封装，可以使用简单爬虫）。

2、web架构工程（web工程上传并测试成功，权限、基础框架改造，导入等已经录成视频，删除activiti，删除cms部分）。

3、分布式框架研究（分布式项目分包，添加部分注释，测试单机单工人爬取）。

4、插件化整合。

5、文章等各种去重方式及算法（目前已实现bloomfilter，指纹算法去重，已经实现simhash，分词算法（ansj））。

6、分类器测试（bayes，文本分类单机测试成功）。

项目地址：

（分布式爬虫）http://git.oschina.net/zongtui/zongtui-webcrawler

（去重过滤器）https://git.oschina.net/zongtui/zongtui-filter

（文本分类器）https://git.oschina.net/zongtui/zongtui-classifier

（文档目录）https://git.oschina.net/zongtui/zongtui-doc

项目界面：

启动jetty，目前皮肤暂时还未换。

总结

目前项目正在进一步完善当中，希望能得到你更多的意见！

基于java的分布式爬虫的更多相关文章

python 全栈开发，Day140(RabbitMQ,基于scrapy-redis实现分布式爬虫)
一.RabbitMQ 队列在生产者消费模型中,比如去餐馆吃饭的例子.生产者相当于厨师,队列相当于服务员,消费者就是你. 我们必须通过服务员,才能吃饭! 如果队列满了,队列会一直hold住.必须让消费 ...
基于 Scrapy-redis 的分布式爬虫详细设计
基于 Scrapy-redis 的分布式爬虫设计目录前言安装环境 Debian / Ubuntu / Deepin 下安装 Windows 下安装基本使用初始化项目创建爬虫运行爬虫 ...
基于scrapy-redis的分布式爬虫
一.介绍 1.原生的scrapy框架原生的scrapy框架是实现不了分布式的,其原因有: 1. 因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
爬虫--Scrapy-CrawlSpider&基于CrawlSpide的分布式爬虫
CrawlSpider 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调par ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis将任务队列push进redis
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取.但是当我们要爬取的页面非常多的时候,单个服务器的处理能力就不能满足我们的需求了(无论是处理速度还是网络请 ...
在阿里云Centos7.6上面部署基于Redis的分布式爬虫Scrapy-Redis
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_83 Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取.但是当我们要爬取的页面非常多的 ...
基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL
为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简 ...
基于Java的开源爬虫框架WebCollector的使用
一.WebCollector介绍 WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. WebCollecto ...

随机推荐

死磕内存篇 --- JAVA进程和linux内存间的大小关系
运行个JAVA 用sleep去hold住 package org.hjb.test; public class TestOnly { public static void main(String[] ...
CSS HTML元素布局及Display属性
本篇文章主要介绍HTML的内联元素.块级元素的分类与布局,以及dispaly属性对布局的影响. 目录 1. HTML 元素分类:介绍内联元素.块级元素的分类. 2. HTML 元素布局:介绍内联元素. ...
ExtJS 4.2 组件的查找方式
组件创建了,就有方法找到这些组件.在DOM.Jquery都有各自的方法查找元素/组件,ExtJS也有自己独特的方式查找组件.元素.本次从全局查找.容器内查找.form表单查找.通用组件等4个方面介绍组 ...
centos7+mono4+jexus5.6.2安装过程中的遇到的问题
过程参考: http://www.linuxdot.net/ http://www.jexus.org/ http://www.mono-project.com/docs/getting-starte ...
NET Core-学习笔记（四）
经过前面分享的三篇netcore心得再加上本篇分享的知识,netcore大部分常用知识应该差不多了,接下来将不会按照章节整合一起分享,因为涉及到的东西整合到一起篇幅太大了,所以后面分享将会按照某一个知 ...
JDBC增加删除修改
一.配置程序--让我们程序能找到数据库的驱动jar包 1.把.jar文件复制到项目中去,整合的时候方便. 2.在eclipse项目右击"构建路径"--"配置构建路径&qu ...
git init和git init -bare区别
1 Git init 和 git init –bare 的区别用"git init"初始化的版本库用户也可以在该目录下执行所有git方面的操作.但别的用户在将更新push上来的 ...
转: 解决Github访问超慢问题
转自:http://zengrong.net/post/2092.htm 解决Github访问超慢问题 Github is so slowly. 这段时间访问 github 都非常慢,google了一 ...
Java集合---ConcurrentHashMap原理分析
集合是编程中最常用的数据结构.而谈到并发,几乎总是离不开集合这类高级数据结构的支持.比如两个线程需要同时访问一个中间临界区(Queue),比如常会用缓存作为外部文件的副本(HashMap).这篇文章主 ...
mono3.2和monodevelop4.0在ubuntu12.04上两天的苦战
首先第一步是设置ubuntu server 12.04版更新源,推荐中科大的比较快:deb http://debian.ustc.edu.cn/ubuntu/ precise main multive ...

基于java的分布式爬虫

分类

大型分布式网络爬虫体系结构图

架构

项目目标

项目目前情况

总结

基于java的分布式爬虫的更多相关文章

随机推荐

热门专题