Storm介绍及核心组件和编程模型

离线计算

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示

代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度

流式计算

流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示

代表技术：Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

一句话总结：将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结果

离线计算和实时计算的区别

实时收集、实时计算、实时展示

Storm

Storm用来实时处理数据，特点：低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口，便于开发。

Storm和Hadoop的区别

（storm实时流处理，每秒可处理数万条消息；hadoop批处理，HDFS和MapReduce处理大量数据通常需要几分钟到几小时）

Storm用于实时计算，Hadoop用于离线计算。

Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批。

Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。

Storm与Hadoop的编程模型相似

Job：任务名称

JobTracker：项目经理

TaskTracker：开发组长、产品经理

Child:负责开发的人员

Mapper/Reduce:开发人员中的两种角色，一种是服务器开发、一种是客户端开发

Topology:任务名称

Nimbus:项目经理

Supervisor:开发组长、产品经理

Worker:开发人员

Spout/Bolt：开人员中的两种角色，一种是服务器开发、一种是客户端开发

Storm应用场景

Storm用来实时计算源源不断产生的数据，如同流水线生产一样。

l 日志分析

从海量日志中分析出特定的数据，并将分析的结果存入外部存储器用来辅佐决策。

l 管道系统

将一个数据从一个系统传输到另外一个系统，比如将数据库同步到Hadoop

l 消息转化器

将接受到的消息按照某种格式进行转化，存储到另外一个系统如消息中间件

Storm核心组件（重要）

Nimbus（主节点）：负责资源分配和任务调度。

Supervisor（从节点）：负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。worker的数量根据端口号来的！

Worker（进程）：运行具体处理组件逻辑的进程（其实就是一个JVM）。Worker运行的任务类型只有两种，一种是Spout任务，一种是Bolt任务。

Task（线程）：worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后，task不再与物理线程对应，不同spout/bolt的task可能会共享一个物理线程，该线程称为executor。task=线程=executor

Zookeeper（分布式协调服务） :保存任务分配的信息、心跳信息、元数据信息。

Storm编程模型（重要）

Topology：Storm中运行的一个实时应用程序的名称。（拓扑）

Spout：在一个topology中获取源数据流的组件。通常情况下spout会从外部数据源中读取数据，然后转换为topology内部的源数据。

Bolt：接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。

Tuple：一次消息传递的基本单元，理解为一组消息就是一个Tuple。

Stream：表示数据的流向。

流式计算一般架构图（重要）

l 其中Flume用来获取数据。

l Kafka用来临时保存数据。

l Strom用来计算数据。

l Redis是个内存数据库，用来保存数据。

Storm介绍及核心组件和编程模型的更多相关文章

storm介绍，核心组件，编程模型
一.流式计算概念利用分布式的思想和方法,对海量“流”式数据进行实时处理,源自业务对海量数据,在“时效”的价值上的挖掘诉求,随着大数据场景应用场景的增长,对流式计算的需求愈发增多,流式计算的一般架构图 ...
Storm 第一章核心组件及编程模型
1 流式计算流式计算:数据实时产生.实时传输.实时计算.实时展示代表技术:Flume实时获取数据.Kafka/metaq实时数据存储.Storm/JStorm实时数据计算.Redis实时结果缓存. ...
Storm集群组件和编程模型
Storm工作原理: Storm是一个开源的分布式实时计算系统,常被称为流式计算框架.什么是流式计算呢?通俗来讲,流式计算顾名思义:数据流源源不断的来,一边来,一边计算结果,再进入下一个流. 比 ...
第03讲：Flink 的编程模型与其他框架比较
Flink系列文章第01讲:Flink 的应用场景和架构模型第02讲:Flink 入门程序 WordCount 和 SQL 实现第03讲:Flink 的编程模型与其他框架比较本课时我们主要介绍 ...
第1节 storm编程：4、storm环境安装以及storm编程模型介绍
dataSource:数据源,生产数据的东西 spout:接收数据源过来的数据,然后将数据往下游发送 bolt:数据的处理逻辑单元.可以有很多个,基本上每个bolt都处理一部分工作,然后将数据继续往下 ...
storm的trident编程模型
storm的基本概念别人总结的, https://blog.csdn.net/pickinfo/article/details/50488226 编程模型最关键最难就是实现局部聚合的业务逻辑聚合类实现 ...
Storm架构和编程模型总结
1. 编程模型 DataSource:外部数据源 Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt Bolt:接受Spout发送的数 ...
Storm编程模型及组件流程图
一.Storm编程模型二.Storm组件流程图
Spark流式编程介绍 - 编程模型
来源Spark官方文档 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#programm ...

随机推荐

前端学习 -- Html&Css -- 相对定位绝对定位固定定位
相对定位 - 定位指的就是将指定的元素摆放到页面的任意位置,通过定位可以任意的摆放元素. - 通过position属性来设置元素的定位. -可选值: static:默认值,元素没有开启定位: rela ...
spring注入时报错：：No qualifying bean of type 'xxx.xxMapper'
做一个小项目,因为有 baseService,所以偷懒就没有写单独的每个xxService接口,直接写的xxServiceImpl,结果在service实现类中注入Mapper的时候,用的 @Auto ...
python的面向对象-实例（对象）的相关知识、实例化
1.对象就是实例,什么是实例类运行的过程就是实例化的过程,实例化产生的结果就是产生了一个实例 class的牛逼之处就是不用手动的return,他会加载完函数之后,自动return __init__ ...
bzoj千题计划201：bzoj1820: [JSOI2010]Express Service 快递服务
http://www.lydsy.com/JudgeOnline/problem.php?id=1820 很容易想到dp[i][a][b][c] 到第i个收件地点,三个司机分别在a,b,c 收件地点的 ...
Codeforces Round #481 (Div. 3) G. Petya's Exams
http://codeforces.com/contest/978/problem/G 感冒是真的受不了...敲代码都没力气... 题目大意: 期末复习周,一共持续n天,有m场考试每场考试有如下信息 ...
jq无缝滚动效果插件（之前的那个升级改造加强版）
scroll滚动插件支持上下左右,淡入淡出,滚动时间设置,动画时间设置,鼠标经过是否停止设置默认配置参数可修改 $(".content").easysroll({ //默认配置 ...
[转载]AngularJS学习笔记
http://www.zouyesheng.com/angular.html 关于AngularJS 关于本文档开始的例子依赖注入作用域数据绑定与模板 6.1. 数据->模板 6.2. ...
webp实践的javascript检测方案
function hasWebp () { // 查看Cookie,如果没有则进行以下逻辑 var img = new Image(); img.onload = handleSupport; img ...
Git常见错误处理
如果输入$ Git remote add origin git@github.com:djqiang(github帐号名)/gitdemo(项目名).git 提示出错信息:fatal: remo ...
python-super1
一.问题的发现与提出一般子类在继承父类后,若子类覆盖了父类,则只执行子类,不执行父类.如果没有,则执行父类代码. 发现使用super()后,子类,父类都会执行,比较疑惑,记录学习,super知识点 ...

Storm介绍及核心组件和编程模型

Storm介绍及核心组件和编程模型的更多相关文章

随机推荐

热门专题