apache storm基本原理及使用总结

什么是Apache Storm Apache Storm是一个分布式实时大数据处理系统.Storm设计用于在容错和水平可扩展方法中处理大量数据.它是一个流数据框架,具有最高的摄取率.虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态.通过Storm可以并行地对实时数据执行各种操作.Storm易于部署和操作,并且它可以保证每个消息将通过拓扑至少处理一次. Apache Storm核心概念 Apache Storm从一端读取实时数据的原始流,并将其传递通过一…

Apache Storm 的历史及经验教训——Nathan Marz【翻译】

英文原文地址中英文对照地址 History of Apache Storm and lessons learned --项目创建者 Nathan Marz Apache Storm 最近成为了ASF的顶级项目,这对于该项目和我个人而言是一个重大的里程碑.很难想像4年前Storm只是我脑海中的一个想法,但现在却成为了一个有着大社区支持并被无数企业使用的繁荣项目.在此我将在本文中回首Storm的成长历程及其经验教训. 我会根据我当初必须要克服的主要挑战来涵盖Storm历史的相关主题.本文前25%是…

Apache Storm 与 Spark：对实时处理数据，如何选择【翻译】

原文地址实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面).然而尽管人们多年来一直在对此类方案进行探讨,我却发现很多企业实际上尚未就此规划出明确发展思路.甚至没能真正意识到其中蕴含的巨大效益. 为什么会这样?一大原因在于目前市场上的实时商务智能与分析工具仍然非常有限.传统数据仓库环境针对的主要是批量处理流程,这类方案要么延迟极高.要么成本惊人--当然,也可能二者兼具. 然而已经有多款强大而且易于使用的开源平台开始兴起,欲彻底扭转目前的不利局面.其中…

从Apache Storm学到的经验教训 —— storm的由来（转）

阅读目录 Storm来源初探再探构建第一个版本被Twitter收购开源的Storm 发布之后 Storm的技术演进构建开发者社区版离开Twitter 提交到Apache Apache孵化结论 Apache Storm 最近成为了ASF的顶级项目,这对于该项目和我个人而言是一个重大的里程碑.很难想像4年前Storm只是我脑海中的一个想法,但现在却成为了一个有着大社区支持并被无数企业使用的繁荣项目.在此我将在本文中回首Storm的成长历程及其经验教训. 我会根据我当初必须要克服的主要…

Apache Storm 衍生项目之2 -- Trident-ML

欢迎转载,转载请注明出处,徽沪一郎,谢谢. 楔子或许谈起storm是大数据实时计算框架已经让你不明觉厉,如果说storm还可以跟机器学习算法(ml)有机的结合在一起,是不是更加觉着高大尚呢.trident-ml就是一个这样让人无限遐想的产品. 其实要讲trident-ml无非是要回答这样几个问题, 什么是ml 什么是trident 为什么要将trident用于ml trident-ml的官方站点 https://github.com/pmerienne/trident-ml 什么是ml 关于…

Apache Storm技术实战之1 -- WordCountTopology

欢迎转载,转载请注意出处,徽沪一郎. “源码走读系列”从代码层面分析了storm的具体实现,接下来通过具体的实例来说明storm的使用.因为目前storm已经正式迁移到Apache,文章系列也由twitter storm转为apache storm. WordCountTopology 使用storm来统计文件中的每个单词的出现次数. 通过该例子来说明tuple发送时的几个要素 source component 发送源 destination component 接收者 stream 消息通…

Apache Storm简介

Apache Storm简介 Storm是一个分布式的,可靠的,容错的数据流处理系统.Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt.一个Storm集群就是在一连串的bolt之间转换spout传过来的数据. Storm组件在Storm集群中,有两类节点:主节点master node和工作节点worker nodes.主节点运行Nimbus守护进程,这个守护进程负责在集群中分发代码,为工…

Apache Storm 1.1.0 发布概览

写在前面的话本人长期关注数据挖掘与机器学习相关前沿研究.欢迎和我交流,私人微信:846731084 我自己测试了一下这个版本,总的来说更加稳定,新增的特性并没有一一测试,仅凭kafk-client来说,是达到了生产环境的使用. 使用阿里云服务器的话,使用清华的节点下载是巨快的.(http://mirrors.tuna.tsinghua.edu.cn/apache/storm/apache-storm-1.1.0/apache-storm-1.1.0.tar.gz) Storm 1.1.0 发布…

Apache Storm 1.1.0 中文文档 | ApacheCN

前言 Apache Storm 是一个免费的,开源的,分布式的实时计算系统. 官方文档: http://storm.apache.org 中文文档: http://storm.apachecn.org ApacheCN 最近组织了翻译 Storm 1.1.0 中文文档的活动,整体翻译进度为 96%. 感谢大家参与到该活动中来感谢无私奉献的贡献者,才有了这份 Storm 1.1.0 中文文档感谢一路有你的陪伴,我们才可以做的更好,走的更快,走的更远,我们一直在努力 ... 网页地址:…

kerberos环境storm配置：Running Apache Storm Securely

Running Apache Storm Securely Apache Storm offers a range of configuration options when trying to secure your cluster. By default all authentication and authorization is disabled but can be turned on as needed. Firewall/OS level Security You can stil…

Apache Storm

作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy 背景介绍流计算:将大规模流动数据在不断变化的运动过程中实现数据的实时分析,捕捉到可能有用的信息,并把结果发送到下一计算节点. 主流流计算框架:Kafka Streaming.Apache Storm.Spark Streaming.Flink DataStream等. Kafka Streaming:是一套基于Kafka-Streaming库的一套流计算工具jar包,具有简单容易…

Apache Storm 核心概念

前言: Storm读取实时数据流,并传递给处理单元,最终输出处理后的数据. 下图描述了storm的处理数据的主要结构. 元组(Tuple) : 元组是Storm提供的一个轻量级的数据格式,可以用来包装你需要实际处理的数据.元组是一次消息传递的基本单元.一个元组是一个命名的值列表,其中的每个值都可以是任意类型的.元组是动态地进行类型转化的(字段的类型不需要事先声明).在Storm中编程时,就是在操作和转换由元组组成的流.通常,元组包含整数,字节,字符串,浮点数,布尔值和字节数组等类型.…

java.lang.ClassNotFoundException: org.apache.storm.topology.IRichSpout

java.lang.NoClassDefFoundError: org/apache/storm/topology/IRichSpout at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.privateGetMethodRecursive(Class.java:3048) at…

Apache Storm Installation

安装的过程参照此处的过程介绍(https://www.tutorialspoint.com/apache_storm/apache_storm_installation.htm) 安装的过程要安装3个东西,依次是:Java:Zookeeper framework:Apache storm framework. 1. 安装java.配置java环境变量.发现使用openjdk也是可以的. 2. 安装zookeeper.下载包,修改配置文件. 3. 安装storm.下载包,修改配置文件. 4. 在照…

在Docker Swarm上部署Apache Storm：第2部分

[编者按]本文来自 Baqend Tech Blog,描述了如何在 Docker Swarm,而不是在虚拟机上部署和调配Apache Storm集群.文章系国内 ITOM 管理平台 OneAPM 编译呈现. 点此查看<在Docker Swarm上部署Apache Storm:第1部分> 创建Swarm集群如果一切顺利,那么你现在已经有了三台Ubuntu服务器,每个上面都运行了一个Docker守护进程.可以通过私有网络中的zk1.cloud和manager.swarm访问Ubuntu 1,或者…

在Docker Swarm上部署Apache Storm：第1部分

[编者按]本文来自 Baqend Tech Blog,描述了如何在 Docker Swarm,而不是在虚拟机上部署和调配Apache Storm集群.文章系国内 ITOM 管理平台 OneAPM 编译呈现. 如何在 Docker Swarm 上部署并调配Apache Storm集群,这个题目很有意思,Wolfram Wingerath将之描述为"真正有趣"的体验,在Tech上你很少能听见这种话.我好奇地问他是什么让使用容器比使用虚拟机更棒?他回答说: 作为一名Docker和Docker…

Apache Storm从一端读取实时数据的原始流

Apache Storm从一端读取实时数据的原始流,并将其传递通过一系列小处理单元,并在另一端输出处理/有用的信息. 下图描述了Apache Storm的核心概念. 640?wx_fmt=png&wxfrom=5&wx_lazy=1 现在让我们仔细看看Apache Storm的组件 - 组件描述 Tuple Tuple是Storm中的主要数据结构.它是有序元素的列表.默认情况下,Tuple支持所有数据类型.通常,它被建模为一组逗号分隔的值,并传递到Storm集群. Stream 流是元组…

Apache Storm使用

Apache Storm 是 Apache 基金会的开源的分布式实时计算系统.与 Hadoop 的批处理相类似,Storm 可以对大量的数据流进行可靠的实时处理,这一过程也称为“流式处理”,是分布式大数据处理的一个重要方向.Storm 支持多种类型的应用,包括:实时分析.在线机器学习.连续计算.分布式RPC(DRPC).ETL等.Strom 的一个重要特点就是“快速”的数据处理,有 benchmark 显示 Storm 能够达到单个节点每秒百万级 tuple 处理(tuple 是 Storm 的…

【转】apache storm 内置的定时机制

原文:http://www.cnblogs.com/kqdongnanf/p/4778672.html ------------------------------------------------------------------------------------------------------------------------------------ 关于Storm tick 1. tick的功能 Apache Storm中内置了一种定时机制——tick,它能够让任何bolt的所…

apache storm 的安装

原文: http://storm.praveendeshmane.co.in/storm/storm-0-10-0-installation-on-ubuntu-14-04.jsp ------------------------------------------ Apache Storm is a distributed stream processing computation framework written predominantly in the Clojure programmi…

访问Storm ui界面，出现org.apache.storm.utils.NimbusLeaderNotFoundException: Could not find leader nimbus from seed hosts ["master"]. Did you specify a valid list of nimbus hosts for confi的问题解决（图文详解）

不多说,直接上干货! 前期博客 apache-storm-0.9.6.tar.gz的集群搭建(3节点)(图文详解) apache-storm-1.0.2.tar.gz的集群搭建(3节点)(图文详解)(非HA和HA) 问题详情 org.apache.storm.utils.NimbusLeaderNotFoundException: Could not find leader nimbus from seed hosts ["master"]. Did you specify a va…

访问Storm ui界面，出现org.apache.storm.utils.NimbusLeaderNotFoundException: Could not find leader nimbus from seed hosts ["master" "slave1"]. Did you specify a valid list of nimbus hosts for confi的问题解决（图文详解）

不多说,直接上干货! 前期博客 apache-storm-1.0.2.tar.gz的集群搭建(3节点)(图文详解)(非HA和HA) 问题详情 org.apache.storm.utils.NimbusLeaderNotFoundException: Could not find leader nimbus from seed hosts ["master" "slave1"]. Did you specify a valid list of nimbus host…

分布式流处理框架 Apache Storm —— 编程模型详解

一.简介二.IComponent接口三.Spout 3.1 ISpout接口 3.2 BaseRichSpout抽象类四.Bolt 4.1 IBolt 接口 4.2 BaseRichBolt抽象类五.词频统计案例六.提交到服务器集群运行七.关于项目打包的扩展说明一.简介下图为Strom的运行流程图,在开发Storm流处理程序时,我们需要采用内置或自定义实现spout(数据源)和bolt(处理单元),并通过TopologyBuilder将它们之间进行…

【转帖】Storm基本原理概念及基本使用

Storm基本原理概念及基本使用 https://www.cnblogs.com/swordfall/p/8821453.html 1. 背景介绍 1.1 离线计算是什么离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示: 代表技术:Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据 1.2 流式计算是什么流式计算:数据实时产生.数据实时传输.数据实时计算.实时展示代表技术:Flume实时获取数据.Kafka/metaq实时数…

Storm本地启动拓扑报错：Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/storm/topology/IRichSpout

问题描述: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/storm/topology/IRichSpout at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.java:264) at com.intellij.rt.execution.application.AppMain.main(App…

apache Storm学习之二-基本概念介绍

2.1 Storm基本概念在运行一个Storm任务之前,需要了解一些概念: Topologies Streams Spouts Bolts Stream groupings Reliability Tasks Workers Configuration Storm集群和Hadoop集群表面上看很类似.但是Hadoop上运行的是MapReduce jobs,而在Storm上运行的是拓扑(topology),这两者之间是非常不一样的.一个关键的区别是: 一个MapReduce job最终会结束,…

Apache Storm内部原理分析

转自:http://shiyanjun.cn/archives/1472.html 本文算是个人对Storm应用和学习的一个总结,由于不太懂Clojure语言,所以无法更多地从源码分析,但是参考了官网.好多朋友的文章,以及<Storm Applied: Strategies for real-time event processing>这本书,以及结合自己使用Storm的经历,希望对于想深入一点了解Storm原理的朋友能有所帮助,有不足之处欢迎拍砖交流. Storm集群架构 Storm集群采用…

apache Storm之一-入门学习

准备工作这个教程使用storm-starter项目里面的例子.我推荐你们下载这个项目的代码并且跟着教程一起做.先读一下:配置storm开发环境和新建一个strom项目这两篇文章把你的机器设置好. 一个Storm集群的基本组件 storm的集群表面上看和hadoop的集群非常像.但是在Hadoop上面你运行的是MapReduce的Job, 而在Storm上面你运行的是Topology.它们是非常不一样的 — 一个关键的区别是: 一个MapReduce Job最终会结束, 而一个Topology运…

org.apache.storm.utils.NimbusLeaderNotFoundException: could not find leader nimbus from seed hosts["datanode9"]. Did you specify a valid of nimbus hosts for config nimbus.seeds?

出现这个异常的原因主要是zookeeper没有正常工作引起的.可以在storm-conf-storm.yaml中设置 storm.zookeeper.servers: -"zookeeper1" -"zookeeper2" 设置好之后还有这个异常的话说明zookeeper集群没有开启或者没有正常工作,检查下zookeeper的工作状态.多个storm绑定同一个zookeeper集群时,storm集群的各个机器名不要有重复,否则只有先启动的storm会正常工作. 如果…

Apache Storm源码阅读笔记

欢迎转载,转载请注明出处. 楔子自从建了Spark交流的QQ群之后,热情加入的同学不少,大家不仅对Spark很热衷对于Storm也是充满好奇.大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲. 尽管自己也陆续对storm的源码走读发表了一些博文,当时写的时候比较匆忙,有时候衔接的不是太好,此番做了一些整理,主要是针对TridentTopology部分,修改过的内容采用pdf格式发布,方便打印. 文章中有些内容的理解得益于徐明明和fxjwind两位的指点,非常感谢.…

【apache storm基本原理及使用总结】的更多相关文章