storm spout的速度抑制问题

转发请注明原文地址:http://www.cnblogs.com/dongxiao-yang/p/6031398.html 最近协助同事优化一个并发消费kafka数据用来计算的任务,压测过程中发现有两个spout对应的topic消费速度明显低于其他topic的指标,每个spout分配10个并发消费速度到了1w左右完全就上不去了,通过监控埋点分析出spout以及下游的bolt代码块里面的业务代码执行耗时完全不高于其余可以正常消费的topic对应的spout组件. 最后只能摘出有问题的代码新做一个d…

Storm Spout

本文主要介绍了Storm Spout,并以KafkaSpout为例,进行了说明. 概念数据源(Spout)是拓扑中数据流的来源.一般 Spout 会从一个外部的数据源读取元组然后将他们发送到拓扑中.根据需求的不同,Spout 既可以定义为可靠的数据源,也可以定义为不可靠的数据源.一个可靠的 Spout 能够在它发送的元组处理失败时重新发送该元组,以确保所有的元组都能得到正确的处理:相对应的,不可靠的 Spout 就不会在元组发送之后对元组进行任何其他的处理. 一个 Spout 可以发送多个数据…

Storm-源码分析- spout (backtype.storm.spout)

1. ISpout接口 ISpout作为实现spout的核心interface, spout负责feeding message, 并且track这些message. 如果需要Spout track发出的message, 必须给出message-id, 这个message-id可以是任意类型, 但是如果不指定或将message-id置空, storm就不会track这个message 必须要注意的是, spout线程会在一个线程中调用ack, fail, nextTuple, 所以不用考虑互斥,…

storm备忘

[命令]storm rebalance topology-name [-w wait-time-secs] [-n new-num-workers] [-e component=parallelism]* storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=1 [链接] !!! Storm的消息保证机制 https://www.jianshu.com/p/d521c7c91298 Storm中Spout使用注意事项小结 …

Storm构建分布式实时处理应用初探

最近利用闲暇时间,又重新研读了一下Storm.认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算.对于Hadoop,本身不擅长实时的数据分析处理.两者的共同点都是分布式的架构,而且,都类似有主/从关系的概念.本文中我就不具体阐述Storm集群和Zookeeper集群如何部署的问题,我想通过一个实际的案例切入,分析一下如何利用Storm,完成实时分析处理数据的. Storm本身是Apache托管的开源的分布式实时计…

Storm可靠性实例解析——ack机制

对于Storm,它有一个很重要的特性:“Guarantee no data loss” ——可靠性很显然,要做到这个特性,必须要track每个data的去向和结果.Storm是如何做到的呢——acker机制. 先概括下acker所参与的工作流程: Spout创建一个新的Tuple时,会发一个消息通知acker去跟踪: Bolt在处理Tuple成功或失败后,也会发一个消息通知acker: acker会找到发射该Tuple的Spout,回调其ack或fail方法. 我们说RichBolt和Basi…

Storm构建分布式实时处理应用初探（转）

最近利用闲暇时间,又重新研读了一下Storm.认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算.对于Hadoop,本身不擅长实时的数据分析处理.两者的共同点都是分布式的架构,而且,都类似有主/从关系的概念.本文中我就不具体阐述Strom集群和Zookeeper集群如何部署的问题,我想通过一个实际的案例切入,分析一下如何利用Storm,完成实时分析处理数据的. Storm本身是Apache托管的开源的分布式实时计…

Storm日志分析调研及其实时架构

1.Storm第一个Demo 2.Windows下基于eclipse的Storm应用开发与调试 3.Storm实例+mysql数据库保存 4.Storm原理介绍 5. flume+kafka+storm+mysql 实时架构 1.Storm第一个Demo Storm运行模式: 本地模式(Local Mode): 即Topology(相当于一个任务,后续会详细讲解) 运行在本地机器的单一JVM上,这个模式主要用来开发.调试. 远程模式(Remote Mode):在这个模式,我们把我们的Topol…

大数据处理框架之Strom：Flume+Kafka+Storm整合

环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 storm-0.9 apache-flume-1.6.0 一.Flume+Kafka+Storm架构设计采集层:实现日志收集,使用负载均衡策略消息队列:作用是解耦及不同速度系统缓冲实时处理单元:用Storm来进行数据处理,最终数据流入DB中展示单元:数据可视化,使用WEB框架展示二.案例:通过flume客户端向flume采集器发送日志,flume将日…

Storm 系列（二）实时平台介绍

Storm 系列(二)实时平台介绍本章中的实时平台是指针对大数据进行实时分析的一整套系统,包括数据的收集.处理.存储等.一般而言,大数据有 4 个特点: Volumn(大量). Velocity(高速). Variety(多样). Value(价值),因此针对大数据的实时平台有以下特点. 延退 :高延迟意味着实时性的缺失. 分布式 :互联网时代,大多数的系统都是部署在一套由多台廉价 Linux 服务器组成的集群上. 高性能 :高速产生的大量数据,通过计算分析获取其中的价值,这需要高性能可靠的处…

Storm系列二： Storm拓扑设计

Storm系列二: Storm拓扑设计在本篇中,我们就来根据一个案例,看看如何去设计一个拓扑, 如何分解问题以适应Storm架构,同时对Storm拓扑内部的并行机制会有一个基本的了解. 本章代码都在: git@github.com:zyzdisciple/storm_study.git 项目下的 user_behavior包下. 问题案例有这样一种场景,在前端存在会话,我们会不断收到来自前端的消息,消息包含消息的发送时间,消息内容,结束标识, 消息的发送者, SessionId等其他信息,…

Storm项目：流数据监控1《设计文档…

博客公告: (1)本博客全部博客文章搬迁至<博客虫>http://blogchong.com/ (2)文章相应的源代码下载链接參考博客虫站点首页的"代码GIT". (3)很多其它的相关文章更新,以及代码等.请关注博客虫站点,站点中有技术Q群,以及代码共享链接. (4)该博客内容还会继续更新,只是会慢一些. 该文档为实实在在的原创文档,转载请注明作者及出处. 类型具体备注 ² 该文档为原创模拟项目:流数据监控<1>文档<流数据监控设计文档>.相继会…

storm 经常使用类

弄 <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <version>0.9.5</version> </dependency> 经常使用类 backtype.storm.topology.TopologyBuilder 用来建立topology. SpoutDeclarer backtyp…

storm并行

Storm并行度 wordcount 统计job代码 public class WordCountTopology { private static final String SENTENCE_SPOUT_ID = "sentence-spout"; private static final String SPLIT_BOLT_ID = "split-bolt"; private static final String COUNT_BOLT_ID = "c…

近期开发storm遇到一些问题的解决点

storm开发解决问题点1.kafka消费速度跟不上问题这个问题可以从加大topic partition进行解决,可以在topic正在运行时候运行命令 ./kafka-topics --alter --zookeeper rhel071:2181 --topic heartbeat --partitions 6进行扩容,并且只能往上扩容,不能减少partition.每个partition会对应一个storm的spout,所以能整体增加消费速度.当然如果kafka下面log挂了多个磁盘,那么多个…

Storm 流式计算框架

1. 简介是一个分布式, 高容错的实时计算框架 Storm进程常驻内存, 永久运行 Storm数据不经过磁盘, 在内存中流转, 通过网络直接发送给下游流式处理(streaming) 与批处理(batch) 批处理(batch): MapReduce 微批处理(MircroBatch): Spark (性能上近似 Streaming, 但是还是有所不及) 流(streaming): Storm, Flink(其实Flink也可以做批处理) Storm MapReduce 流式处理批处理…

Storm近年的发展

storm作为第一款大数据领域的流式计算引擎,在2013年推出之后风头一时无二.后续虽然有spark streaming也作为流式计算的引擎,但storm依然在流式计算的江湖占有稳定的地位.直到2017年,flink作为流式计算引擎异军突起,几年间,风云突变,流计算言必谈flink. 诚然,flink对比storm和spark streaming都有很多优势,但作为早期storm的使用者,一直也很想了解storm这些年的发展. 通过梳理storm自己的发版说明,发现storm还是做了很多的事情,…

简单测试flume+kafka+storm的集成

集成 Flume/kafka/storm 是为了收集日志文件而引入的方法,最终将日志转到storm中进行分析.storm的分析方法见后面文章,这里只讨论集成方法. 以下为具体步骤及测试方法: 1.分别在各个服务器上启动 zookeeper/kafka/storm,[hadoop@master apache-flume-1.5.2-bin]$ jps1926 QuorumPeerMain3659 Kafka3898 Jps3787 core3726 nimbus3838 supervisor [h…

storm入门（一）：storm编程框架与举例

基础 http://os.51cto.com/art/201308/408739.htm 模型 http://www.cnblogs.com/linjiqin/archive/2013/05/28/3104016.html 一.Storm基本概念在运行一个Storm任务之前,需要了解一些概念: Topologies Streams Spouts Bolts Stream groupings Reliability Tasks Workers Configuration Storm集群和Ha…

storm入门（二）：关于storm中某一段时间内topN的计算入门

刚刚接触storm 对于滑动窗口的topN复杂模型有一些不理解,通过阅读其他的博客发现有两篇关于topN的非滑动窗口的介绍.然后转载过来. 下面是第一种: Storm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算TOP N,然后每隔一定时间间隔输出实时计算后的TOP N结果. 流式数据的TOP N计算的应用场景很多,例如计算twitter上最近一段时间内的热门话题.热门点击图片等等. 下面结合Storm-S…

【大数据】Linux下Storm（0.9版本以上）的环境配置和小Demo

一.引言: 在storm发布到0.9.x以后,配置storm将会变得简单很多,也就是只需要配置zookeeper和storm即可,而不再需要配置zeromq和jzmq,由于网上面的storm配置绝大部分都是0.9以前的storm版本,所以有很多工作是不需要进行的,下面就storm的0.9.5版本在linux环境下进行配置进行详细解析. 由于配置storm只需要两个步骤,大大简化了配置,也是storm团队做了很大的努力,让程序员们专注于程序,让storm配置进行异常简单,好了,废话说了不少,下面正…

Storm系列（三）：创建Maven项目打包提交wordcount到Storm集群

在上一篇博客中,我们通过Storm.Net.Adapter创建了一个使用Csharp编写的Storm Topology - wordcount.本文将介绍如何编写Java端的程序以及如何发布到测试的Storm环境中运行. 如果你觉得对你有帮助,欢迎Star和Fork,让更多人看到来帮助完善这个项目. STEP1: 克隆storm官方示例项目 storm-starter: $ git clone git://github.com/apache/storm.git && cd storm/ex…

Storm集成Kafka应用的开发

我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应对这种情况,使用kafka作为消息队列是非常合适的选择,kafka可以将不均匀的数据转换成均匀的消息流,从而和storm比较完善的结合,这样才可以实现稳定的流式计算,那么我们接下来开发一个简单的案例来实现storm和kafka的结合 s…

基于Maven构建开发第一个Storm项目

前面说过了Storm的测试项目,那么此时我们更想自己写一个小项目来练练手,首先我们自己的Windows系统上首先应该安装好maven,然后启动Eclipse for JavaEE版本,接下来开始建立项目并开发注意,在开发过程中,无论是Windows还是Linux都要完全关闭防火墙,避免网络的问题单击"File"->"New"->"Maven Project" 接下来的界面默认即可,单击Next 下一步,继续单击Next即可然后,…

Learning storm book 笔记8-Log Processing With Storm

有代码的书籍看起来就是爽,看完顺便跑个demo,感觉很爽! 场景分析主要是利用apache的访问日志来进行分析统计如用户的IP来源,来自哪个国家或地区,用户使用的Os,浏览器等信息,以及像搜索的热词等信息的统计这里日志信息如下 24.25.135.19 - - [1-01-2011:06:20:31 -0500] "GET / HTTP/1.1" 200 864 "http://www.adeveloper.com/resource.html" "M…

storm源码之storm代码结构【译】【转】

[原]storm源码之storm代码结构[译] 说明:本文翻译自Storm在GitHub上的官方Wiki中提供的Storm代码结构描述一节Structure of the codebase,希望对正在基于Storm进行源码级学习和研究的朋友有所帮助. Storm的源码共分为三个不同的层次. 首先,Storm在设计之初就考虑到了兼容多语言开发.Nimbus是一个thrift服务,topologies被定义为Thrift结构体.Thrift的运用使得Storm可以被任意开发语言使用. 其次,Sto…

redhat6.4上build storm 0.9.0.1

1.安装mvn 2.下载源代码 3.build mvn package 过程中出现问题,clojars.org 访问不了.通过私服映射clojars.org并在pom.xml中将dependency的地址改掉. 重新运行mvn package 发现问题: java.lang.RuntimeException: Pipe to subprocess seems to be broken! No output read.Shell Process Exception:/tmp/a3a2aead-49…

Storm wordcount Read from file

source code: package stormdemo; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException; import java.util.HashMap; import jav…

Storm工程创建

1.创建maven项目: pom.xml: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd&qu…

【原】storm源码之storm代码结构【译】

说明:本文翻译自Storm在GitHub上的官方Wiki中提供的Storm代码结构描述一节Structure of the codebase,希望对正在基于Storm进行源码级学习和研究的朋友有所帮助. Storm的源码共分为三个不同的层次. 首先,Storm在设计之初就考虑到了兼容多语言开发.Nimbus是一个thrift服务,topologies被定义为Thrift结构体.Thrift的运用使得Storm可以被任意开发语言使用. 其次,Storm的所有接口都是Java语言来定义的.因此,尽管…

【storm spout的速度抑制问题】的更多相关文章