大数据入门第十七天——storm上游数据源之kafka详解（一）入门与集群安装 - 相关文章

【大数据入门第十七天——storm上游数据源之kafka详解（一）入门与集群安装】的更多相关文章

大数据入门第十七天——storm上游数据源之kafka详解（一）入门与集群安装

一.概述 1.kafka是什么根据标题可以有个概念:kafka是storm的上游数据源之一,也是一对经典的组合,就像郭德纲和于谦根据官网:http://kafka.apache.org/intro 的解释呢,是这样的: Apache Kafka® is a distributed streaming platform ApacheKafka®是一个分布式流媒体平台 l Apache Kafka是一个开源消息系统,由Scala写成.是由Apache软件基金会开发的一个开源消息系统项目. l…

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令

一.kafka常用命令 1.创建topic bin/kafka-topics. --replication-factor --zookeeper mini1: // 如果配置了PATH可以省略相关命令路径,相关命令参数暂不深入,字面意思也可以大概推断.后续给出完整参数参考. 2.查看所有topic bin/kafka-topics. 3.生产者发送消息 bin/kafka-console-producer. --topic topic_1 4.消费者消费消息 bin/kafka-console-…

大数据入门第十七天——storm上游数据源之kafka详解（三）其他问题

一.kafka文件存储机制 1.topic存储在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个目录,partiton命名规则为topic名称+有序序号,第一个partiton序号从0开始,序号最大值为partitions数量减1. 以上面创建的topic_1为例,在mini1这台机器上的目录如下: 综合查看3台机器的分布,如下所示: mini1: 1 2 3 mini2: 0 2 3 mini3: 0 1 // 这里是设置了副本数量,如果为了…

大数据入门第五天——离线计算之hadoop（上）概述与集群安装

一.概述根据之前的凡技术必登其官网的原则,我们当然先得找到它的官网:http://hadoop.apache.org/ 1.什么是hadoop 先看官网介绍: The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows fo…

大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验.求职心得和成长感悟,以及作为程序员的思考和见解.(关注公众号后回复”资料“即可领取 3T 免费技术学习资源) 纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.…

大数据入门第十六天——流式计算之storm详解（三）集群相关进阶

一.集群提交任务流程分析 1.集群提交操作参考:https://www.jianshu.com/p/6783f1ec2da0 2.任务分配与启动流程参考:https://www.cnblogs.com/heitaok/p/5531535.html 二.相关目录树 1.组件本地目录树 2.storm zk目录树三.集群通信 Worker间的通信经常需要通过网络跨节点进行,Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架. Worker进程内部通信:不同wo…

大数据入门第十六天——流式计算之storm详解（一）入门与集群安装

一.概述今天起就正式进入了流式计算.这里先解释一下流式计算的概念离线计算离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示代表技术:Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据.***任务调度 ,hivesql .调度平台 .Hadoop集群运维 .数据清洗(脚本语言) .元数据管理 .数据稽查 .数据仓库模型架构相关技术栈与应用流式计算流式计算:数据实时产生.数据实时传输.数据实时计算.实时展示代表技术:Fl…

大数据入门第十八天——kafka整合flume、storm

一.实时业务指标分析 1.业务业务: 订单系统---->MQ---->Kakfa--->Storm 数据:订单编号.订单时间.支付编号.支付时间.商品编号.商家名称.商品价格.优惠价格.支付金额统计双十一当前的订单金额,订单数量,订单人数订单金额(整个网站,各个业务线,各个品类,各个店铺,各个品牌,每个商品架构支付系统+kafka+storm/Jstorm集群+redis集群 1.支付系统发送mq到kafka集群中,编写storm程序消费kafka的数据并计算实时的订单数量.订…

大数据入门第十六天——流式计算之storm详解（二）常用命令与wc实例

一.常用命令 1.提交命令提交任务命令格式:storm jar [jar路径] [拓扑包名.拓扑类名] [拓扑名称] torm jar examples/storm-starter/storm-starter-topologies-.jar storm.starter.WordCountTopology wordcount 2.杀死任务 storm (执行kill命令时可以通过-w [等待秒数]指定拓扑停用以后的等待时间) storm 3.停用任务 storm deactivte [拓扑名称]…

大数据入门第八天——MapReduce详解（三）MR的shuffer、combiner与Yarn集群分析

/mr的combiner /mr的排序 /mr的shuffle /mr与yarn /mr运行模式 /mr实现join /mr全局图 /mr的压缩今日提纲一.流量汇总排序的实现 1.需求对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 2.分析基本思路:实现自定义的bean来封装流量信息,并将bean作为map输出的key来传输 MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前,会排序),排序的依据是map输出的key 所以,我们如果要实现自…