Kafka作为大数据最核心的技术,作为一名技术开发人员,如果你不懂,那么就真的“out”了.DT时代的快速发展离不开kafka,所以了解kafka,应用kafka就成为一种必须. 什么是kafka?Kafka是一个分布式流平台,用于发布和订阅记录流.Kafka可以用于容错存储.Kafka将主题日志分区复制到多个服务器.Kafka的设计目的是为了让你的应用能在记录生成后立即就能处理.Kafka的处理速度很快,通过批处理和压缩记录有效地使用IO.Kafka会对数据流进行解耦.Kafka用于将数据流到…
商业转载请联系作者获得授权,非商业转载请注明出处. 提到‘数据库’,首先被想到的肯定是Oracle.DB2.SQL Server.MySql这些传统的关系型数据库.数据库的概念是非常宽泛的,除了上述的关系数据库,还有NoSQL(Not Only SQL)数据库,还有一些基于分布式技术框架(Hadoop.Spark)的大数据存储和处理体系也被称为数据库,以及基于逻辑多维结构的多维数据库(Multi Dimensional Database,MDD).今天这里要介绍的就是这个多维数据库. 如果您做过…
相关文章: 大数据系列之Kafka安装 大数据系列之Flume--几种不同的Sources 大数据系列之Flume+HDFS 关于Flume 的 一些核心概念: 组件名称     功能介绍 Agent代理 使用JVM 运行Flume.每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks. Client客户端 生产数据,运行在一个独立的线程. Source源 从Client收集数据,传递给Channel. Sink接收器 从Channel收集数据,进行相关操作,…
马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐.低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题. Kafka 在马蜂窝也有非常广泛的应用,为很多核心的业务提供支撑.本文将围绕 Kafka 在马蜂窝大数据平台的应用实践,介绍相关业务场景.在 Kafka 应用的不同阶段我们遇到了哪些问题以及如何解决.之后还有哪些计划等. Part.1 应用场景 从 Kafka 在大数据平台的应…
历史与趋势 大数据的前世今生:诞生.发展.未来? 如何利用数据赚钱?大数据价值变现的10种商业模式及利弊分析 10大行业大数据应用痛点及解决策略 大数据凉了?不,流式计算浪潮才刚刚开始 概念与定义 关于大数据最常见的10个问题 写给大数据开发初学者的话 常用大数据术语一览表 框架与平台 一文读懂大数据计算框架与平台 大数据框架对比:Hadoop.Storm.Samza.Spark和Flink 大数据处理框架的类型.比较和选择 大数据平台架构技术选型与场景运用 大数据平台核心技术全解析 Hadoo…
详解Kafka: 大数据开发最火的核心技术   架构师技术联盟 2019-06-10 09:23:51 本文共3268个字,预计阅读需要9分钟. 广告 大数据时代来临,如果你还不知道Kafka那你就真的out了(快速掌握Kafka请参考文章:如何全方位掌握Kafka核心技术)!据统计,有三分之一的世界财富500强企业正在使用Kafka,包括所有TOP10旅游公司,7家TOP10银行,8家TOP10保险公司,9家TOP10电信公司等等. LinkedIn.Microsoft和Netflix每天都用…
Hadoop原理 分为HDFS与Yarn两个部分.HDFS有Namenode和Datanode两个部分.每个节点占用一个电脑.Datanode定时向Namenode发送心跳包,心跳包中包含Datanode的校验等信息,用来监控Datanode.HDFS将数据分为块,默认为64M每个块信息按照配置的参数分别备份在不同的Datanode,而数据块在哪个节点上,这些信息都存储到Namenode上面.Yarn是MapReduce2,可以集成更多的组件,如spark.mpi等.MapReduce包括Job…
http://www.aboutyun.com/thread-6855-1-1.html 个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目.对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目.下面给大家可以参考.可以带着下面问题来阅读本文章:1.一个好的项目架构应该具备什么特点?2.本项目架构是如何保证数据准确性的?3.什么是Kafka?4.f…
本系列文章主要阐述大数据计算平台相关框架的搭建,包括如下内容: 基础环境安装 zookeeper集群的搭建 kafka集群的搭建 hadoop/hbase集群的搭建 spark集群的搭建 flink集群的搭建 elasticsearch集群的搭建 alluxio集群的搭建 1.kafak简介 Kafka是一个分布式.分区的.多副本的.多订阅者的消息队列,以高吞吐量著称,主要用于实时数据的传输和处理,总体架构如下 更多内容请阅读官网 http://kafka.apache.org/document…
本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享.编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理.负责微软应用与服务集团的大数据平台构建,数据产品与服务. 导读:微软的ASG (应用与服务集团)包含Bing,.Office,.Skype.每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性.本文将介绍微软ASG大数据团队如何利用Kafka.…