转自:http://www.it165.net/admin/html/201307/1531.html 基本都是在群里讨论的时候,别人问的入门问题,以后想到新的问题再补充进来.但是其实入门问题也很重要,对原理的理解决定了学习能够深入的程度. 本篇不讨论Hadoop,只介绍周边软件. Hive: 这个是我被人问的最多的软件,可见它在hadoop周边生态里的利用率也是最高的. Hive到底是什么? 如何来严格的定义Hive确实不是太容易,通常我们为了非Hadoop专业人士容易理解,往往称它为数据仓库…
转自: http://www.it165.net/admin/html/201307/1532.html Sqoop: sqoop在hadoop生态系统中也是应用率比较高的软件,主要是用来做ETL工具,由yadoo研发并提交给Apache.Hadoop整个生态圈里面,大部分的应用都是Yadoo研发的,贡献非常大.Yahoo里面出来两拨人,分别组建了Cloudera和Hortonworks. 所谓ETL,就是数据的抽取(extract)加载(load)转换(transform).将一种格式或表现形…
Hadoop是市面上使用最多的大数据分布式文件存储系统和分布式处理系统, 其中分为两大块分别是hdfs和MapReduce, hdfs是分布式文件存储系统, 借鉴了Google的GFS论文. MapReduce是分布式计算处理系统, 借鉴了Google的MapReduce论文.本文着重来梳理下新版也就是2.3后的Hadoop的MapReduce部分, 也就是Yarn框架, 以及MapReduce的八大步骤的详细工作. 一 新老MapReduce的介绍和对比1.1 老版的MapReduce介绍老版…
1.介绍 Keeaplived主要有两种应用场景,一个是通过配置keepalived结合ipvs做到负载均衡(LVS+Keepalived),有此需求者可参考以往博文:http://lizhenliang.blog.51cto.com/7876557/1343734.另一个是通过自身健康检查.资源接管功能做高可用(双机热备),实现故障转移. 以下内容主要针对Keepalived+MySQL双主实现双机热备为根据,主要讲解keepalived的状态转换通知功能,利用此功能可有效加强对MySQL数据…
一.MapReduce的概念 MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框就是mapreduce,两者缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程. 1.MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapRed…
(hadoop安装方法:http://blog.csdn.net/wangjia55/article/details/53160679这里不再累述) hadoop是针对大数据设计的一个计算架构.如果你有几百TB的数据需要检索,你在控制终端敲下命令,计算机会向几百分布式台云服务器同时发布命令,使他们开始运行.并且把结果返回给你 hadoop分为大概念, HDFS(分布式文件系统)+MapReduce(分布式计算模型) HDFS 优点 适合大文件的存储,并且由备份策略,有比较好的容错和恢复机制,支持…
在学习Hadoop,慢慢的从使用到原理,逐层的深入吧 第一部分:MapReduce工作原理   MapReduce 角色 •Client :作业提交发起者. •JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业. •TaskTracker:保持JobTracker通信,在分配的数据片段上执行MapReduce任务. 提交作业 •在作业提交之前,需要对作业进行配置 •程序代码,主要是自己书写的MapReduce程序. •输入输出路径 •其他配置,如输出压缩等.…
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统. 1 .分布式文件系统 多台计算机联网协同工作(有时也称为一个集群)就像单台系统一样解决某种问题,这样的系统我们称之为分布式系统. 分布式文件系统是分布式系统的一个子集,它们解决的问题就是数据存储. 换句话说,它们是横跨在多台计算机上…
Hadoop生态圈-Zookeeper的工作原理分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   无论是是Kafka集群,还是producer和consumer都依赖于Zookeeper集群保存一些mate信息,来保证系统可用性!这个特点会产生一个现象,即会产生大量的网络IO,所以说在企业生产环境中会单独开3到5台集群,这三台集群什么都不干,只开Zookeeper集群.所以说Zookeeper开放的节点一定要开网络监控告警,这是一个大数据运维的基本功! 一.Zookee…
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 4.javaApi开发Mapreduce程序 发散思考-入门mapreduce 思考题:假设有一个长度为1000万的int数组,求数组数据长度. 答:如果是应试考试,你说觉得太简单了吧,一个for循环就搞定.可是,它是一个面试,你如何通过解决这一个问题就脱颖而出呢?凡是,大数据量计算一定要向多线程…