Hadoop总结篇之一------开篇】的更多相关文章

从今天开始新的系列:Hadoop总结篇 之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性.所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西. 本系列的主要参考书目是<Hadoop技术内幕:深入解析Yarn架构设计与实现原理> 比如作业从提交到执行到写出结果,将有一个从浅到深,逐步深入的过程.另外一些开发过程中使用到的比较零碎的东西,将会以外篇的形式记录. hadoop版本:2.7.X 由于是第一篇,那么先来个综述吧. 学习hadoop我们到底…
上一篇介绍了一个job的提交过程.期间多次提到通信协议.那么协议是什么? 协议其实就是通信的双方所遵守的一套规范,这套规范规定了通信时传输的数据的固定的格式. 4.1 RPC协议:在hadoop中,我们采用的是RPC协议. 该协议主要包含四个部分: 序列化层:协议中的参数采用Protocol Buffers来序列化/反序列化. 这个Protocol Buffers是一种数据存储格式,可以理解我们按照其语法格式定义一个数据结构类model,然后使用工具(Protocol Buffers编译器)编译…
我们会定义Job,我们会定义map和reduce程序.那么,这个Job到底是怎么提交的?提交到哪去了?它到底和集群怎么进行交互的呢? 这篇文章将从头讲起. 开发hadoop的程序时,一共有三大块,也就是Driver.map.reduce,在Driver中,我们要定义Configuration,定义Job,在mian方法最后,往往会以这么一段代码结尾: if (!job.waitForCompletion(true)) return; 而这句的作用,就是提交了我们的Job.进入代码里(其实就是Jo…
在弄清楚yarn是什么之前,先来看一下MRv1. 它的由编程模型+数据处理引擎(map/reduceTask)+运行时环境组成(JobTracker/TaskTracker).其中JobTracker存在很多问题,如下: 1.JobTracker本身承担了调度和计算的任务,太累了 2.JobTracker是单点的,不好扩展不能支持其他计算框架,还有单点故障风险 3.资源是以槽位的方式来调度.粗粒度,不合理.比如提交了一个特别占用资源的任务,整个节点就被占用了.还有map阶段往往reduce槽位就…
Hadoop是Apache Lucene创始人Doug Cutting创建的,Hadoop起源于Apache Nutch,一个开源的网络搜索引擎.最先引起注意是2003年google的一篇论文,该论文实现了谷歌分布式文件系统,也就是GFS,2004年,他们开始着手实现一个开源的实现,也就是HDFS, 紧接着,google的另一篇论文MapReduce公布.尽管Hadoop因为MapReduce及其分布式文件(HDFS)而出名,但是Hadoop也用于一组相关项目的名称,这些项目都是使用Hadoop…
在前几篇的文章中分别就虚拟系统安装.LINUX系统安装以及hadoop运行服务器的设置等内容写了详细的操作教程,本篇分享的是hadoop的下载安装步骤. 在此之前有必要做一个简单的说明:分享的所有内容是以个人的操作经验为基础,有的人看完可能会说跟他做过的不一样.这个可能还是跟大家所使用的发行版hadoop不同造成的吧.我是下载的一个大快搜索的DKhadoop发行版,三个节点的标准版本,个人研究或者学习hadoop三节点完全够用.DKhadoop三节点的发行版我记得是现在应该也是免费开放下载的,之…
虚拟机以及Linux系统安装在之前的两篇分享中已经详细的介绍了方法,并且每一步的都配图了.如果有朋友还是看不懂,那我也爱莫能助了.本篇主要就hadoop服务器操作系统配置进行详细说明,hadoop安装会在下一篇文章中详细的介绍. hadoop安装包用的是大快DKHadoop发行版,个人觉得DKHadoop的安装过程是比较简单,关于dkhadoop的安装在下一次的分享中再详细介绍吧.下面进入到本篇的主题——服务器操作系统配置教程  一.安装包准备 1.虚拟机分布式安装(三台及以上虚拟机) 若是个人…
Hadoop详解 1.前言 对于初次接触Hadoop的小伙伴来说,Hadoop是一个很陌生的东西,尤其是Hadoop与大数据之间的关联,写这篇文章之前,我也有许多关于Hadoop与大数据的疑惑,接下来让我带着和大家共同的疑惑去探索Hadoop.以下仅为我个人的理解和资料查找,仅供参考,结果存在差异性. 2.Hadoop介绍 第一问:我们为什么要学习Hadoop,网上说Hadoop的作用是能够处理海量数据,那我们为什么不能直接用数据库+大量磁盘呢,或者其他工具? 首先考虑的是成本问题,数据库庞大的…
在一个全配置的集群上,运行Hadoop意味着在网络分布的不同服务器上运行一组守护进程 (daemons),这些守护进程或运行在单个服务器上,或运行与多个服务器上,他们包括: (1) NameNode(名字节点) (2) DataNode(数据节点) (3) Secondary NameNode (次名节点) (4) JobTracker  (作业跟踪节点) (5) TaskTracker (任务跟踪节点) NameNode 被认为是Hadoop守护进程中最重要的一个,可以说,NameNode就是…
1 hadoop整体架构 2 各组件关系 hdfs只是一个存储空间,他的完整名字是分布式文件系统.有名可知他的作用了. hbase是一个内存数据库,简单点说hbase把表啊什么的存在hdfs上.…