Hadoop知识总结

【Hadoop知识总结】的更多相关文章

转：hadoop知识整理

文章来自于:http://tianhailong.com/hadoop%E7%9F%A5%E8%AF%86%E6%95%B4%E7%90%86.html 按照what.how.why整理了下文章,帮助大家快速梳理下hadoop知识: what:Hadoop的作用: http://tianhailong.com/hadoop%E7%9A%84%E4%BD%9C%E7%94%A8.html hadoop到底能做什么?怎么用hadoop?: http://tianhailong.com/hadoop%…

Hadoop知识汇总

Hadoop的两大功能:海量数据存储和海量数据分析 Hadoop2的三大核心组件是:HDFS.MapperReducer和yarn 1.HDFS:分布式文件系统海量数据存储 2.MapperReducer:运算框架,海量数据分析 3.yarn:资源调度管理集群 HDFS工作机制:基于namenode和datanode 1.namenode:响应客户端的请求:负责维护整个hdfs文件系统的文件夹树.以及每个路径(文件)所相应的block块信息(block的id,及所在的datano…

Hadoop 知识

Map Reduce & YARN 简介 Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据.最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduce 作业的形式实现和运行程序. MapReduce 是 Google 推广的一个简单的编程模型,它对以高度并行和可扩展的方式处理大数据集很有用…

1，Hadoop知识储备

Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成.HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石:MapReduce是计算组件,会被Spark取代. ··· Hadoop生态圈: Hadoop生态圈是一系列用来处理大数据的框架或组件,有Hadoop.Hive.Spark.HBase等. 2,HDFS ··· 组成: HDFS采用主从结构,支持文件形式的数据:HDFS包括一个Na…

hadoop知识整理（4）之zookeeper

一.介绍一个分布式协调服务框架: 一个精简的文件系统,每个节点大小最好不大于1MB: 众多hadoop组件依赖于此,比如hdfs,kafka,hbase,storm等: 旨在,分布式应用中,提供一个可靠的.可拓展的.分布式的.可配置的协调机制来管理整个集群的状态: 主要角色有:leader.follower.observer. 二.简单使用配置安装很简单.一个tar包解压即可. 启动所需的配置文件为:zk安装目录/conf/zoo.cfg(需将安装包中原zoo_sample.cfg改名为zo…

hadoop知识整理（3）之MapReduce之代码编写

前面2篇文章知道了HDFS的存储原理,知道了上传和下载文件的过程,同样也知晓了MR任务的执行过程,以及部分代码也已经看到,那么下一步就是程序员最关注的关于MR的业务代码(这里不说太简单的): 一.关于MapTask的排序 mapTask正常情况,按照key的hashcode进行从小到大的排序操作,形成map输出,交给reduce,(据某篇博文说,hashcode排序使用的是快排,这个无从考证),这里说明一下如何使用POJO类作为key,使其进行排序. 1)POJO类实现WritableCompa…

hadoop知识整理（2）之MapReduce

之前写的关于MR的文章的前半部分已丢. 所以下面重点从3个部分来谈MR: 1)Job任务执行过程,以及主要进程-ResourceManager和NodeManager作用: 2)shuffle过程: 3)主要代码: 一.Job任务执行过程这里是hadoop2.0-ResourceManager的Job的执行过程: 1)run job阶段,由提交Job客户端JVM完成,主要做job环境信息的收集,各个组件类,如Mapper.Reducer类,输出输入的K-V类型做检验是否合法,并且检验输入hdf…

hadoop知识整理（1）之HDFS

一.HDFS是一个分布式文件系统体系架构: hdfs主要包含了3部分,namenode.datanode和secondaryNameNode namenode主要作用和运行方式: 1)管理hdfs的元数据信息,文件名字,大小,切成几块,有几个副本,切成块和副本分别存储在datanode的位置,块id.大小: 2)通过rpc心跳机制,来检测datanode的运行状态: 3)简单说,元数据的存储信息都放在namenode之上,为了快速查取,所以内存中有一份,但是为了保证元数据信息不丢,所以磁盘还要…

------------恢复内容开始------------ Hadoop知识点 Hadoop知识点什么是HadoopHadoop和Spark差异Hadoop常见版本,有哪些特点,一般是如何进行选择Hadoop常用端口号搭建Hadoop集群的流程Hadoop中需要哪些配置文件,其作用是什么?HDFS读写流程MapReduce的Shuffle过程,Hadoop优化方案基于MapReduce做Hadoop的优化Yarn的job提交流程Yarn默认的调度器,分类,以及它们之间的区别Hadoop的参数优…

hadoop知识整理（5）之kafka

一.简介来自官网介绍: 翻译:kafka,是一个分布式的流处理平台.LinkedIn公司开发.scala语言编写. 1.支持流处理的发布订阅模式,类似一个消息队列系统: 2.多备份存储,副本冗余机制,具备高容错性: 3.可以处理流. 二.使用 1.需要zk支持: 2.集群模式启动很简单,类似zk,只要在server.properties中指定broker.id即可:kafka定义每一个节点都为一个broker 3.启动后jps中存在Kafka进程: 4.启动命令中需指定配置文件:sh /k…