Hadoop学习笔记（老版本，YARN之前），MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系

【Hadoop学习笔记（老版本，YARN之前），MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系】的更多相关文章

Hadoop学习笔记（老版本，YARN之前），MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系

一.基本概念在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为“任务(task)”.此外,Hadoop提供的分布式文件系统(HDFS)主要负责各个节点的数据存储,并实现了高吞吐率的数据读写. 在分布式存储和分布式计算方面,Hadoop都是用主/从(Master/Slave)架构.在一个配置完整的集群上,想让Hadoop这头大象奔跑起来,需要在集群中运行一系列后台程序.不同的后台程序扮演不用的角色,这些角色由NameNo…

hadoop学习笔记（十一）：MapReduce数据类型

一.序列化 1 hadoop自定义了数据类型,在hadoop中,所有的key/value类型必须实现Writable接口.有两个方法,一个是write,一个是readFileds.分别用于读(反序列化操作)和写(序列化操作). 2 所有的key必须实现Comparable接口,在MapReduce过程中需要对key/value对进行反复的排序,默认情况下依据key进行排序,要实现compareTo()方法,所以通过key既要实现Writable接口又要实现Comparable接口. 3 因此,h…

hadoop学习笔记（十）：MapReduce工作原理（重点）

一.MapReduce完整运行流程解析: 1 在客户端启动一个作业. 2 向JobTracker请求一个Job ID. 3 将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的jar文件.配置文件和客户端计算所得的计算划分信息.这些文件都存放在JobTracker专门为该作业创建的文件夹中.文件夹名为该作业的Job ID.jar文件默认会有10个副本(mapred.submit.replication属性控制):输入划分信息告诉了JobTracker应该为这个作业启动多…

hadoop学习笔记（九）：MapReduce程序的编写

一.MapReduce主要继承两个父类: Map protected void map(KEY key,VALUE value,Context context) throws IOException,InterruptedException{ } Reduce 1 protected void reduce(KEY key,Iterable<VALUE> values,Context context) throws IOException,InterruptedException{ 2 } 二…

hadoop学习笔记（八）：MapReduce

一.MapReduce编程模型一种分布式计算框架,解决海量数据的计算问题. MapReduce将整个并行计算过程抽象到两个函数: Map(映射):对一些独立元素组成的列表的每一个元素进行制定的操作,可以高度并行. Reduce(化简):对一个列表的元素进行合并. 一个简单的MapReduce程序只需要指定Map().reduce().input和output,剩下的事情由框架完成. 二.Map过程(以wordcount为例): 1 一行一行读,每一行都解析成key/value形式.每一个键值对…

hadoop学习笔记（一）：NameNade持久化和DataNode概念

其中的fsimage 称为时点备份,又叫磁盘镜像快照,这个是NameNode的一个持久化的方式之一:缺点,在内存数据序列化的时候比较慢具体的过程:因为我们所知道的NameNode一般是存储在内存中的,并没有和磁盘进行交互,这和redis这类的非关系型数据库差不多,但是内存中的数据总是没有持久化的,那么怎么去持久化呢?就比如我们的NameNode结点数据的持久化过程:先将内存中的数据序列化为二进制字节流,之后将其通过IO的形式存入到计算机的文件系统中,就完成了持久化的过程,具体的如果NameN…

Oracle学习笔记—数据库，实例，表空间，用户、表之间的关系

之前一直使用的关系型数据库是Mysql,而新公司使用Oracle,所以最近从网上搜集了一些资料,整理到这里,如果有不对的地方,欢迎大家讨论. 基本概念: 数据库:Oracle 数据库是数据的物理存储.这就包括(数据文件 ORA 或者 DBF.控制文件.联机日志.参数文件). 其实 Oracle 数据库的概念和其它数据库不一样,这里的数据库是一个操作系统只有一个库.可以看作是 Oracle 就只有一个大数据库. 实例:一个 Oracle 实例(Oracle Instance)有一系列的后台进程(…

hadoop学习笔记（四）：HDFS文件权限，安全模式，以及整体注意点总结

本文原创,转载注明作者和原文链接! 一:总结注意点: 到现在为止学习到的角色:三个NameNode.SecondaryNameNode.DataNode 1.存储的是每一个文件分割存储之后的元数据信息.具体的信息有: 2.而且NameNode的存储是内存存储的,不会有和磁盘的数据交换的过程,这样的话提高了整体的集群的效率,但是这个数据都是需要持久化的,因为不持久化的话,数据是不安全的,加假如哪一天hadoop集群中的NameNode那台服务器挂了的话,里面的元数据如果只是存储在内存中的就全部的丢…

Hadoop学习笔记1－如何简单布署hadoop

企业机型配置: 选型标准:普通的,廉价的,标准的(容易替换的),工业化大规模生产的 CPU:支持多核CPU,如2个4核CPU 内存:16G以上,内存越大,常用数据都缓存在内存,提高速度硬盘:不需RAID,也不需使用SCSI.SAS.SSD硬盘,只需普通SATA硬盘即可,只要容量足够. 网络:建议千兆网和高带宽交换机,hadoop对各节点服务器的数据通讯量极为重要.Infinband可以不用考虑. 网络拓扑设计: 使用局域网布署,尽量不使用低速率的跨数据中心连接. hadoop支持机架感知机…

Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔记系列>.其实,早在2014年Hadoop2.x版本就已经开始流行了起来,并且已经成为了现在的主流.当然,还有一些非离线计算的框架如实时计算框架Storm,近实时计算框架Spark等等.相信了解Hadoop2.x的童鞋都应该知道2.x相较于1.x版本的更新应该不是一丁半点,最显著的体现在两点: (1)H…