hadoop上的并行应用程序开发是基于MapReduce编程框架的,MapReduce编程模型的原理是:利用一个输入的key/value对集合来产生一个输出的key/value对集合。

MapReduce库的用户用两个函数来表达这个计算:Map和Reduce。

    用户自己定义的map函数接收一个输入的key/value对,然后产生一个中间key/value对的集合。MapReduce把全部具有同样key值的value集合在一起,然后传递给reduce函数。
    用户自己定义的reduce函数接收key和相关的value集合。reduce函数合并这些value值,形成一个较小的value集合。一般来说,每次reduce函数调用仅仅产生0或1个输出的value值。通常我们通过一个迭代器把中间的value值提供给reduce函数,这样就能够处理无法所有放入内存中的大量的value值集合了。MapReduce计算模型很适合在大量计算机组成的大规模集群上并行执行。
    Hadoop分布式文件系统由一个名称节点和N个数据节点组成。

每一个节点均是一台普通的计算机。在使用方式上HDFS与我们熟悉的单机文件系统很类似,它能够创建文件夹,创建、复制和删除文件。以及查看文件的内容等。

    通常,MapReduce框架和分布式文件系统是执行在一组同样的节点上的,也就是说,计算节点和存储节点在一起。这样的配置同意框架在那些已经存好数据的节点上高效地调度任务,这能够使整个集群的网络带宽被很高效的利用。

HBase的数据管理

    HBase是一个类似Bigtable的分布式数据库,它的大部分特性和Bigtable一样,是一个稀疏的、长期存储的、多维度的排序映射表。这张表的索引是行keyword、列keyword和时间戳。每一个值是一个不解释的字符数组,数据都是字符串。没有类型。
HBase体系结构的三大重要组成部分是:
  • HBaseMaster:HBase主server,与Bigtable的主server类似。
  • HRegionServer:HBase域server,与Bigtable的Tabletserver类似。
  • HBaseClient:HBase客户端是由org.apache.hadoop.HBase.client.HTable定义的。
    NameNode:HDFS的守护程序。记录文件是怎样切割成数据块的。以及这些数据块被存储到哪些节点上,对内存和I/O进行集中管理,是个单点,发生问题将使集群崩溃
    SecondaryNameNode:监控HDFS状态的辅助后台程序。每一个集群都有一个,与NameNode进行通讯。定期保存HDFS元数据快照。当NameNode故障能够作为备用NameNode使用
    DataNode:每台从server都执行一个,负责把HDFS数据块读写到本地文件系统。负责所在物理节点的存储管理。一次写入,多次读取,文件由数据块组成。典型的大小是64MB,数据块尽量散布到各个节点
    JobTracker:用于处理作业的后台程序,决定有哪些文件參与处理,然后分割task并分配节点,监控task,重新启动失败的task,每一个集群仅仅有唯一一个JobTracker。位于Master节点
    TaskTracker:位于Slave节点,与DataNode结合,管理各自节点上的task,每一个节点仅仅有一个TaskTracker,但一个TaskTracker能够启动多个JVM,用于并行运行map或reduce任务,与JobTracker交互
    Master:执行NameNode、SecondaryNameNode、JobTracker的节点,Master不是唯一的
    Slave:执行TaskTracker、DataNode的节点

三种执行模式

单机模式:安装简单,差点儿不用作不论什么配置。但仅限于调试用于
伪分布模式:在单节点上同一时候启动NameNode、DataNode、JobTracker、TaskTracker、SecondaryNameNode等五个进程。模拟分布式执行的各个节点
全然分布模式:正常的Hadoop集群,由多个各司其职的节点构成

NameNode使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包含文件映射。文件属性等。

Hadoop与分布式开发的更多相关文章

  1. java大数据最全课程学习笔记(2)--Hadoop完全分布式运行模式

    目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages 目录 Hadoop完全分布式运行模式 步骤分析: 编写集群分发脚本xsync 集群配置 集群部署规划 配置集群 集群单 ...

  2. Hadoop HDFS分布式文件系统设计要点与架构

      Hadoop HDFS分布式文件系统设计要点与架构     Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...

  3. Hadoop伪分布式模式部署

    Hadoop的安装有三种执行模式: 单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置.Hadoop执行在一个Java进程中.使用本地文件系统.不使用HDFS, ...

  4. 一步到位分布式开发Zookeeper实现集群管理

    说到分布式开发Zookeeper是必须了解和掌握的,分布式消息服务kafka .hbase 到hadoop等分布式大数据处理都会用到Zookeeper,所以在此将Zookeeper作为基础来讲解. Z ...

  5. 『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现

    『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现 1.基本设定和软件版本 主机名 ip 对应角色 mas ...

  6. 【转】Hadoop HDFS分布式环境搭建

    原文地址  http://blog.sina.com.cn/s/blog_7060fb5a0101cson.html Hadoop HDFS分布式环境搭建 最近选择给大家介绍Hadoop HDFS系统 ...

  7. windows下eclipse远程连接hadoop集群开发mapreduce

    转载请注明出处,谢谢 2017-10-22 17:14:09  之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...

  8. Hadoop-01 搭建hadoop伪分布式运行环境

    Linux中配置Hadoop运行环境 程序清单 VMware Workstation 11.0.0 build-2305329 centos6.5 64bit jdk-7u80-linux-x64.r ...

  9. Hadoop完全分布式集群搭建

    Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统.,用于开发和 ...

随机推荐

  1. HDU 1253 胜利大逃亡(三维BFS)

    点我看题目 题意 : 中文题不详述. 思路 :因为还牵扯到层的问题,所以用三维的解决,不过这个还是很简单的BFS,六个方向搜一下就可以了,一开始交的时候老是超时,怎么改都不对,后来看了一个人写的博客, ...

  2. CF 279A. Point on Spiral

    http://codeforces.com/problemset/problem/279/A 题意 :就是给你一个螺旋形的图,然后给你一个点,问从(0,0)点到这个点需要转几次弯,当然,是按着这个螺旋 ...

  3. android TabActivity的局限性 是否还有存在的必要性

     TabActivity的局限性 是否还有存在的必要性 其实谷歌有此举动,我们也应该早就想到了,为什么会这么说呢?那就要从TabActivity的原理开始说起了. 做个假定先: 比如我们最外面的Act ...

  4. SPRING IN ACTION 第4版笔记-第八章Advanced Spring MVC-002-SpringFlow的组件(state\<transition>\<var>\<set>\<evaluate>)

    一. In Spring Web Flow, a flow is defined by three primary elements: states, transitions,and flow dat ...

  5. CDC 虚拟com口

    现在很多电脑已经不带232了,特别是手提电脑.这使很多使用手提在外调试人员非常不方便.或许你可以买一条市面上usb转232转换线,但这些线抗干扰不是太好,在一些干扰大的地方会发生连接中断的问题,所以往 ...

  6. leetcode面试准备:Implement Trie (Prefix Tree)

    leetcode面试准备:Implement Trie (Prefix Tree) 1 题目 Implement a trie withinsert, search, and startsWith m ...

  7. webstore+nodejs

    新建一个普通的project. 编写如下代码: var http=require('http'); http.createServer(function(req,res){ res.writeHead ...

  8. 存储过程系列之存储过程sql查询存储过程的使用

    1.查询某个表被哪些存储过程(以下简称 SP)使用到 : select distinct object_name(id) from syscomments where id in (select ob ...

  9. write & read a MapFile(基于全新2.2.0API)

    write & read a  MapFile import java.io.IOException; import org.apache.hadoop.io.IntWritable; imp ...

  10. 求助:IIS中部署WCF,生成的WSDL中怎么把“计算机名”改成IP==找到一个解决办法

    环境:win2003 IIS6 VS2008 求助: 如图: 有朋友遇到过这个问题吗?还是说这个不是问题? 先 谢谢了! 补充配置文件: 代码 目前解决办法: 修改IIS的配置: 如图: 解决后的ws ...