转载地址:http://www.iteye.com/blogs/subjects/zy19982004?page=2

一.Hadoop社区版和发行版

  1. 社区版:我们把Apache社区一直开发的Hadoop称为社区版。简单的说就是Apache Hadoophttp://hadoop.apache.org/
  2. 发行版:基于Apache Hadoop的基础上进行商业改造的解决方案,包含一系列定制的管理工具和软件。

二.Hadoop社区版版本号

一直以来,Hadoop的版本号一直困扰着广大Hadoop爱好者,各版本层出不穷。如果你想使用Apache Hadoop,你必须知道自己要使用哪个版本的Hadoop,搞清楚Hadoop版本号就尤为重要了。

三.Hadoop发行版

  • Cloudera
    • 2009年开始Hadoop,Lutch,Lucene,Solr创始人Doug Cutting任职于Cloudera公司。
    • Cloudera的主要产品是Cloudera Manager(CDH)。
    • CDH3基于Apache Hadoop 0.20.2(简单理解为Apche Hadoop 1);CDH4基于Apache Hadoop 0.20.3(简单理解为Apche Hadoop 2),但是它采用新的MapReduce2.0,即Yarm。
  • Hortonworks
    • Hortonworks 2011年成立,由Yahoo于硅谷风投公司Benchmark Capital组成。公司成立的时候吸纳了许多原来在Yahoo工作的Hadoop工程师,Apache Hadoop社区70%的代码是雅虎工程师贡献的。2006年开始Doug Cutting任职于Yahoo公司。
    • Hortonworks的主要产品是Hortonworks Data Platform(HDP)。
    • HDP主要基于Apache Hadoop 1。
  • MapR
    • 用自己的新架构重写Hadoop,提供和Apache Hadoop相同的API。
    • NameNode默认存储三份,不存在NameNode单点故障Single Point Of Failure(SPOF)。
  • IBM
  • 华为
    • 网络,PC,虚拟化方面的硬件实力。
  • Intel
    • Intel的发行版最先进入中国市场。
    • 提供全面的硬件解决方案,针对硬件的性能优化。

四.你也可以阅读以下文档

  1. hadoop版本总结http://dijunzheng2008.blog.163.com/blog/static/98959897201210171340254/
  2. 关于Apache Hadoop 1.0 http://f.dataguru.cn/thread-23223-1-1.html
  3. 突破社区版Hadoop各商业发行版比较 http://cloud.chinabyte.com/news/206/12446706.shtml
  4. 如何选择不同的Hadoop发行版 http://www.searchbi.com.cn/showcontent_70957.htm

一.Hadoop来历

  1. 2004年12月。Google发表了MapReduce论文,MapReduce允许跨服务器集群,运行超大规模并行计算。Doug Cutting意识到可以用MapReduce来解决Lucene的扩展问题。
  2. Google发表了GFS论文。
  3. Doug Cutting根据GFS和MapReduce的思想创建了开源Hadoop框架。
  4. 2006年1月,Doug Cutting加入Yahoo,领导Hadoop的开发。
  5. Doug Cutting任职于Cloudera公司。
  6. 2009年7月,Doug Cutting当选为Apache软件基金会董事,2010年9月,当选为chairman。
  7. 各大企业开发自己的发行版,并为Apache Hadoop贡献代码。

二.Google-->Apache

    • Chubby-->ZooKeeper
    • GFS-->HDFS
    • BigTable-->HBase
    • MapReduce-->MapReduce

三.Google论文

四.你也可以阅读一下文档

  1. Wiki Doug Cutting http://en.wikipedia.org/wiki/Doug_Cutting
  2. Hadoop源代码分析一 http://caibinbupt.iteye.com/blog/262412

一.NameNode物理文件夹

二.DataNode物理文件夹

 

一.NameNode概述

  • NameNode存放了所有文件和文件夹的元数据信息
    • 内存中:在系统启动时,会把fsimage和editlog记录的元数据信息加装到内存中;在系统启动时,NameNode收集DataNode心跳,在内存中形成file->blocks的对应关系。
    • 硬盘上:操作日志以fsimage和editlog的形式持久化在硬盘上。
  • NameNode分类
    • NameNode,Secondary NameNode。
    • NameNode,Checkpoint Node,Backup NameNode。

二.fsimage editLog

  1. editLog:客户端对文件系统每次读写等操作时,元数据节点首先修改内存中的数据结构,然后记录到editlog中。
  2. fsimage:二进制文件;当editlog达到一定量(fs.checkpoint.size)或者距离上次归并到fsimage达到一定时间(fs.checkpoint.period)时, editlog会被归并到fsimage中。此过程被称为checkpoint。另外一个checkpoint的时间是NameNode启动时。

三.NameNode + Secondary NameNode

  1. Secondary NameNode通知NameNode准备chekpoint。
  2. NameNode产生edits.new,用来接受checkpoint过程中的editlog。
  3. Secondary NameNode通过http get方式获取NameNode的fsimage与editlog。
  4. Secondary NameNode开始合并获取的上述两个文件,产生一个新的fsimage文件fsimage.ckpt。
  5. Secondary NameNode用http post方式发送fsimage.ckpt至NameNode。
  6. NameNode将fsimage.ckpt与edits.new文件分别重命名为fsimage与edits,然后更新fstime,整个checkpoint过程到此结束。

四.NameNode + Checkpiont NameNode + Backup NameNode

  • 在Hadoop 0.21.0中,Secondary NameNode被Checkpoint NameNode和Backup NameNode取代。
  • Checkpoint NameNode功能同Secondary NameNode,主要作用是合并元数据。
  • Backup NameNode:NameNode实时主动把editlog和fsimage传送给Backup NameNode,主要作用是备份。但其还不能作热备,比喻Backup NameNode的内存中未保存Block的位置信息,仍需要等DataNode上报。

五.你也可以阅读以下文章

  1. http://www.happyang.com/?p=6
  2. http://blog.sina.com.cn/s/blog_7ead58ad0100umd9.html

一.数据块

  1. HDFS默认数据块大小64M。{现在的版本已经是128M,下面不在修改了}
  2. 文件大于64M,将被分为若干份64M+其它M存储;文件小于64M,并不会占用整个64M大小,对于小文件,HDFS提供了几种解决方案:Hadoop Archive,Sequence file和CombineFileInputFormat,后面看源码时详解。

二.DataNode

  1. 数据节点是真正存储数据的地方。
  2. 周期性向NameNode汇报心跳,并带回NameNode要下达的指令。NameNode并不主动向DataNode发送请求。
  3. DataNode可以作为服务器,接受客户端的读写请求。
  4. DataNode之间会互相通信,复制数据块。

转载文章——Hadoop学习的更多相关文章

  1. Hadoop学习之旅三:MapReduce

    MapReduce编程模型 在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...

  2. Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

    自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...

  3. Hadoop学习笔记—2.不怕故障的海量存储:HDFS基础入门

    一.HDFS出现的背景 随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多 ...

  4. 阿里封神谈hadoop学习之路

    阿里封神谈hadoop学习之路   封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 s ...

  5. Hadoop学习笔记(两)设置单节点集群

    本文描写叙述怎样设置一个单一节点的 Hadoop 安装.以便您能够高速运行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS). 參考官方文档:Hadoo ...

  6. Hadoop学习路线图

    Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括, ...

  7. 【转载】正则表达式学习 & ASCII码表

    文章原地址: http://www.jb51.net/tools/zhengze.html <正则表达式30分钟入门教程> 其中有几个地方可以有笔记: \s 匹配任意的空白符 \b 匹配单 ...

  8. 转载最佳JQuery学习网站

    转载文章,原出处: http://www.gbin1.com/technology/jquery/learningjquerywebsites/ jQuery是目前最流行的 JavaScript    ...

  9. Hadoop学习笔记—5.自定义类型处理手机上网日志

    转载自http://www.cnblogs.com/edisonchou/p/4288737.html Hadoop学习笔记—5.自定义类型处理手机上网日志 一.测试数据:手机上网日志 1.1 关于这 ...

随机推荐

  1. 我所理解的SOA和微服务

    本文原创,原文地址为:http://www.cnblogs.com/fengzheng/p/5847441.html SOA和微服务到底是什么关系? 说实话,我确实不明白SOA和微服务到底有什么本质上 ...

  2. java的继承练习

     看程序写结果:    A:一个类的静态代码块,构造代码块,构造方法的执行流程    静态代码块 > 构造代码块 > 构造方法   B:静态的内容是随着类的加载而加载    静态代码块的内 ...

  3. wget 显示"英国中部时间",去掉烦人的刷屏显示

    wget下载文件显示多行,进度条后面显示英国中部时间,非常让人郁闷. 本来英文是eta(Estimated Time of Arrival 预计到达时间),翻译错了,干脆去掉好了. 先要有两个个工具 ...

  4. CI Weekly #6 | 再谈 Docker / CI / CD 实践经验

    CI Weekly 围绕『 软件工程效率提升』 进行一系列技术内容分享,包括国内外持续集成.持续交付,持续部署.自动化测试. DevOps 等实践教程.工具与资源,以及一些工程师文化相关的程序员 Ti ...

  5. 【.net 深呼吸】自定义特性(Attribute)的实现与检索方法

    在.net的各个语言中,尤其是VB.NET和C#,都有特性这一东东,具体的概念,大家可以网上查,这里老周说一个非标准的概念——特性者,就是对象的附加数据.对象自然可以是类型.类型成员,以及程序集. 说 ...

  6. 构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(14)-EasyUI缺陷修复与扩展

    系列目录 不知不觉已经过了13讲,(本来还要讲多一讲是,数据验证之自定义验证,基于园友还是对权限这块比较敢兴趣,讲不讲验证还是看大家的反映),我们应该对系统有一个小结.首先这是一个团队开发项目,基于接 ...

  7. 【NLP】揭秘马尔可夫模型神秘面纱系列文章(四)

    维特比算法解决隐马尔可夫模型解码问题(中文句法标注) 作者:白宁超 2016年7月12日14:08:28 摘要:最早接触马尔可夫模型的定义源于吴军先生<数学之美>一书,起初觉得深奥难懂且无 ...

  8. C#面试题汇总(未完成)

    泛型的好处: 1.可以保证类型安全以及避免装箱和拆箱操作,泛型类会在编译时由具体的类型去取代. 2.我们就拿一个ArrayList来说吧,ArrayList要进行拆箱操作,也就是ArrayList传入 ...

  9. ASP.NET Core 中文文档 第四章 MVC(3.1)视图概述

    原文:Views Overview 作者:Steve Smith 翻译:姚阿勇(Dr.Yao) 校对:高嵩(Jack) ASP.NET MVC Core 的控制器可以利用 视图 返回格式化结果. 什么 ...

  10. 介介介是一个ORM

    介个是一个ORM,介个ORM基于Dapper扩展. 为什么需要一个ORM呢? 支持简单的LINQ查询 但是不能连表查询,why?why?why?为什么不能连接查询 ^.^ ok.但是就是不支持.哈哈哈 ...