Hadoop的架构模型


1.x的版本架构模型介绍

  • 架构图

  • HDFS分布式文件存储系统(典型的主从架构)

    NameNode:集群当中的主节点,主要用于维护集群当中的元数据信息,以及接受用户的请求处理用户的请求

    SecondaryNameNode:主要是辅助NameNode管理元数据信息

    DataNode:集群当中的从节点,主要用于存储数据

    什么是元数据?

    元数据就是描述数据的数据。简单的来说,一个文件的存放位置、文件名称、打开方式、创建人、修改时间、文件大小、文件权限等这些都是描述性的数据,都可以称为元数据。拿到现实生活中来说,判断一个人是否是我们想要找到的人,他的样貌、身高、体型、穿着这些都是描述性的信息,也就是元数据

  • mapReduce分布式计算系统

    JobTracker:主节点,接受用户请求分配任务给taskTracker去执行

    TaskTracker:从节点,主要用于接受jobTracker分配的任务


2.x的版本架构模型介绍

  • 第一种:NameNode和ResourceManager单节点架构模型



    HDFS文件存储系统(典型的主从架构)

    NameNode:集群当中的主节点,主要用于维护集群当中的元数据信息,以及接受用户的请求处理用户的请求

    SecondaryNameNode:主要是辅助NameNode管理元数据信息

    DataNode:集群当中的从节点,主要用于存储数据

  Yarn资源调度系统

  ResourceManager:主节点,接受用户请求,分配资源(分配CPU、分配内存等)

   NodeManager:从节点,主要用于处理计算任务

  • 第二种:NameNode单节点和ResourceManager高可用架构模型

  • 第三种:NameNode高可用和ResourceManager单节点架构模型



    NameNode高可用

    NameNode Active:处于活跃的主节点,处理用户请求,维护元数据信息

    NameNode StandBy:处于待命的节点,当活跃的主节点出故障停止工作后切换为活跃的主节点,对外提供服务

    JournalNode:专门用于同步元数据信息(因为,如果NameNode高可用,就一定要保证两个NameNode的元数据信息一致,否则就会出现脑裂的问题。JournalNode机制就是用来解决这个问题的)

    zkfc ( ZooKeeper FailLover Controller ):NameNode的守护进程,用于监听NameNode的状态,当NameNode Active出故障停机时,会立刻通知NameNode StandBy切换为活跃的主节点
  • 第四种:NameNode高可用和ResourceManager高可用架构模型

【Hadoop离线基础总结】Hadoop的架构模型的更多相关文章

  1. 【Hadoop离线基础总结】流量日志分析网站整体架构模块开发

    目录 数据仓库设计 维度建模概述 维度建模的三种模式 本项目中数据仓库的设计 ETL开发 创建ODS层数据表 导入ODS层数据 生成ODS层明细宽表 统计分析开发 流量分析 受访分析 访客visit分 ...

  2. 【Hadoop离线基础总结】oozie的安装部署与使用

    目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

  3. 【Hadoop离线基础总结】impala简单介绍及安装部署

    目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

  4. 【Hadoop离线基础总结】Hue的简单介绍和安装部署

    目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

  5. 【Hadoop离线基础总结】Sqoop常用命令及参数

    目录 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导出到关系表--expor ...

  6. 【Hadoop离线基础总结】Hive调优手段

    Hive调优手段 最常用的调优手段 Fetch抓取 MapJoin 分区裁剪 列裁剪 控制map个数以及reduce个数 JVM重用 数据压缩 Fetch的抓取 出现原因 Hive中对某些情况的查询不 ...

  7. 【Hadoop离线基础总结】Hadoop High Availability\Hadoop基础环境增强

    目录 简单介绍 Hadoop HA 概述 集群搭建规划 集群搭建 第一步:停止服务 第二步:启动所有节点的ZooKeeper 第三步:更改配置文件 第四步:启动服务 简单介绍 Hadoop HA 概述 ...

  8. 【Hadoop离线基础总结】关键路径转化率分析(漏斗模型)

    关键路径转化 需求 在一条指定的业务流程中,各个步骤的完成人数及相对上一个步骤的百分比 模型设计 定义好业务流程中的页面标识 Step1. /item Step2. /category Step3. ...

  9. 【Hadoop离线基础总结】网站流量日志数据分析系统

    目录 点击流数据模型 概述 点击流模型 网站流量分析 网站流量模型分析 网站流量来源 网站流量多维度细分 网站内容及导航分析 网站转化及漏斗分析 流量常见分析角度和指标分类 指标概述 指标分类 分析角 ...

随机推荐

  1. [XML] XML格式【有道翻译】API 的数据转化输出

    <?php header("content-type:text/html;charset=utf-8"); //echo "飞飞仔超级智障"; $cont ...

  2. [YII2] 修改默认控制器Controller以及默认方法Action

    试了好多方法都没成功,下面方法绝对能成功设置 在框架里面有源码,在/vendor/yiisoft/yii2/web/Application.php的第34行找到了: class Application ...

  3. 【Spring源码分析】预备篇

    前言 最新想学习一下Spring源码,开篇博客记录下学习过程,欢迎一块交流学习. 作为预备篇,主要演示搭建一个最简单的Spring项目样例,对Spring进行最基本梳理. 构建一个最简单的spring ...

  4. java8 流式编程

    为什么需要流式操作 集合API是Java API中最重要的部分.基本上每一个java程序都离不开集合.尽管很重要,但是现有的集合处理在很多方面都无法满足需要. 一个原因是,许多其他的语言或者类库以声明 ...

  5. 探索ORACLE之ASM概念(完整版)

    探索ORACLE之ASM概念(完整版) 本文出自https://www.jb51.net/article/43527.htm ASM是Oracle 10g R2中为了简化Oracle数据库的管理而推出 ...

  6. [软件共享]将数据库中的数据导出为SQL脚本

    可以直接将数据库中的数据导出为脚本,并可以自己设置过滤条件.使用方法很简单,不在多说了.下面是软件截图.123 下载:http://files.cnblogs.com/pw/mssql2.rar

  7. 《高性能Linux服务器构建实战》——第1章轻量级HTTP服务器Nginx

    第1章 轻量级HTTP服务器Nginx本章主要介绍Nginx的配置管理和使用.作为一个轻量级的HTTP服务器,Nginx与Apache相比有以下优势:在性能上,它占用很少的系统资源,能支持更多的并发连 ...

  8. 怎样借助Python爬虫给宝宝起个好名字

    每个人一生中都会遇到一件事情,在事情出现之前不会关心,但是事情一旦来临就发现它极其重要,并且需要在很短的时间内做出重大决定,那就是给自己的新生宝宝起个名字.因为要在孩子出生后两周内起个名字(需要办理出 ...

  9. webpack4.x下babel的安装、配置及使用

    前言 目前,ES6(ES2015)这样的语法已经得到很大规模的应用,它具有更加简洁.功能更加强大的特点,实际项目中很可能会使用采用了ES6语法的模块,但浏览器对于ES6语法的支持并不完善.为了实现兼容 ...

  10. 安装XCode7.1后,QT5.5出现的各种问题解决方案

    安装XCode7.1后,突然发现QT5.5编译不了程序了.直接在终端输入clang,竟然输出如下的信息. Agreeing to the Xcode/iOS license requires admi ...