琐碎-关于hadoop2.2.0
HDFS模块功能
- namenode:主节点,存储文件的元数据如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、以及每个文件的块列表和块所在的datanode等;
- datanode:在本地文件系统存储文件块数据,以及块的校验和;
- secondary namenode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照;
YARN模块功能
ResourceManager:
- 处理客户端请求;
- 启动/监控ApplicationMaster;
- 监控NodeManager;
- 资源分配和调度;
NodeManager:
- 单个节点的资源管理;
- 处理来自ResourceManager的命令;
- 处理来自ApplicationManager的命令;
ApplicationMaster:
- 数据切分;
- 为应用程序申请资源,并分配给内部任务;
- 任务监控和容错;
Container:
- 对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关信息;
MR模块功能
... ...
日志
- 启动日志文件目录 $HADOOP_HOME/logs;
- 日志格式 .out和.log
.log:通过log4j记录的,大部分的应用日志信息;
.out:记录标准输出和标准错误日志,少。
- 日志命名规则
框架名称-用户名-进程名-主机名-日志格式后缀
目录sbin里面的启动脚本中有hadoop-daemon.sh、yarn-daemon.sh和hadoop-daemons.sh、yarn-daemon.sh
它们有什么区别呢?
hadoop-daemon.sh分别启动每个进程,在slave上也要手动去敲命令
而hadoop-daemon.sh只需要在namenode中就可以,它从配置文件中获取所有的slave,然后远程上去调用hadoop-daemon.sh启动单个进程。
yarn-daemon.sh也一样。
历史服务器
1.x中有jobtracker,2.x中没有,那怎么从web ui中查看历史作业运行情况呢?
那就是historyserver。
默认情况下历史服务器不启动
启动命令和关闭命令
- sbin/mr-jobhistory-daemon.sh start historyserver
- sbin/mr-jobhistory-daemon.sh stop historyserver
web UI地址: http://master:19888/
在2.X中多了一种针对MR小作业的优化机制:Uber模式
在运行一个作业的时候会有一条输出语句为Job job_xxxxxx_xxxx running in uber mode:false/true
如果作业足够小,则所有的task在一个JVM(mr app master)中完成作业,比每个task启动一个container更划算
手动设置参数:mapreduce.job.ubertask.enable 默认为 false
notepad+FZ+SecureCRT这个组合还不错
琐碎-关于hadoop2.2.0的更多相关文章
- 琐碎-hadoop2.2.0伪分布式和完全分布式安装(centos6.4)
环境是centos6.4-32,hadoop2.2.0 伪分布式文档:http://pan.baidu.com/s/1kTrAcWB 完全分布式文档:http://pan.baidu.com/s/1s ...
- Hadoop2.2.0安装过程记录
1 安装环境1.1 客户端1.2 服务端1.3 安装准备 2 操作系统安装2.1.1 BIOS打开虚拟化支持2.1.2 关闭防火墙2.1.3 安装 ...
- CentOS下Hadoop-2.2.0集群安装配置
对于一个刚开始学习Spark的人来说,当然首先需要把环境搭建好,再跑几个例子,目前比较流行的部署是Spark On Yarn,作为新手,我觉得有必要走一遍Hadoop的集群安装配置,而不仅仅停留在本地 ...
- ubuntu14.04 安装 hadoop2.4.0
转载:ubuntu搭建hadoop-Ver2.6.0完全分布式环境笔记 自己在搭建hadoop平台时,碰到一些困难,按照该博文解决了问题,转载一下,作为记录. 2 先决条件 确保在你集群中的每个节点上 ...
- Hadoop-1.2.1 升级到Hadoop-2.6.0 HA
Hadoop-1.2.1到Hadoop-2.6.0升级指南 作者 陈雪冰 修改日期 2015-04-24 版本 1.0 本文以hadoop-1.2.1升级到hadoop-2.6.0 Z ...
- Hadoop2.6.0安装 — 集群
文 / vincentzh 原文连接:http://www.cnblogs.com/vincentzh/p/6034187.html 这里写点 Hadoop2.6.0集群的安装和简单配置,一方面是为自 ...
- Hadoop2.6.0安装—单机/伪分布
目录 环境准备 创建hadoop用户 更新apt 配置SSH免密登陆 安装配置Java环境 安装Hadoop Hadoop单机/伪分布配置 单机Hadoop 伪分布Hadoop 启动Hadoop 停止 ...
- 最详细的hadoop2.2.0集群的HA高可靠的最简单配置
简介 [from http://www.open-open.com/lib/view/open1390717631132.html] hadoop中的NameNode好比是人的心脏,非常重要,绝对不可 ...
- hadoop2.2.0伪分布式搭建3--安装Hadoop
3.1上传hadoop安装包 3.2解压hadoop安装包 mkdir /cloud #解压到/cloud/目录下 tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/ 3 ...
随机推荐
- 怎么用PHP在HTML中生成PDF文件
原文:Generate PDF from html using PHP 译文:使用PHP在html中生成PDF 译者:dwqs 利用PHP编码生成PDF文件是一个非常耗时的工作.在早期,开发者使用PH ...
- python中yield用法
在介绍yield前有必要先说明下Python中的迭代器(iterator)和生成器(constructor). 一.迭代器(iterator) 在Python中,for循环可以用于Python中的任何 ...
- bzoj 1061 [Noi2008]志愿者招募(数学模型,MCMF)
[题目链接] http://www.lydsy.com/JudgeOnline/problem.php?id=1061 [题意] 雇人满足每天至少需要的人数. [思路一] Byvoid的题解 clic ...
- PyBayes的安装和使用
PyBayes 主页 文档 PyBayes is an object-oriented Python library for recursive Bayesian estimation (Bayesi ...
- mysql统计一张表中条目个数的方法
统计一张表中条目的个通常的SQL语句是: select count(*) from tableName; #or ) from tableName; #or 统计一个列项,如ID select cou ...
- 【bz2594】水管局长数据加强版
题意: 给出一张n节点.m条代权无向边的无向联通图 和q个任务 1:询问一条x到y的路径 并使路径上最大权值最小 要求输出路径上最大权值 2:宣布x到y的路径报废题目保证该图永远联通 题解: 这是道凶 ...
- 详解HTTP中的摘要认证机制(转)
Basic认证方式是存在很多缺陷的,具体表现如下: 1, Basic认证会通过网络发送用户名和密码,并且是以base64的方式对用户名和密码进行简单的编码后发送的,而base64编码本身非常容易被解 ...
- 使用Core Data应避免的十个错误
原文:Avoiding Ten Big Mistakes iOS Developers Make with Core Data http://www.cocoachina.com/applenew ...
- Linux vmstat:报告虚拟内存统计的工具
众所周知,计算机必须有称之为RAM(随机访问内存)的存储器使得计算机工作.RAM指的是插在计算机主板上的物理存储.这里的RAM被用于加载像浏览器.文字处理器这类的程序,实际上,你使用的程序都运行在内存 ...
- JavaScript继承方式详解
原文链接 : http://segmentfault.com/a/1190000002440502 js继承的概念 js里常用的如下两种继承方式: 原型链继承(对象间的继承) 类式继承(构造函数间的继 ...