hadoop2.5.2 安装与部署

主从机构

主:jobtracker

从:tasktracker

四个阶段

1、 split

2、 Mapper: key-value（对象）

3、 shuffle

a) 分区(partition,HashPartition:根据 key 的 hashcode值和 Reduce 的数量模运算),可以自定义分区，运算速度要快，一定要解决数据倾斜和reduce

的负载均衡。

b) 排序: 默认按照字典排序。WriterCompartor(比较)

c) 合并：减少当前mapper输出数据，根据key相同(比较)，把value进行合并。

d) 分组（key相同（比较）,value组成一个集合）(merge)

4、Reduce

a) 输入数据： key +迭代器

Hadoop2.5 HA 搭建

四台机器：hadoop1, hadoop2, hadoop3, hadoop4

	NN	DN	ZK	ZKFC	JN	RM	NM(任务管理器)
hadoop1	Y		Y	Y		Y
hadoop2	Y	Y	Y	Y	Y		Y
hadoop3		Y	Y		Y		Y
hadoop4		Y			Y		Y

core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://bjsxt</value>

</property>

<name>ha.zookeeper.quorum</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoop-2.5.2</value>

</property>

</configuration>

hdfs-site.xml

<name>dfs.nameservices</name>

<value>bjsxt</value>

</property>

<name>dfs.ha.namenodes.bjsxt</name>

</property>

<name>dfs.namenode.rpc-address.bjsxt.nn1</name>

</property>

<name>dfs.namenode.rpc-address.bjsxt.nn2</name>

</property>

<name>dfs.namenode.http-address.bjsxt.nn1</name>

</property>

<name>dfs.namenode.http-address.bjsxt.nn2</name>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://192.168.200.4:8485;192.168.200.5:8485;192.168.200.6:8485/bjsxt</value>

</property>

<name>dfs.client.failover.proxy.provider.bjsxt</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

</property>

<name>dfs.journalnode.edits.dir</name>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

</property>

</configuration>

准备 zookeeper

a) 三台 zookeeper: hadoop1, hadoop2, hadoop3

b) 编辑 zoo.cfg 配置文件

修改 dataDir=/opt/zookeeper
server.1=192.168.200.128:2888:3888

server.2=192.168.200.4:2888:3888

server.3=192.168.200.5:2888:3888

c) 在dataDir目录中创建一个myid的文件,文件内容1，2,3

配置 hadoop中的slaves
启动三个zookeeper: ./zkServer.sh start
启动三个journalNode: ./Hadoop-daemon.sh start journalnode
在其中一个namenode上格式化: hdfs namenode –format
把刚刚格式化之后的元数据拷贝到另外一个namenode上

a) 启动刚刚格式化的namenode

b) 在没有格式化的namenode上执行：hdfs namenode –bootstrapStandby

c) 启动第二个namenode

9.  在其中一个namenode上初始化 zkfc：hdfs zkfc –formatZK

10. 停止上面节点：stop-dfs.sh

11. 全面启动： start-dfs.sh

配置mapreduce
1>修改 mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

2> 修改yarn-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

3> 启动

./start-yarn.sh

访问路径

hadoop2.2.5mapreduce的web界面 http://192.168.200.128:8088/

hdfs web界面 http://192.168.200.128:50070/

手动切换命令

　　- transitionToActiove <serviceId> // serviceId指 nn1,nn2

建立输入文件目录

./hdfs dfs -mkdir -p /usr/input/hot

删除文件目录

./hdfs dfs -rm /usr/input/hot

上传文件到输入目录

./hdfs dfs -put /usr/data /usr/input/hot

查看目录下文件

./hdfs dfs -ls /usr/input/hot

./hadoop jar /usr/local/hadoop2.jar RunJob

hadoop2.5.2 安装与部署的更多相关文章

hadoop2.7.1安装和部署
操作系统:Red Hat Enterprise Linux Server release 6.2 (Santiago) hadoop2.7.1 三台redhat linux主机,ip分别为10.204 ...
hadoop2.5.2安装部署
0x00 说明此处已经省略基本配置步骤参考Hadoop1.0.3环境搭建流程,省略主要步骤有: 建立一般用户关闭防火墙和SELinux 网络配置 0x01 配置master免密钥登录slave 生 ...
Apache Hadoop2.x 边安装边入门
完整PDF版本:<Apache Hadoop2.x边安装边入门> 目录第一部分:Linux环境安装第一步.配置Vmware NAT网络一. Vmware网络模式介绍二. NAT模式 ...
Kafka的安装和部署及测试
1.简介大数据分析处理平台包括数据的接入,数据的存储,数据的处理,以及后面的展示或者应用.今天我们连说一下数据的接入,数据的接入目前比较普遍的是采用kafka将前面的数据通过消息的方式,以数据流的形 ...
Hadoop第3周练习--Hadoop2.X编译安装和实验
作业题目位系统下进行本地编译的安装方式选2 (1) 能否给web监控界面加上安全机制,怎样实现?抓图过程 (2)模拟namenode崩溃,例如将name目录的内容全部删除,然后通过secondar ...
Hive安装与部署集成mysql
前提条件: 1.一台配置好hadoop环境的虚拟机.hadoop环境搭建教程:稍后补充 2.存在hadoop账户.不存在的可以新建hadoop账户安装配置hadoop. 安装教程: 一.Mysql安装 ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
Hue的安装与部署
Hue的安装与部署 hadoop hue Hue 简介 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是 ...
hadoop2.4.1伪分布模式部署
hadoop2.4.1伪分布模式部署 (承接上一篇hadoop2.4.1-src的编译安装继续配置:http://www.cnblogs.com/wrencai/p/3897438.html) 感谢: ...

随机推荐

自定义gradle plugin
最近开始接触gradle 正好有个需求apidoc
EasyMock 常见异常
1. java.lang.IllegalStateException: calling verify is not allowed in record state 含义:不允许在记录状态(record ...
17 南宁区域赛 F - The Chosen One 【规律】
题目链接 https://nanti.jisuanke.com/t/19972 题意给出一个n 然后将 n 个数标号为 1 -> n 按顺序排列每次抽掉奇数位的数然后求最后剩下那个数字 ...
对象数组空指针异常说明——C#中使用对象数组必须分别为其开辟空间
l 场景定义一个学生类,包含字段(学号,姓名,语文成绩,数学成绩,英语成绩).属性(总成绩).三个方法分别为(求平均分.数学平均分.语文平均分). 要求:在main()方法中,定义一个学生类型的数 ...
Windows虚拟机安装Linux系统
windows系统安装linux centos虚拟系统 1.下载 VMware Workstation Pro并安装,效果如图 2.下载linux系统 https://www.centos.org/d ...
linux中安装php
1.在php官网找到对应的php版本下载下来(php官网地址http://php.net) 2.把下载下来的安装包放入到linux系统中 3.解压php压缩包,通过tar -zxvf + 下载下来 ...
苹果终端wifi图标点亮慢和portal弹窗机制分析以及处理办法和建议
转:http://kms.h3c.com/View.aspx?id=52875 问题现象在无线环境中经常碰到苹果终端连接无线后wifi图标无法点亮导致终端无法上网.在起portal的网络中认证页面无 ...
P4309 [TJOI2013]最长上升子序列
题目 P4309 [TJOI2013]最长上升子序列做法最长上升序列的求法肯定是烂大街了水题是肯定的,确定出序列的位置然后套个树状数组就好了(强制在线的话改成线段树维护前缀最值也行) 所以说这题 ...
Class文件结构（更新中）
Class文件是一组以8位字节为单位的二进制流,当遇见需要占用8位字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8位字节进行存储. 格式,采用伪结构,只有两种数据结构:无符号数和表. 无符 ...
20145239杜文超《网络对抗》- Web安全基础实践
20145239杜文超<网络对抗>- Web安全基础实践基础问题回答 (1)SQL注入攻击原理,如何防御? SQL注入攻击就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查 ...

hadoop2.5.2 安装与部署

hadoop2.5.2 安装与部署的更多相关文章

随机推荐

热门专题