hadoop分布式部署（2014-3-8）

hadoop简介：

(维基百科)Apache Hadoop是一款支持數據密集型分佈式應用并以Apache 2.0許可協議發佈的開源軟體框架。它支持在商品硬件構建的大型集群上運行的應用程序。Hadoop是根據Google公司發表的MapReduce和Google檔案系統的論文自行實作而成。

Hadoop框架透明地為應用提供可靠性和數據移動。它實現了名為MapReduce的編程範式：
應用程序被分割成許多小部分，而每個部分都能在集群中的任意節點上執行或重新執行。此外，Hadoop還提供了分佈式文件系統，用以存儲所有計算節點的數
據，這為整個集群帶來了非常高的帶寬。MapReduce和分佈式文件系統的設計，使得整個框架能夠自動處理節點故障。它使應用程序與成千上萬的獨立計算
的電腦和PB級的數據。現在普遍認為整個Apache
Hadoop“平台”包括Hadoop內核、MapReduce、Hadoop分佈式文件系統（HDFS）以及一些相關項目，有Apache
Hive和Apache HBase等等。

主节点包括名称节点、从属名称节点和 jobtracker 守护进程(即所谓的主守护进程)以及管理
集群所用的实用程序和浏览器。从节点包括 tasktracker 和数据节点(从属守护进程)。两种设
置的不同之处在于,主节点包括提供 Hadoop 集群管理和协调的守护进程,而从节点包括实现
Hadoop 文件系统(HDFS)存储功能和 MapReduce 功能(数据处理功能)的守护进程。
每个守护进程在 Hadoop 框架中的作用。namenode 是 Hadoop 中的主服务器,它管理文件系
统名称空间和对集群中存储的文件的访问。还有一个 secondary namenode,它不是
namenode 的冗余守护进程,而是提供周期检查点和清理任务。在每个 Hadoop 集群中可以找
到一个 namenode 和一个 secondary namenode。
datanode 管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一
个 datanode 守护进程。
每个集群有一个 jobtracker,它负责调度 datanode 上的工作。每个 datanode 有一个
tasktracker,它们执行实际工作。jobtracker 和 tasktracker 采用主-从形式,jobtracker 跨
datanode 分发工作,而 tasktracker 执行任务。jobtracker 还检查请求的工作,如果一个
datanode 由于某种原因失败,jobtracker 会重新调度以前的任务。

环境:rhel6.3 selinux and iptables disabled, sshd enabled

主机: 192.168.1.120 master
192.168.1.122 slave
192.168.1.123 slave
192.168.1.121 slave(在线添加)
软件:hadoop.apache.org

master 配置：

sh jdk-6u32-linux-x64.bin
mv jdk1.6.0_32/ /usr/local/jdk

tar zxf hadoop-1.1.2.tar.gz -C /usr/local/
cd /usr/local/hadoop-1.1.2/

mv hadoop-1.1.2/ hadoop //便于以后升级
mv jdk/ hadoop/ //便于以后升级

vi conf/hadoop-env.sh :

# The java implementation to use. Required.
export JAVA_HOME=/usr/local/hadoop/jdk

cd conf/
vi core-site.xml :

<configuration>
     <property>
              <name>fs.default.name</name>
                       <value>hdfs://192.168.1.120:9000</value>
                            </property>
</configuration>

vi hdfs-site.xml :
<configuration>
     <property>
              <name>dfs.replication</name>
                       <value>2</value>
                            </property>
</configuration>

vi mapred-site.xml:

<configuration>
     <property>
              <name>mapred.job.tracker</name>
                       <value>192.168.1.120:9001</value>
                            </property>
</configuration>

yum install openssh-clients -y

ssh-keygen
ssh-copy-id localhost

ssh-copy-id 192.168.1.122
ssh-copy-id 192.168.1.123

scp -r hadoop/ 192.168.1.122:/usr/local/
scp -r hadoop/ 192.168.1.123:/usr/local/

cd /usr/local/hadoop
bin/hadoop namenode -format

bin/start-all.sh //启动hadoop
jdk/bin/jps //查看时候否启动成功，正常如下：

[root@server120 hadoop]# jdk/bin/jps
12681 NameNode
13260 Jps
12918 JobTracker
12826 SecondaryNameNode

slave配置：

只要在master作scp之前：yum install openssh-clients -y

在master启动之后，cd /usr/local/hadoop

jdk/bin/jps //查看slave是否启动成功，正常如下：

3182 TaskTracker
4075 Jps
3095 DataNode

上述启动成功之后，还可以在web页面查看状态:

NameNode:http://192.168.1.120:50070
http:/JobTracker://192.168.1.120:50030

测试：

在master:

cd /usr/local/hadoop
bin/hadoop fs -put conf/ dir1 上传数据

bin/hadoop fs -ls 查看数据信息

bin/hadoop jar hadoop-examples-1.1.2.jar wordcount dir1 dir2 关键字统计，输出统计结果到dir2

在统计过程中，可以在上述web页面产看状态和进度

hadoop 在线添加节点:
在master:

ssh-copy-id 192.168.1.121
cd /usr/local/hadoop/conf

vi slaves :添加192.168.1.121

cd ..

scp -r hadoop/ 192.168.1.121:/usr/local/

在新增节点上启动服务:

cd /usr/local/hadoop/

bin/hadoop-daemon.sh start datanode
bin/hadoop-daemon.sh start tasktracker

均衡数据:
bin/start-balancer.sh
1)如果不执行均衡,那么 cluster 会把新的数据都存放在新的 datanode 上,这样会降低 mapred
的工作效率
2)设置平衡阈值,默认是 10%,值越低各节点越平衡,但消耗时间也更长
bin/start-balancer.sh -threshold 5

hadoop 在线删除 datanode 节点:

在 master 上修改 conf/mapred-site.xml,添加：

<property>
          name>dfs.hosts.exclude</name>
         <value>/usr/local/hadoop/conf/excludes</value>
      </property>
    <property>
        <name>mapred.hosts.exclude</name>
    <value>/usr/local/hadoop/conf/excludes</value>

在 d/usr/local/hadoop/conf下创excludes 文件,并添加需要删除的主机,一行一个:

echo 192.168.1.121 > excludes

在 master 上在线刷新节点
bin/hadoop dfsadmin -refreshNodes

可以通过以下命令查看 datanode 状态
bin/hadoop dfsadmin -report

hadoop分布式部署（2014-3-8）的更多相关文章

CentOS7 下 Hadoop 分布式部署
Hadoop 服务划分使用三台节点,集群部署规划如下服务\主机 hadoop1 hadoop2 hadoop3 HDFS NameNode DataNode DataNode SecondaryN ...
【Hadoop 分布式部署十一: NameNode HA 自动故障转移】
问题描述: 上一篇就是NameNode 的HA 部署完成,但是存在问题,问题是如果主NameNode的节点宕机了,还是需要人工去使用命令来切换NameNode的Acitve 这样很不方便,所以 ...
【Hadoop 分布式部署六：环境问题解决和集群基准测试】
环境问题: 出现Temporary failure in name resolutionp-senior-zuoyan.com 的原因有很多,主要就是主机没有解析到, 那就在hadoop的sl ...
【Hadoop 分布式部署四：配置Hadoop 2.x 中主节点（NN和RM）到从节点的SSH无密码登录】
******************* 一定要使这三台机器的用户名相同,安装目录相同 ************* SSH 无密钥登录的简单介绍(之前再搭 ...
【Hadoop 分布式部署三：基于Hadoop 2.x 伪分布式部署进行修改配置文件】
1.规划好哪些服务运行在那个服务器上需要配置的配置文件 2. 修改配置文件,设置服务运行机器节点首先在 hadoop-senior 的这台主机上进行解压 hadoop2.5 按照 ...
Hadoop分布式部署——要点
这里只记录几个要点,比较容易出问题的地方. 1.各服务器必须有相同的用户(便于使用相同的用户ssh登录)2.ssh互通,配置无密码登录ssh-keygen -t rsa,将id_rsa.pub的内容相 ...
【Hadoop 分布式部署十：配置HDFS 的HA、启动HA中的各个守护进程】
官方参考配置地址 :http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabili ...
【Hadoop 分布式部署九：分布式协作框架Zookeeper架构分布式安装部署】
1.首先将运行在本地上的 zookeeper 给停止掉 2.到/opt/softwares 目录下将 zookeeper解压到 /opt/app 目录下命令: tar -zxvf zoo ...
【Hadoop 分布式部署八：分布式协作框架Zookeeper架构功能讲解及本地模式安装部署和命令使用】
What is Zookeeper 是一个开源的分布式的,为分布式应用提供协作服务的Apache项目提供一个简单的原语集合,以便与分布式应用可以在他之上构建更高层次的同步服务设计非常简单易于编 ...

随机推荐

小结JS中的OOP（下）
关于JS中OOP的具体实现,许多大神级的JS专家都给出了自己的方案. 一:Douglas Crockford 1.1 Douglas Crockford实现的类继承 /** * 原文地址:http:/ ...
Oracle数据库“Specified cast is农田valid”
这种错误是笔者在执行一条计算符合条件的行有多少个,用OracleDataReader读取计算出的行数时发生. 查询语句为: Select Count(1) FROM HP_TS Where TS_ID ...
SPF详解2
什么是SPF? 这里的SPF不是防晒指数,而是指Sender Policy Framework.翻译过来就是发信者策略架构,比较拗口,通常都直接称为SPF. SPF是跟DNS相关的一项技术,它 ...
C++C#时间转换
time_t是从1970年1月1日的格林尼治时间开始的,所以以下就是你要的结果System.DateTime time= new System.DateTime(1970, 1, 1).ToLocal ...
ansible playbook最佳实践
本篇主要是根据官方翻译而来,从而使简单的翻译,并没有相关的实验步骤,以后文章会补充为实验步骤,此篇主要是相关理论的说明,可以称之为中文手册之一,具体内容如下: Ansible playbooks最佳实 ...
（转载）OC学习篇之---Foundation框架中的其他类(NSNumber,NSDate,NSExcetion)
前一篇说到了Foundation框架中的NSDirctionary类,这一一篇来看一下Foundation的其他常用的类:NSNumber,NSDate,NSException. 注:其实按照Java ...
c语言字符串大小写字母转换
输入一个以#结束的字符串,本题要求将小写字母全部转换成大写字母,把大写字母全部转换成小写字母,其它字符不变. 输入格式: 输入在一行中给出一个长度不超过40的.以#结束的非空字符串. 输出格式: 在一 ...
java 开发环境
jdk:包括jre,自己下载即可. 客户端只需安装jre即可. 安装路径:C:\jdk7.0\jdk1.7.0_25\bin (适时更改) 环境变量是从前往后找测试成功:cmd java ...
《学习OpenCV》练习题第五章第一题ab
这道题是载入一幅带有有趣纹理的图像并用不同的模板(窗口,核)大小做高斯模糊(高斯平滑),然后比较用5*5大小的窗口平滑图像两次和用11*11大小的窗口平滑图像一次是否接近相同. 先说下我的做法,a部分 ...
deque 居然已经实现了 insert 接口
最近有个开发需求,根据server传递来的广告位来展示某条广告. 但最终存储广告的数据结构是deque,里面存储的东西还是对象(stl 基于拷贝语义). 想了半天,在开头和结尾插入比较方便,在中间插入 ...

hadoop分布式部署（2014-3-8）

hadoop分布式部署（2014-3-8）的更多相关文章

随机推荐

热门专题