Hadoop Balance

一.hadoop balance工具的用法: 启动balance: bin/start-balancer.sh -threshold 5 停止balance: bin/stop-balancer.sh 二.影响hadoop balance工具的几个参数: -threshold默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个datanode存储使用率和集群总存储使用率的差值都应该小于这个阀值,理论上,该参数设置的越小,整个集群就越平衡,但是线上环境中,hado…

hadoop balance工具平衡集群dfs存储及遇到异常Got error, status message Not able to receive block 1073959989 from /192.168.1.37:3004 because threads quota is exceeded

hadoop集群某个节点dfs存储比其他节点存储高时,一般会使用hadoop提供的balance(start-balancer.sh -threshold 10 )工具来移动高存储节点上的块到低存储节点上. 其中 -threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越平衡,但是在线上环境中,hadoop集群在进行balance时,…

hadoop balance均衡datanode存储不起作用问题分析

前段时间因为hadoop集群各datanode空间使用率很不均衡,需要重新balance(主要是有后加入集群的2台机器磁盘空间比较大引起的),在执行如下语句: bin/start-balancer.sh -threshold 10 后,日志输出如下: Time Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being Moved Mar , :: AM KB GB Mar , :: AM KB GB Mar , ::…

hadoop 中balance 机制

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点.当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等.可见,保证HDFS中的数据平衡是非常重要的. 在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的状态,使用这个程序的命令如下: $HADOOP_HOME/bin/start-balancer.s…

hadoop 集群加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令

加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令方式1:静态添加datanode,停止namenode方式 1.停止namenode 2.修改slaves文件,并更新到各个节点3.启动namenode 4.执行hadoop balance命令.(此项为balance集群使用,如果只是添加节点,则此步骤不需要) ----------------------------------------- 方式2:动态添加datanode,不停namenode方式 1.修改slaves文件,添加需…

【转】HADOOP HDFS BALANCER介绍及经验总结

转自:http://www.aboutyun.com/thread-7354-1-1.html 集群平衡介绍 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点.当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等.可见,保证HDFS中的数据平衡是非常重要的. 在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到…

Hadoop Balancer源代码解读

前言近期在做一些Hadoop运维的相关工作,发现了一个有趣的问题,我们公司的Hadoop集群磁盘占比数值參差不齐,高的接近80%.低的接近40%.并没有充分利用好上面的资源,可是balance的操作跑的也是正常的啊.所以打算看一下Hadoop的balance的源码,更深层次的去了解Hadoop Balance的机制. Balancer和Distpatch 上面2个类的设计就是与Hadoop Balance操作最紧密联系的类,Balancer类负载找出<source, target>这种起始,…

hadoop集群加入新节点hhbase调试

一.改动vi /etc/hosts 添加节点ip.(没个节点都要加入 ) 二.设置hostname vi /etc/sysconfig/network 把hostname改为node3 验证:重新启动linux 或者:hostname 主机名(这样设置是hostname暂时有效,重新启动后失效 ) 三.先设置本机的shh免password登陆操作:(1)产生密钥,运行命令ssh-keygen -t rsa,产生的密钥文件位于~/.ssh目录中 …

HADOOP HDFS BALANCER介绍及经验总结（转）

1.集群执行balancer命令,依旧不平衡的原因是什么?该如何解决? 2.尽量不在NameNode上执行start-balancer.sh的原因是什么? 集群平衡介绍 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点.当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等.可见,保证HDFS中的数据平衡是非常重要的. 在Hadoop中,包含一个Ba…

hadoop磁盘空间不均衡的解决办法

hadoop集群在运行一段时间后,总是会出现某台机器的磁盘使用率特别高,有的使用率特别低,针对这种情况,hadoop提供了balancer工具调整磁盘负载使用命令:start-balancer.sh -threshold 1 影响hadoop balance工具的几个参数: -threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值 ,理论上,该参数设置的越小,整个集群就越…

hdfs 删除和新增节点

最近发现hdfs的一个问题,每当集群开启的时候,有一个节点上的可用空间就一直在减少,并且速度很快,发现是data目录下的dncp_block_verification.log.curr文件在一直变大,查了日志没有发现什么可疑的原因,只在datanode的日志上发现有几条日志如下非常可疑: -- ::, INFO org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetAsyncDiskService: Deleted BP--…

hadoop 修改datanode balance带宽使用限制

前段时间,一个客户现场的Hadoop看起来很不正常,有的机器的存储占用达到95%,有的机器只有40%左右,刚好前任的负责人走了,这边还没有明确接班人的时候. 我负责的大数据计算部分,又要依赖Hadoop的基础平台,要是Hadoop死了,我的报表也跑不出来(专业背锅). 做下balance,让各个节点的存储均衡一下. 1.首先需要配上这个参数: <property> <name>dfs.datanode.balance.bandwidthPerSec</name> <…

Hadoop学习笔记—14.ZooKeeper环境搭建

从字面上来看,ZooKeeper表示动物园管理员,这是一个十分奇妙的名字,我们又想起了Hadoop生态系统中,许多项目的Logo都采用了动物,比如Hadoop采用了大象的形象,所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的. 一.ZooKeeper基础介绍 1.1 动物园也要保障安全 zookeeper是hadoop下面的一个子项目,用来协调跟hadoop相关的一些分布式的框架,如hadoop, hive, pig等, 其实他们都是动物,所以叫zookeeper ——“动物园…

Hadoop HDFS 用户指南

This document is a starting point for users working with Hadoop Distributed File System (HDFS) either as a part of a Hadoop cluster or as a stand-alone general purpose distributed file system. While HDFS is designed to "just work" in many enviro…

Hadoop日常维护系列——Hadoop添加删除节点

添加节点 1.修改host 和普通的datanode一样.添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start tasktracker 4.均衡block [r…

Hadoop HDFS负载均衡

Hadoop HDFS负载均衡转载请注明出处:http://www.cnblogs.com/BYRans/ Hadoop HDFS Hadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统.它和现有的分布式文件系统有很多的共同点.HDFS 是一个高容错性的文件系统,提供高吞吐量的数据访问,非常适合大规模数据集上的应用. HDFS副本摆放策略第一副本:放置在上传文件的DataNode上:如果是集群…

Hadoop集群datanode磁盘不均衡的解决方案

一.引言: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等.当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等. 二.问题: 因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据迁移至新的hadoop集群,而且datanode节点不能全部上线,其中还可能会出现节点上线或下线的情况,这个时候就很…

Hadoop官方文档翻译——HDFS Architecture 2.7.3

HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware Failure(硬件失效是常态) Streaming Data Access(支持流式访问) Large Data Sets(大数据集) Simple Coherency Model(简单一致性模型) "Moving Computation is Cheaper than Moving Data&q…

hadoop日常运维与升级总结

日常运维升级问题处理方法日常运维进程管理由于配置文件的更改,需要重启生效, 或者是进程自己因某种致命原因终止, 或者发现进程工作出现异常等情况下,需要进行手动进程的关闭或启动, 或者是增删节点过程中的需要, 进程的关闭与启动,使用 hadoop-daemon.sh start|stop datanode/namenode/journalnode/zkfc yarn-daemon.sh start|stop nodemanager/resourcemanager 检查进程是否完成关闭:…

记一次hadoop datanode进程问题分析

症状:datanode进程还在,但是在web ui接口发现该节点已经被置为dead节点.监测datanode进程日志,开始时一直狂刷很忙,后来停止刷新日志. 分析datanode进程日志,发现如下一些错误: datanode.DataNode: PacketResponder java.io.IOException: Connection reset by peer DataXceiver error processing WRITE_BLOCK operation java.io.IOExce…

Hadoop配置文件

部分内容参考:http://www.linuxqq.net/archives/964.html http://slaytanic.blog.51cto.com/2057708/1100974/ http://blog.csdn.net/jediael_lu/article/details/38680013 hadoop的重要配置文件有以下几个: 在1.2.1版本中,core-default.xml有73个属性,hdfs-default.xml有76个属性,mapred-default.xml有…

hadoop MapReduce 笔记

1. MapReduce程序开发步骤编写map 和 reduce 程序–> 单元测试 -> 编写驱动程序进行验证-> 本地数据集调试 -> 部署到集群运行用到的工具: Junit.Mockito.Ant 2. 使用Configuration 关键点: 1. Configuration类可以加载配置文件,包括系统的和自定义的 2. addResource方法后面的配置文件会覆盖前面的 3. 配置文件的几个特性:name.value.descri…

Hadoop 添加删除数据节点（datanode）

前提条件: 添加机器安装jdk等,最好把环境都搞成一样,示例可做相应改动实现目的: 在hadoop集群中添加一个新增数据节点. 1. 创建目录和用户 mkdir -p /app/hadoop groupadd hadoop useradd licz -g hadoop -d /app/hadoop chown licz:hadoop /app/hadoop passwd licz 注:如果出现下面的问题 [root@dbserver22 ~]# su - licz-bash-3.2$ 解决办…

如何在Hadoop的MapReduce程序中处理JSON文件

简介: 最近在写MapReduce程序处理日志时,需要解析JSON配置文件,简化Java程序和处理逻辑.但是Hadoop本身似乎没有内置对JSON文件的解析功能,我们不得不求助于第三方JSON工具包.这里选择json-simple实现我们的功能. 在Hadoop上执行Java程序的命令如下所示: [hadoop@localhost]$ hadoop jar my-mapreduce.jar my-mapreduce.jar是我们进行日志处理的MapReduce程序.现在假定我们需要在其中处理JS…

hadoop(四):配置参数

hadoop参数配置,主要是配置 core-site.xml,hdfs-site.xml,mapred-site.xml 三个配置文件,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置,core-default.xml,hdfs-default.xml,mapred-default.xml 是集群的默认配置,HDP2.4 安装包中 hadoop 版本为2.7,分别可从下面的地址获取到默认的参数说明: core-…

hadoop 根据SecondaryNameNode恢复Namenode

1.修改conf/core-site.xml 增加 <property> <name>fs.checkpoint.period</name> <value>3600</value> <description>The number of seconds between two periodic checkpoints. </description> </property> <property> <…

hadoop HA 之 QJM

前言本文主要通过对hadoop2.2.0集群配置的过程加以梳理,所有的步骤都是通过自己实际测试.文档的结构也是根据自己的实际情况而定,同时也会加入自己在实际过程遇到的问题.搭建环境过程不重要,重要点在于搭建过程中遇到的问题,解决问题的过程. 可能自己遇到的问题在一些由经验的老者手上都不是问题,但是这些问题着实让自己耽误了很长时间,最后问题解决也是费了太大心血.也通过这篇文档,表现出来,算是总结,为后者提供意见. Hadoop2.2.0体系结构要想理解本节内容,首先需要了解hadoop1的体系…

有关hadoop分布式配置详解

linux配置ssh无密码登录配置ssh无密码登录,先要安装openssh,如下: yum install openssh-clients 准备两台linux服务器或虚拟机,设置两台linux的hosts为: 1 [root@hadoop1 ~]# vim /etc/hosts 2 192.168.1.110 hadoop1 3 192.168.1.111 hadoop2 再按照如下步骤: 01 [root@hadoop1 ~]# ssh-keygen -t rsa 02 Generating…

hadoop 常用配置项

core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI和端口 fs.checkpoint.dir /opt/data/hadoop1/hdfs/namesecondary1 定义hadoop的name备份的路径,官方文档说是读取这个,写入dfs.name.dir fs.checkpoint.period 1800 定义name备份的备份间隔时间,秒…

Hadoop集群日常运维

(一)备份namenode的元数据 namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用.因此应该经常对元数据进行备份,最好是异地备份. 1.将元数据复制到远程站点 (1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它机器 #!/bin/bash export dirname=/mnt/tmphadoop/dfs/namesecondary/current/`date +%y%m%d%H` if [ ! -d…

【Hadoop Balance】的更多相关文章