Hadoop记录-HDFS均衡脚本

#!/bin/bash

#作用：hdfs使用率取最大100个主机和最小80个主机进行数据均衡

#打印报告

hdfs dfsadmin -report>report.txt

#截取主机名

cat report.txt | grep -i "hostname" | awk -F ': ' '{print $2}' >hostname.txt

#截取hdfs使用率

cat report.txt | grep -i "DFS Used%" | awk -F ': ' '{print $2}' | awk -F '%' '{print $1}' >dfsused.txt

#截取datanode存活数

livenum=$(cat report.txt | grep -i "Live datanodes" | awk -F "(" '{print $2}' | awk -F ")" '{print $1}')

#删除总的hdfs使用率

sed -i '1d' dfsused.txt

#截取存活datanode的hdfs使用率和主机名

dfsarr=((sed -n '1,$livenum p' dfsused.txt))

hostarr=((sed -n '1,$livenum p' hostname.txt))

#组合主机名和hdfs使用率一一对应起来

let livenum+=1

if [ $livenum -gt  0 ]

then

   for((i=1;i<$livenum;i++))

   do

    for((j=1;j<$livenum;j++))

    do

      if [ $i -eq $j ]

      then

         echo  ${hostarr[$i]} ":" ${dfsarr[$j]} >> hostdfs.txt

      fi

    done

   done

else

    echo "Not Live DataNodes"

fi

#获取使用率最大100个主机名和最小80台主机名（按第二列排序）

sort -rn -k 2 -t : hostdfs.txt | awk -F ":" '{print $1}' | head -n 100 >>host.txt

sort -rn -k 2 -t : hostdfs.txt | awk -F ":" '{print $1}' | tail -n 80 >>host.txt

#求平均值和最大值进行比较

avg_used=$(cat hostdfs.txt | awk -F ":" '{print $2*100}' | awk '{sum+=$1} END {print sum/NR}')

max_used=$(cat hostdfs.txt | awk -F ":" '{print $2*100}' | sort -rn | head -n 1)

diff_max_avg=$(($max_used-$avg_used))

#如果最大值与平均值的之差大于5，表示集群数据不均衡

if [ $diff_max_avg -gt 5 ]

then

    jps | grep -i "balancer"

    if [ $? -eq 0]

    then

       kill -9  $(jps | grep -i "balancer" | awk '{print $1}')

    else

       #对这些主机执行局部均衡

       hdfs   dfs  -rm   /system/balancer.id

       hdfs balancer

       -Ddfs.datanode.balance.max.concurrent.moves = 10 \

       -Ddfs.balancer.moverThreads = 1024 \

       -Ddfs.balance.bandwidthPerSec = 104857600 \

       -policy  datanode  -threshold  5  -include -f host.txt

    fi

else

    echo "Nothing to do"

fi

Hadoop记录-HDFS均衡脚本的更多相关文章

Hadoop记录-hdfs转载
Hadoop 存档每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需 ...
Hadoop记录-HDFS balancer配置
HDFS balancer配置(可通过CM配置)dfs.datanode.balance.max.concurrent.moves 并行移动的block数量,默认5 dfs.datanode.bala ...
Hadoop记录-HDFS配额Quota
设置文件数配额 hdfs dfsadmin -setQuota <N> <directory>...<directory> 例如:设置目录下的文件总数为1000个h ...
介绍hadoop中的hadoop和hdfs命令
有些hive安装文档提到了hdfs dfs -mkdir ,也就是说hdfs也是可以用的,但在2.8.0中已经不那么处理了,之所以还可以使用,是为了向下兼容. 本文简要介绍一下有关的命令,以便对had ...
hadoop记录-hive常见设置
分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create tabl ...
深入理解Hadoop之HDFS架构
Hadoop分布式文件系统(HDFS)是一种分布式文件系统.它与现有的分布式文件系统有许多相似之处.但是,与其他分布式文件系统的差异是值得我们注意的: HDFS具有高度容错能力,旨在部署在低成本硬件上 ...
大数据技术之Hadoop（HDFS）
第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1．基本语 ...
Apache Hadoop2.0之HDFS均衡操作分析
1 HDFS均衡操作原理 HDFS默认的块的副本存放策略是在发起请求的客户端存放一个副本,如果这个客户端在集群以外,那就选择一个不是太忙,存储不是太满的节点来存放,第二个副本放在与第一个副本相同的机架 ...
hadoop记录-Hadoop参数汇总
Hadoop参数汇总 linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 ...

随机推荐

zentaopms - 禅道项目管理系统部署
概述禅道是开源免费的项目管理软件使用步骤管理员添加组织添加用户用户权限管理(通过分组确定权限) 产品经理添加产品添加模块(隶属于产品) 添加需求(隶属于模块) 添加计划(计划形成“路线 ...
GBDT 算法
GBDT (Gradient Boosting Decision Tree) 梯度提升迭代决策树.GBDT 也是 Boosting 算法的一种,但是和 AdaBoost 算法不同(AdaBoost 算 ...
postgresql分布式集群之citus简介（转载）
一.Citus是什么 citus是PG的一个sharding插件,可以把PG变成一个分布式数据库.目前在苏宁有大量的生产应用跑在citus+pg的环境中.大家可以看it大咖视频. citus是一款基于 ...
ZR#990
ZR#990 解法: 首先,一个 $ k $ 进制的数的末尾 $ 0 $ 的个数可以这么判断 while(x) { x /= k; cnt++;//cnt为0的个数 } 因为这道题的 $ 0 $ 的个 ...
[Shell]利用JS文件反弹Shell
0x01 模拟环境攻击: kali ip: 192.168.248.132 测试: windows 7 x64 ip: 192.168.248.136 0x02 工具地址 https://githu ...
project.config.json在设置了编译模式的时候会出现配置,怎么解决
因为之前为了方便就选了一个页面进行编译,但是想想回到index首页,就编译了一个pages/index/index. 出现了上面这个,当我再选择编译的时候,还是不会变成之前的. 解决方法是把红框那段 ...
Shell编程——脚本编写思路与过程
Linux系统Shell编程——脚本编写思路与过程 “ 前段时间有小伙伴问我一些问题,涉及到shell脚本的编写问题,事后,我深入思考了下,实际生产环境的确也会经常用到,因此如何写这个脚本?它的思路在 ...
mysql集群高可用架构
前言高可用架构对于互联网服务基本是标配,无论是应用服务还是数据库服务都需要做到高可用.对于一个系统而言,可能包含很多模块,比如前端应用,缓存,数据库,搜索,消息队列等,每个模块都需要做到高可用,才能 ...
ICEM-闪闪的党徽
原视频下载地址:http://yunpan.cn/cusb64DXrammF 访问密码 3d0f
使用 concurrently 并行地运行多个命令（同时跑前端和后端的服务）
我现在有一个项目是这样的,前端是用 React 写的,后端是用 Nodejs,目录结构如下: . ├── README.md ├── backend ├── node_modules ├── pack ...

Hadoop记录-HDFS均衡脚本

Hadoop记录-HDFS均衡脚本的更多相关文章

随机推荐

热门专题