Linux记录-shell获取hdfs used使用

#!/bin/bash

export JAVA_HOME=xxx

export HADOOP_HOME=xxx

export HADOOP_CONF_DIR=xxx

cd /home/hdfs/xxx

mv host.txt host.txt_`date +"%Y-%m-%d"`

mv host.txt_`date +"%Y-%m-%d"` host/

mv hostdfs.txt hostdfs.txt_`date +"%Y-%m-%d"`

mv hostdfs.txt_`date +"%Y-%m-%d"` host/

rm -f ip.txt

rm -f allhostname.txt

rm -f hostname.txt

rm -f iphostname.txt

rm -f dfused.txt

rm -f minhost.txt

rm -f maxhost.txt

rm -f host.txt

rm -f nohup.out

rm -f dfsreport.txt

echo "start checking hdfs used rate"

$HADOOP_HOME/bin/hdfs dfsadmin -report > dfsreport.txt

cat dfsreport.txt | grep -i "50010" | awk -F ":" '{print $2}'| awk '{print $1}' > ip.txt

cat dfsreport.txt | grep -i "hostname" | awk -F ": " '{print $2}' > allhostname.txt

cat dfsreport.txt  | grep "DFS Used%" | awk -F ": " '{print $2}' | awk -F "%" '{print $1}' > dfused.txt

livesum=$(cat dfsreport.txt  | grep "Live datanodes" | awk '{print $3}' | awk -F "):" '{print $1}' | awk -F "(" '{print $2}')

echo $livesum

sed -i '1d' dfused.txt

let livesum+=1

sed -i $livesum',$d' dfused.txt

sed -i $livesum',$d' ip.txt

linesum=$(cat ip.txt | wc -l)

echo $linesum

harr=($(awk '{print $1}' ip.txt))

darr=($(awk '{print $1}' dfused.txt))

if [ $linesum -gt 0 ]

  then

  for (( i = 0 ; i < ${#harr[@]} ; i++ ))

  do

     for (( j = 0 ; j < ${#darr[@]} ; j++ ))

     do

       if [ $i -eq $j ]

       then

         echo ${harr[$i]} ":" ${darr[$j]} >> hostdfs.txt

       fi

     done

 done

else

   echo "Not Live Datanodes"

fi

hharr=($(cat hostdfs.txt | awk '{print $3}' |sort -ru | tail -n 60))

ddarr=($(cat hostdfs.txt | awk '{print $3}' |sort -ru | head -n 100))

for (( k = 0; k< ${#hharr[@]} ; k++ ))

do

    if [[ $(echo $(cat hostdfs.txt) | grep "${hharr[$k]}") != "" ]]

    then

    cat hostdfs.txt | grep "${hharr[$k]}" | awk 'NR==1{print $1}' >> minhost.txt

    fi

done

for (( m = 0; m< ${#ddarr[@]} ; m++ ))

do

    if [[ $(echo $(cat hostdfs.txt) | grep "${ddarr[$m]}") != "" ]]

    then

    cat hostdfs.txt | grep "${ddarr[$m]}" | awk 'NR==1{print $1}' >> maxhost.txt

    fi

done

cat maxhost.txt | awk '{print $1}' >> host.txt

cat minhost.txt | awk '{print $1}' >> host.txt

narr=($(cat allhostname.txt | awk '{print $1}'))

for (( k = 0; k< ${#harr[@]}; k++ ))

do

  for (( n = 0; n < ${#narr[@]}; n++))

  do

    if [ $k -eq $n ]

    then

      echo ${harr[$k]} ":" ${narr[$n]} >>iphostname.txt

    fi

  done

done

hostarr=($(cat host.txt | awk '{print $1}'))

for (( c = 0; c < ${#hostarr[@]} ; c++ ))

do

    if [[ $(echo $(cat iphostname.txt) | grep "${hostarr[$c]}") != "" ]]

    then

      cat iphostname.txt | grep "${hostarr[$c]}" | awk 'NR==1{print $3}' >> hostname.txt

    fi

done

max_rate=$(cat dfused.txt | sort -r | head -n 1 | awk '{print int($0)}')

avg_used_rate=$(cat dfused.txt | awk '{e+=$1}END{print e/NR}' | awk '{print int($0)}' )

let max_avg_diff=max_rate-avg_used_rate

if [ $max_avg_diff -gt 5 ]

   then

   jps | grep -i "balancer"

   if [ $? -eq 0 ]

   then

      kill -9 $($JAVA_HOME/bin/jps | grep -i "balancer" | awk 'NR==1{print $1}')

   fi

   $HADOOP_HOME/bin/hdfs dfs -mv /system/balancer.id /system/balancer.id_`date +"%Y-%m-%d-%H-%M"`

   nohup $HADOOP_HOME/bin/hdfs  balancer  -policy datanode -threshold 5 -include -f host.txt > /home/hdfs/balancer/rebalancer.log 2>&1 &

else

  echo "Nothing to do"

fi

$ nohup hdfs balancer \
-Ddfs.datanode.balance.max.concurrent.moves = 10 \
-Ddfs.balancer.dispatcherThreads = 1024 \
-Ddfs.balance.bandwidthPerSec = 1073741824

#此配置用于限制允许Datanode平衡群集的最大并发块移动数
dfs.datanode.balance.max.concurrent.moves, default is 5
#带宽
dfs.datanode.balance.bandwidthPerSec, default is 1048576 (=1MB/s)
dfsadmin -setBalancerBandwidth <bandwidth in bytes per second>
#mover线程数
dfs.balancer.moverThreads, default is 1000
#datanode传输的最大线程数
dfs.datanode.max.transfer.threads
修改dfs.datanode.max.transfer.threads=4096 (如果运行HBase的话建议为16384)，
指定用于在DataNode间传输block数据的最大线程数，老版本的对应参数为dfs.datanode.max.xcievers。
#平衡策略，默认为datanode
[-policy <policy>]
blockpool: Cluster is balanced if each pool in each node is balanced.
datanode: Cluster is balanced if each datanode is balanced.
#阈值
[-threshold <threshold>] [1.0, 100.0]
#包含列表
[-include [-f <hosts-file> | <comma-separated list of hosts>]]
#排除列表
[-exclude [-f <hosts-file> | <comma-separated list of hosts>]]
#最大移动数据大小
dfs.balancer.max-size-to-move, default is 10737418240 (=10GB)

Linux记录-shell获取hdfs used使用的更多相关文章

Linux记录-shell获取hdfs表查询mysql
#!/bin/sh hdfs dfs -ls /user/hive/warehouse | awk '{print $8}' | awk -F "/" '{print $5}' & ...
linux中用shell获取昨天、明天或多天前的日期
linux中用shell获取昨天.明天或多天前的日期时间 -- :: BlogJava-专家区原文 http://www.blogjava.net/xzclog/archive/2015/12/0 ...
linux中用shell获取时间,日期
linux中用shell获取昨天.明天或多天前的日期:在Linux中对man date -d 参数说的比较模糊,以下举例进一步说明:# -d, --date=STRING display time d ...
Linux记录-shell 100例（转载）
1.编写hello world脚本 #!/bin/bash # 编写hello world脚本 echo "Hello World!" 2.通过位置变量创建 Linux 系统账户及 ...
Linux记录-shell实现脚本监控服务器及web应用
1.apache web 服务器 1 2 3 4 5 6 7 8 9 10 !/bin/bash # 表示请求链接3秒钟,不要返回的测试数据 nc -w 3 localhost 80 &> ...
Linux记录-shell一行代码杀死进程（收藏）
ps -ef |grep hello |awk '{print $2}'|xargs kill -9
Linux记录-Shell自动化部署批量建立用户和批量SSH配置（转载）
if [ ! $# -eq 2 ] ; then echo "请输入用户名和密码以空格分开!" exit else name="$1" passwd=" ...
Linux记录-shell自动化批量部署sql脚本并记录日志信息（转载）
#!/bin/bash #script_version=v110 db_host=127.0.0.1 db_port=3306 db_username=db_test_inst db_passwd=` ...
linux在shell中获取时间
linux在shell中获取时间获得当天的日期 date +%Y-%m-%d 输出: 2011-07-28 将当前日期赋值给DATE变量DATE=$(date +%Y%m%d) 有时候我们需要使用今 ...

随机推荐

HDU5769-Substring-多校#4-1006-后缀数组
给定一个字符x和一个字符串.要求输出包含此字符的所有不同字串. 后缀数组可以计算一个字符串的所有不同字串,理解了原理就能做这题了. 对于每一个后缀i,将产生len-sa[i]-hight[i]的前缀, ...
Android 根据版本号更新
1 读取android 版本号具体文件位置: app下 build.gradle文件 versionCode和 versionName defaultConfig { versionCode 1 v ...
UOJ273 [清华集训2016] 你的生命已如风中残烛【数学】
题目分析: 把$0$卡牌看成$-1$.题目要求前缀和始终大于等于$1$. 最后添加一个$-1$,这样除了最后一位之外大于等于1,最后一位等于0. 构造圆排列.这样的话一个圆排列只有一个满足的情况,然后 ...
「Splay」区间翻转
传送门:>Here< 解法分析用splay来维护这个序列. 一直没有搞明白的是,这里的splay的节点究竟维护的是什么?是权值吗?肯定不是,因为区间是会翻转的,如果维护权值的话很快平衡树 ...
MS-DOS 6.22 +Vim+masm 汇编环境
安装vim 个人习惯用 vim 编辑,因此稍微折腾了一下.不用这么麻烦直接用 edit 编辑也是可以的. 原来安装的 MS-DOS 7.10 虚拟机安装好vim后无法运行,所以改用了 MS-DOS 6 ...
【BZOJ5305】[HAOI2018]苹果树（组合计数）
[BZOJ5305][HAOI2018]苹果树(组合计数) 题面 BZOJ 洛谷题解考虑对于每条边计算贡献.每条边的贡献是$size*(n-size)$. 对于某个点$u$,如果它有一棵大 ...
HDU5758 Explorer Bo 思维+树形dp
题意自己看题目吧,挺短的. 思考过程:昨天感觉一天不做题很对不起自己,于是晚上跑到实验室打开别人树形dp的博客做了上面最后一个HDU的题,也是个多校题..一开始没有头绪了很久,因为起点不固定,所以这1 ...
模拟@Test的功能实现
注解和注释区别 * 注释:给程序员看的.* 注解:给虚拟机看的.(让虚拟机看到程序中的注解,注解代表程序的一些特殊的功能.) JDK中提供的注解 @Override :描述子类重写父类的方法: * J ...
分布式链路跟踪 Sleuth 与 Zipkin【Finchley 版】
原创: dqqzj SpringForAll社区今天 Spring Cloud Sleuth Span是基本的工作单位. 例如,发送 RPC是一个新的跨度,就像向RPC发送响应一样. 跨度由跨度唯一 ...
JS时间戳转换成时间格式
TimeNow: function (val) { var date = new Date(val); var Y = date.getFullYear(); var m = date.getMont ...

Linux记录-shell获取hdfs used使用

Linux记录-shell获取hdfs used使用的更多相关文章

随机推荐

热门专题