通过shell脚本统计elasticsearch indices每天的数量以及大小

前情提要：
最近elasticsearch集群总出问题，之前虽然修复了，现在又出现新的问题，于是PM要求拉取elasticsearch每天建立的索引有多少，索引有多大，需要对机器进行评估
客户现场无法接触到elasticsearch集群（生产环境，客户方不许可），通过dashboard开启一个pod（资源有限，无法流畅的操作），只好另寻妖路，从dashboard操作获取索引信息，再将文件传输到本机
下面，我要开始装13了（我是菜13，狗头保命）

# curl -XGET "localhostIp:9200/_cat/indices?v" | grep xxx > /tmp/xxx.indices

'这步是为了将elasticsearch的indices重定向到一个文件里面，因为elasticsearch收集的日志中，有一部分是自己公司产品的日志，还有一部分是客户方的日志，因为保密协议，所以，一些公司的信息就以xxx来替代了

请看脚本

#!/usr/bin/env bash

set -e 

pwd=$(cd `dirname $0`; pwd)

year=2020

month=12

day=$(seq -w 1 31)

file=test

dir=${pwd}/total

mkdir ${dir}

for i in ${day}

do

  kb=$(grep ${year}-${month}-${i} ${file}.indices.txt | \

  awk '{print $NF}' | \

  grep kb | \

  awk -F 'kb' '{print $1}' | \

  awk '{sum += $1};END {print sum/1024/1024}' )

  echo "${year}-${month}-${i}合计:${kb}gb" > ${dir}/${file}.indices.${year}-${month}-${i}.txt

  mb=$(grep ${year}-${month}-${i} ${file}.indices.txt | \

  awk '{print $NF}' | \

  grep mb | \

  awk -F 'mb' '{print $1}' | \

  awk '{sum += $1};END {print sum/1024}')

  echo "${year}-${month}-${i}合计:${mb}gb" >> ${dir}/${file}.indices.${year}-${month}-${i}.txt

  gb=$(grep ${year}-${month}-${i} ${file}.indices.txt | \

  awk '{print $NF}' | \

  grep gb | \

  awk -F 'gb' '{print $1}' | \

  awk '{sum += $1};END {print sum}')

  echo "${year}-${month}-${i}合计:${gb}gb" >> ${dir}/${file}.indices.${year}-${month}-${i}.txt

  total=$(cat ${dir}/${file}.indices.${year}-${month}-${i}.txt | \

  awk -F ':' '{print $NF}' | awk -F 'gb' '{sum += $1};END {print sum}')

  echo "${year}-${month}-${i}总计:${total}gb" >> ${dir}/${file}.indices.${year}-${month}-${i}.txt

  wc=$(grep ${year}-${month}-${i} ${file}.indices.txt | \

  wc -l)

  echo "${year}-${month}-${i}总计:${wc}条" >> ${dir}/${file}.indices.${year}-${month}-${i}.txt

done

  grep 总计 ${dir}/${file}.indices.${year}-${month}-*.txt > ${dir}/${file}.indices.total.txt

  cat ${dir}/${file}.indices.total.txt

  sleep 10

  rm -rf ${dir}

  rm -f ${pwd}/${file}.indices.total.txt

README:

1、因为一个月31天嘛，所以脚本会生成31份文件，为了不影响一些平时的操作，脚本执行完，会将获取的信息输出到终端，随后会将这些收集信息的文件都删除，请知悉

2、关于elasticsearch导出的信息模板，请看下面，如果模板不一样，需要修改awk的位置变量（建议重写。。。）

3、统计的数据大小单位，我默认的是GB，awk我不太会用，所以最终求和后，会有科学计算的符号在里面，'如果有大佬看过，知道如何优化，还望赐教

4、关于变量：

   4.1、year是指年，month是指月，day用的seq命令（利用-w参数，使得数字的输出都是两位数，因为索引的模板中，日期都是两位数的）

   4.2、file是指最先导出的indices文件中，过滤出来的字段，我的文件名称格式是test.indices.txt，使用的时候，需要注意，否则会报错

   4.3、dir是脚本运行的时候，创建的目录，是在脚本所在目录下创建的下一级目录，将后面统计的文件都存放在这个目录下面，目的是为了方便后面直接删除目录，避免错删文件

   4.4、kb是指store.size一列的kb大小的indices过滤出来，通过awk进行求和（mb和gb同理）

   4.5、total是将kb和mb换算成gb后的数字和gb的数字求和，获取一天的索引总大小

   4.6、wc是索引数量求和，获取一天的索引数量

5、脚本逻辑：

   5.1、通过for循环，awk切割，将store.size这一列过滤出来，然后细分kb,mb和gb，切割出数字进行换算和求和，最终默认的单位是gb

   5.2、通过for循环，wc统计，获取每天的索引数量

   5.3、通过'grep 总计'将每天的indices信息重定向到xxx.indices.total.txt，通过cat输出到终端，然后睡眠10秒后，删除脚本生成的文件

6、'脚本只在我自己的环境上测试过，也是完成了PM交代的任务，以上的内容，仅供学习和参考，切勿用于商业用途（开源万岁）

elasticsearch 模板(公司相关的信息和谐了，这些不重要)

health status index                                         uuid      pri rep docs.count docs.deleted store.size pri.store.size

green  open   xxx-xxx-xxx-ip:port-2020-11-27 8psXiCG0Acubr46OcKo9TA   5   1        525            0    841.1kb        420.5kb

# 输出到终端的效果（同样，公司的信息做了和谐）：

/tmp/total/xxxxxx.indices.2020-12-01.txt:2020-12-01总计:27.5024gb

/tmp/total/xxxxxx.indices.2020-12-01.txt:2020-12-01总计:3条

/tmp/total/xxxxxx.indices.2020-12-02.txt:2020-12-02总计:57.0024gb

/tmp/total/xxxxxx.indices.2020-12-02.txt:2020-12-02总计:4条

/tmp/total/xxxxxx.indices.2020-12-03.txt:2020-12-03总计:59.6024gb

/tmp/total/xxxxxx.indices.2020-12-03.txt:2020-12-03总计:4条

/tmp/total/xxxxxx.indices.2020-12-04.txt:2020-12-04总计:61.5026gb

/tmp/total/xxxxxx.indices.2020-12-04.txt:2020-12-04总计:4条

/tmp/total/xxxxxx.indices.2020-12-05.txt:2020-12-05总计:0.48008gb

/tmp/total/xxxxxx.indices.2020-12-05.txt:2020-12-05总计:2条

'本菜鸡有一个远大的志向：用最low的脚本，跑最贵的服务器     /二哈/二哈/二哈'

通过shell脚本统计elasticsearch indices每天的数量以及大小的更多相关文章

Shell脚本统计文件行数
Shell脚本统计文件行数转自 http://www.jb51.net/article/61943.htm 示例:row_count.sh文件 awk '{print NR}' row_cou ...
利用shell脚本统计文件中出现次数最多的IP
比如有如下文件test.txt 1 134.102.173.43 2 134.102.173.43 3 134.102.171.42 4 134.102.170.9 要统计出现次数最多的IP可 ...
采用shell脚本统计代码的行数
刚毕业那会儿有一次去台湾公司面试,我问多行代码怎么写.我从来没有想过这个问题,粗略计算,.惊叹:大概几十万行不行. 最近整理资料,看着eclipse左边全面上市,我觉得这个东西.代码共同拥有的行倒底总 ...
Shell脚本统计店中店导出数据
有一个数据文件 yue.csv 是这样的 #head yue.csv 日期,商家名称,要求在线数,当天在线数,要求在线时长,在线时长达标数, ……"2017-12-31&quo ...
shell脚本统计多个CPU利用率
本节主要内容:top命令统计CPU的利用率一,问题分析 MySQL在Linux下是多线程的,而且只能将多个线程分布到一个CPU上.因此,使用小型服务器,或者PC SERVER,多个CPU利用率并不高 ...
【shell脚本实例】shell脚本统计单词频率、出现次数最多的n个单词
1. 统计的对象words.txt,每个单词占一行(从简考虑了~) zjd@ubuntu:~/test$ cat word.txt used this count mysql count this u ...
shell脚本统计一段程序运行时间【转】
转自:https://bbs.csdn.net/topics/391943383#include <stdio.h> #include <stdlib.h> #include ...
[shell]shell脚本统计数值大小
#! /bin/bash array=( ... ) var1= var2= ;i<=;i++)); do array[i]="$( cat /sys/bus/iio/devices/ ...
shell定时统计Nginx下access.log的PV并发送给API保存到数据库
1,统计PV和IP 统计当天的PV(Page View) cat access.log | sed -n /`date "+%d\/%b\/%Y"`/p |wc -l 统计某一天的 ...

随机推荐

nginx配置指定域名访问，nginx禁止ip访问，配置空主机头 syscal
1.大家有过这方面的困扰,就是自己的网站给其他人恶意域名解析到自己的服务器ip上. 特别不爽,那大家可以用用空主机头的方法. 先给大家看下我的nginx.conf配置 http { log_forma ...
Java定时调度
一.实现方式 Timer:单线程,串行: ScheduledExecutor:并行,论询,实现麻烦: Spring Scheduler:适合小任务: JcronTab:按照crontab语法编写的ja ...
鲜为人知的一些meta标签作用
来自UC Scrat-team http://scrat-team.github.io/ <meta name="viewport" content="width= ...
MySQL 中如何定位 DDL 被阻塞的问题
经常碰到开发.测试童鞋会问,线下开发.测试环境,执行了一个DDL,发现很久都没有执行完,是不是被阻塞了?要怎么解决? 包括在群里,也经常会碰到类似问题:DDL 被阻塞了,如何找到阻塞它的 SQL ? ...
网络协议学习笔记(七)流媒体协议和P2P协议
概述上一篇讲解了http和https的协议的相关的知识,现在我们谈一下流媒体协议和P2P协议. 流媒体协议:如何在直播里看到美女帅哥最近直播比较火,很多人都喜欢看直播,那一个直播系统里面都有哪些组 ...
机器学习&恶意代码动态检测
目录写在前面 1 基于API调用的统计特征 2 API序列特征 3 API调用图 4 基于行为的特征 references: 写在前面对恶意程序动态检测方法做了概述, 关于方法1和2可以参考阿里云 ...
【Java】GUI实现贪吃蛇
[Java]GUI实现贪吃蛇前言我们在做这个小游戏之前,得确保自己的AWT和Swing有一定的基础,并且会写一些简单的逻辑操作.这些都会在后面写的时候体现出来. 狂神老师从这里开始讲贪吃蛇的我们 ...
NPOI导出例子
public static string ExportAOrder(ExportData data) { var cellHeard = new Dictionary<string, strin ...
【刷题-LeetCode】239. Sliding Window Maximum
Sliding Window Maximum Given an array nums, there is a sliding window of size k which is moving from ...
【重构前端知识体系之HTML】讲讲对HTML5的一大特性——语义化的理解
[重构前端知识体系之HTML]讲讲对HTML5的一大特性--语义化的理解引言在讲什么是语义化之前,先看看语义化的背景. 在之前的文章中提到HTML最重要的特性,那就是标签.但是项目一大,标签多的看 ...

通过shell脚本统计elasticsearch indices每天的数量以及大小

请看脚本

通过shell脚本统计elasticsearch indices每天的数量以及大小的更多相关文章

随机推荐

热门专题