HDFS相关

datanode相关

参数	解释
dfs.datanode.blockChecksumOp_avg_time	块校验平均时间
dfs.datanode.blockChecksumOp_num_ops	块检验次数
dfs.datanode.blockReports_avg_time	块报告平均时间
dfs.datanode.blockReports_num_ops	块报告次数
dfs.datanode.block_verification_failures	块验证失败次数
dfs.datanode.blocks_read	从硬盘读块总次数
dfs.datanode.blocks_removed	删除块数目
dfs.datanode.blocks_replicated	块复制总次数
dfs.datanode.blocks_verified	块验证总次数
dfs.datanode.blocks_written	向硬盘写块总次数
dfs.datanode.bytes_read	读出总字节包含crc验证文件字节数
dfs.datanode.bytes_written	写入总字节数（在写入每个packet时计数）
dfs.datanode.copyBlockOp_avg_time	复制块平均时间
dfs.datanode.copyBlockOp_num_ops	复制块次数
dfs.datanode.heartBeats_avg_time	向namenode汇报平均时间
dfs.datanode.heartBeats_num_ops	向namenode汇报总次数
dfs.datanode.readBlockOp_avg_time	读块平均时间（单位ms）
dfs.datanode.readBlockOp_num_ops	读块总次数
dfs.datanode.reads_from_local_client	从本地读入块次数
dfs.datanode.reads_from_remote_client	从远程读入块次数
dfs.datanode.replaceBlockOp_avg_time	替换块平均时间（负载均衡策略）
dfs.datanode.replaceBlockOp_num_ops	替换块次数（负载均衡策略）
dfs.datanode.volumeFailures	notfound
dfs.datanode.writeBlockOp_avg_time	写块平均时间
dfs.datanode.writeBlockOp_num_ops	写块总次数一般和dfs.datanode.blocks_written
dfs.datanode.writes_from_local_client	写本地次数
dfs.datanode.writes_from_remote_client	写远程次数

JVM相关

参数	解释
jvm.metrics.gcCount	gc总次数
jvm.metrics.gcTimeMillis	gc总耗时(ms)
jvm.metrics.logErro	jvm Error次数
jvm.metrics.logFatal	jvm出现fatal次数
jvm.metrics.logInfo	jvm 出现Info的次数
jvm.metrics.logWarn	jvm出现warn的次数
jvm.metrics.maxMemoryM	jvm试图使用最大内存（M），如果没有限制返回Long.MAX_VALUE
jvm.metrics.memHeapCommittedM	jvm提交堆内存大小
jvm.metrics.memHeapUsedM	jvm使用堆内存大小
jvm.metrics.memNonHeapCommittedM	jvm非堆内存已提交大小
jvm.metrics.memNonHeapUsedM	jvm非堆内存已使用大小
jvm.metrics.threadsBlocked	正在阻塞等待监视器锁的线程数目
jvm.metrics.threadsNew	尚未启动的线程数目
jvm.metrics.threadsRunnable	正在执行状态的线程数目
jvm.metrics.threadsTerminated	已退出线程数目
jvm.metrics.threadsTimedWaiting	等待另一个线程执行取决于指定等待时间的操作的线程数目
jvm.metrics.threadsWaiting	无限期地等待另一个线程来执行某一特定操作的线程数目

RPC相关

参数	解释
rpc.metrics.NumOpenConnections	number of open connections rpc连接打开的数目
rpc.metrics.ReceivedBytes	number of bytes received rpc收到的字节数
rpc.metrics.RpcProcessingTime_avg_time	Average time for RPC Operations in last interval rpc在最近的交互中平均操作时间
rpc.metrics.RpcProcessingTime_num_ops	rpc在最近的交互中连接数目
rpc.metrics.RpcQueueTime_avg_time	rpc在交互中平均等待时间
rpc.metrics.RpcQueueTime_num_ops	rpc queue中完成的rpc操作数目
rpc.metrics.SentBytes	number of bytes sent rpc发送的数据字节
rpc.metrics.callQueueLen	length of the rpc queue rpc 队列长度
rpc.metrics.rpcAuthenticationFailures	number of failed authentications rpc 验证失败次数
rpc.metrics.rpcAuthenticationSuccesses	number of successful authentications 验证成功数
rpc.metrics.rpcAuthorizationFailures	number of failed authorizations 授权失败次数
rpc.metrics.rpcAuthorizationSuccesses	number of successful authorizations 成功次数

MapReduce相关

参数	解释
mapred.shuffleInput.shuffle_failed_fetches	从map输出中取数据过程中获取失败次数
mapred.shuffleInput.shuffle_fetchers_busy_percent	在获取map输出过程中并行获取线程忙碌占总并行获取线程百分比
mapred.shuffleInput.shuffle_input_bytes	shuffle过程中读入数据字节
mapred.shuffleInput.shuffle_success_fetches	从map输出中取数据过程中获取成功次数
mapred.shuffleOutput.shuffle_failed_outputs	向reduce发送map输出失败次数
mapred.shuffleOutput.shuffle_handler_busy_percent	向reduce发送map输出中server线程忙碌占总工作线程(在tasktracker.http.threads中配置)百分比。
mapred.shuffleOutput.shuffle_output_bytes	shuffle过程中输出数据字节
mapred.shuffleOutput.shuffle_success_outputs	向reduce成功
mapred.tasktracker.mapTaskSlots	设置map槽数
mapred.tasktracker.maps_running	正在运行的map数
mapred.tasktracker.reduceTaskSlots	设置reduce槽数
mapred.tasktracker.reduces_running	正在运行的reduce数
mapred.tasktracker.tasks_completed	完成任务数
mapred.tasktracker.tasks_failed_ping	因tasktracker与task交互失败导致的失败的task数目
mapred.tasktracker.tasks_failed_timeout	因task未在mapred.task.timeout配置的(默认10分钟)时间内汇报进度而超时kill的task数目

rpc detailed 相关

参数	解释
rpc.detailed-metrics.canCommit_avg_time	rpc询问是否提交任务平均时间
rpc.detailed-metrics.canCommit_num_ops	rpc询问是否提交任务次数
rpc.detailed-metrics.commitPending_avg_time	rpc报告任务提交完成，但是该提交仍然处于pending状态的平均时间
rpc.detailed-metrics.commitPending_num_ops	rpc报告任务提交完成，但是该提交仍然处于pending状态的次数
rpc.detailed-metrics.done_avg_time	rpc报告任务成功完成的平均时间
rpc.detailed-metrics.done_num_ops	rpc报告任务成功完成的次数
rpc.detailed-metrics.fatalError_avg_time	rpc报告任务出现fatalerror的平均时间
rpc.detailed-metrics.fatalError_num_ops	rpc报告任务出现fatalerror的次数
rpc.detailed-metrics.getBlockInfo_avg_time	从指定datanode获取block的平均时间
rpc.detailed-metrics.getBlockInfo_num_ops	从指定datanode获取block的次数
rpc.detailed-metrics.getMapCompletionEvents_avg_time	reduce获取已经完成的map输出地址事件的平均时间
rpc.detailed-metrics.getMapCompletionEvents_num_ops	reduce获取已经完成的map输出地址事件的次数
rpc.detailed-metrics.getProtocolVersion_avg_time	获取rpc协议版本信息的平均时间
rpc.detailed-metrics.getProtocolVersion_num_ops	获取rpc协议版本信息的次数
rpc.detailed-metrics.getTask_avg_time	当子进程启动后，获取jvmtask的平均时间
rpc.detailed-metrics.getTask_num_ops	当子进程启动后，获取jvmtask的次数
rpc.detailed-metrics.ping_avg_time	子进程周期性的检测父进程是否还存活的平均时间
rpc.detailed-metrics.ping_num_ops	子进程周期性的检测父进程是否还存活的次数
rpc.detailed-metrics.recoverBlock_avg_time	为指定的block开始恢复标记生成的平均时间
rpc.detailed-metrics.recoverBlock_num_ops	为指定的block开始恢复标记生成的次数
rpc.detailed-metrics.reportDiagnosticInfo_avg_time	向父进程报告任务错误消息的平均时间，该操作应尽可能少，这些消息会在jobtracker中保存
rpc.detailed-metrics.reportDiagnosticInfo_num_ops	向父进程报告任务错误消息的次数
rpc.detailed-metrics.startBlockRecovery_avg_time	开始恢复block的平均时间
rpc.detailed-metrics.startBlockRecovery_num_ops	开始恢复block的次数
rpc.detailed-metrics.statusUpdate_avg_time	汇报子进程进度给父进程的平均时间
rpc.detailed-metrics.statusUpdate_num_ops	汇报子进程进度给父进程的次数
rpc.detailed-metrics.updateBlock_avg_time	更新block到新的标记及长度的平均操作时间
rpc.detailed-metrics.updateBlock_num_ops	更新block到新的标记及长度的次数

HBase相关

参数	解释
hbase.regionserver.blockCacheCount	内存中缓存块(block cache)数。缓存中StoreFiles(HFiles)的块（block）数量。
hbase.regionserver.blockCacheEvictedCount	因超出堆大小限制，从缓存中释放的块数量。
hbase.regionserver.blockCacheFree	可用的缓存块容量。
hbase.regionserver.blockCacheHitCachingRatio	缓存块的缓存命中率（0-100）。读取的缓存命中率被配置为查看缓存（如cacheblocks=true）。
hbase.regionserver.blockCacheHitCount	StoreFiles(HFiles)从缓存中读取的块数量。
hbase.regionserver.blockCacheHitRatio	缓存块的命中率(0-100).包括所有读请求，尽管cacheBlocks=false的读出会被计为cache丢失。
hbase.regionserver.blockCacheMissCount	被StoreFiles (HFiles)请求但是未从缓存中读出的块数量。
hbase.regionserver.blockCacheSize	内存中块缓存的容量，特指被blockcache占用的内存容量。
hbase.regionserver.compactionQueueSize	Compaction队列大小，用于compaction的RegionServer中的Store个数。
hbase.regionserver.flushQueueSize	MemStore中等待flush操作的排队region数量。
hbase.regionserver.fsReadLatency_avg_time	文件系统延迟（ms）。从HDFS读操作的平均时间。
hbase.regionserver.memstoreSizeMB	当前RegionServer中所有Memstore的总容量(MB)。
hbase.regionserver.requests	总的读和写请求次数。请求相当于RegionServer的RPC调用，因此一个Get相当于一次请求，但是哪怕Scan的caching值设置为 1000，对SCAN每个“下一次”调用仅相当于一次请求，（例如，非每行）。对于大数据块的请求，每个 HFile对应一次请求。
hbase.regionserver.storefileIndexSizeMB	RegionServer中 StoreFile文件索引大小的总和(MB)。

Hadoop记录-Ganglia监控HDFS和HBase指标说明的更多相关文章

Hadoop记录- zookeeper 监控指标
目前zookeeper获取监控指标已知的有两种方式: 1.通过zookeeper自带的 four letter words command 获取各种各样的监控指标 2.通过JMX Client连接zo ...
使用ganglia监控hadoop及hbase集群
一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gm ...
第十二章 Ganglia监控Hadoop及Hbase集群性能(安装配置)
1 Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gm ...
使用ganglia监控hadoop及hbase集群分类： B3_LINUX 2015-03-06 20:53 646人阅读评论(0) 收藏
介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp 一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测 ...
Hadoop记录-Hadoop监控指标汇总
系统参数监控metrics load_one 每分钟的系统平均负载 load_fifteen 每15分钟的系统平均负载 load_five 每5 ...
Ganglia监控Hadoop集群的安装部署[转]
Ganglia监控Hadoop集群的安装部署一. 安装环境 Ubuntu server 12.04 安装gmetad的机器:192.168.52.105 安装gmond的机器:192.168.52 ...
Ganglia 监控Hadoop
Ganglia监控Hadoop集群的安装部署一. 安装环境 Ubuntu server 12.04 安装gmetad的机器:192.168.52.105 安装gmond的机器:192.168.52 ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
Ganglia监控Hadoop集群的安装部署
一. 安装环境 Ubuntu server 12.04 安装gmetad的机器:192.168.52.105 安装gmond的机器:192.168.52.31,192.168.52.32,192.16 ...

随机推荐

SQL Server查询优化器的工作原理
SQL Server的查询优化器是一个基于成本的优化器.它为一个给定的查询分析出很多的候选的查询计划,并且估算每个候选计划的成本,从而选择一个成本最低的计划进行执行.实际上,因为查询优化器不可能对每一 ...
subprocess 模块
import subprocess # 就用来执行系统命令 import os cmd = r'dir D:\上海python全栈4期\day23 | findstr "py"' ...
☆ [HDU2089] 不要62「数位DP」
类型:数位DP 传送门:>Here< 题意:问区间$[n,m]$的数字中,不含4以及62的数字总数解题思路数位DP入门题先考虑一般的暴力做法,整个区间扫一遍,判断每个数是否合法并累计 ...
【BZOJ4033】【HAOI2015】树上染色树形DP
题目描述给你一棵$n$个点的树,你要把其中$k$个点染成黑色,剩下$n-k$个点染成白色.要求黑点两两之间的距离加上白点两两之间距离的和最大.问你最大的和是多少. \(n\leq 200 ...
ans Single VIP LLB and SLB config
ans Single VIP LLB and SLB config 配置命令: # 配置设备工作模式和开启的功能 > enable ans mode FR MBF Edge USNIP L3 P ...
【比赛】NOIP2018 赛道修建
最小值最大,二分长度然后判断赛道大于等于这个长度最多可以有多少条可以贪心,对于一个点和它的一些儿子,儿子与儿子之间尽量多配(排序后一大一小),剩下的选个最长的留给自己的父亲就好了具体实现可以用一 ...
Luogu P4643 【模板】动态dp(矩阵乘法,线段树,树链剖分)
题面给定一棵 $n$ 个点的树,点带点权. 有 $m$ 次操作,每次操作给定 $x,y$ ,表示修改点 $x$ 的权值为 $y$ . 你需要在每次操作之后求出这棵树的最大权独立集 ...
Hdoj 2899.Strange fuction 题解
Problem Description Now, here is a fuction: F(x) = 6 * x^7+8x^6+7x^3+5x^2-yx (0 <= x <=100) Ca ...
[复习]动态dp
[复习]动态dp 你还是可以认为我原来写的动态dp就是在扯蛋. [Luogu4719][模板]动态dp 首先作为一个$dp$题,我们显然可以每次修改之后都进行暴力$dp$,设\(f[i][0/ ...
解决使用jedis连接是报DENIED Redis is running in protected mode错误
DENIED Redis is running in protected mode because protected mode is enabled, no bind address was spe ...

Hadoop记录-Ganglia监控HDFS和HBase指标说明

HDFS相关

datanode相关

JVM相关

RPC相关

MapReduce相关

rpc detailed 相关

HBase相关

Hadoop记录-Ganglia监控HDFS和HBase指标说明的更多相关文章

随机推荐

热门专题