GreenPlum 大数据平台--监控

数据库状态监控活动

活动	过程	纠正措施
列出当前状态为down的Segment。如果有任何行被返回，就会生成一个警告或者告警。推荐频率：每5到10分钟重要度： IMPORTANT	在postgres数据库中运行下例查询： SELECT * FROM gp_segment_configuration WHERE status <> 'u';	如果该查询返回任何行，按照这些步骤来纠正问题：验证宕机的Segment所在的主机是有响应的。如果主机没有问题，检查宕机的Segment的主Segment和镜像Segment的pg_log文件，以便发现Segment宕机的根因。如果没有找到意料之外的错误，运行gprecoverseg工具将那些Segment重新上线。
检查当前处于改变跟踪模式的Segment。如果任何行被返回，应该生成一个警告或者告警。推荐频率：每5到10分钟重要度： IMPORTANT	在postgres数据库中执行下列查询： SELECT * FROM gp_segment_configuration WHERE mode = 'c';	如果该查询返回任何行，按这些步骤来纠正问题：验证宕机的Segment所在的主机是有响应的。如果主机没有问题，检查宕机的Segment的主Segment和镜像Segment的pg_log文件，以便发现Segment宕机的根因。如果没有找到意料之外的错误，运行gprecoverseg工具将那些Segment重新上线。
检查当前在重新同步的Segment。如果有行被返回，应该生成一个警告或者告警。推荐频率：每5到10分钟重要度： IMPORTANT	在postgres数据库中执行下列查询： SELECT * FROM gp_segment_configuration WHERE mode = 'r';	当这个查询返回行时，它表示那些Segment正在被重新同步。如果状态没有从'r'变成's'，那么在受影响的Segment的主Segment和镜像Segment的pg_log文件中检查错误。
检查没有以其最优角色运转的Segment。如果找到任何Segment，该集群可能不平衡。如果任何行被返回，应该生成一个警告或者告警。推荐频率：每5到10分钟重要度： IMPORTANT	在postgres数据库中执行下列查询： SELECT * FROM gp_segment_configuration WHERE preferred_role <> role;	当Segment没有运行在其首选角色中时，每台主机上可能不是都有均匀数据量的主Segment，这表示处理是倾斜的。等待一个可能的窗口并且重启数据库将Segment带回到它们的首选角色。
运行一个分布式查询来测试它运行在所有Segment上。对每个主Segment都应返回一行。推荐频率：每5到10分钟重要度： CRITICAL	在postgres数据库中执行下列查询： SELECT gp_segment_id, count(*) FROM gp_dist_random('pg_class') GROUP BY 1;	如果这个查询失败，就说明该集群中存在分派到某些Segment的问题。这是一种少见的事件。检查无法被分派的主机确保没有硬件或者网络问题。
在一个Greenplum数据库 4.2或者更早的集群上测试Master镜像的状态。如果值是"Not Synchronized"，则抛出一个告警或者警告。推荐频率：每5到10分钟重要度： IMPORTANT	在postgres数据库中执行下列查询： SELECT summary_state FROM gp_master_mirroring;	在来自Master和后备Master的pg_log中检查错误。如果没有意料之外的错误并且机器是启动的，运行gpinitstandby工具将后备Master带回到线上。在GPDB 4.2及更早的版本上，这要求一次数据库重启。
在Greenplum数据库上测试Master镜像的状态。如果该值不是"STREAMING"，则抛出一个告警或者警告。推荐频率：每5到10分钟重要度： IMPORTANT	运行下列psql命令： psql dbname -c 'SELECT procpid, state FROM pg_stat_replication;'	从来自Master和后备Master的pg_log文件中检查错误。如果没有意料之外的错误并且机器是启动的，运行gpinitstandby工具将后备Master带回到线上。
执行一次基本检查看看Master是否启动且工作。推荐频率：每5到10分钟重要度： CRITICAL	在postgres数据库中运行下列查询： SELECT count(*) FROM gp_segment_configuration;	如果这个查询失败，则活动Master可能宕机。多尝试几次，然后手工检查活动Master。如果活动Master确实已经宕机，重新引导或者重启活动Master以确保没有进程留在活动Master上，然后触发后备Master的激活。

数据库告警日志监控

活动	过程	纠正措施
从系统中检查FATAL和ERROR日志消息。推荐频率：每15分钟重要度： WARNING 这项活动和接下来的一项是监控log_alert_history表中消息的两种方法。只需要设置其中一种即可。	在gpperfmon数据库中运行下列查询： SELECT * FROM log_alert_history WHERE logseverity in ('FATAL', 'ERROR') AND logtime > (now() - interval '15 minutes');	向DBA发送一个告警让他（她）分析该告警。可能想要对该查询增加额外的过滤条件忽略掉兴趣度不高的特定消息。
设置服务器配置参数来发送SNMP 或者 email告警。推荐频率：N/A。告警由系统生成。重要度： WARNING 这项活动和上一项是监控log_alert_history表中消息的两种方法。只需要设置其中一种即可。	启用服务器配置参数以通过 SNMP 或者 email发送告警： gp_email_smtp_server gp_email_smtp_userid gp_email_smtp_password orgp_snmp_monitor_address gp_snmp_community gp_snmp_use_inform_or_trap	DBA基于告警的性质采取行动。

活动

过程

纠正措施

从系统中检查FATAL和ERROR日志消息。

推荐频率：每15分钟

重要度： WARNING

这项活动和接下来的一项是监控log_alert_history表中消息的两种方法。只需要设置其中一种即可。

在gpperfmon数据库中运行下列查询：

SELECT * FROM log_alert_history

WHERE logseverity in ('FATAL', 'ERROR')

   AND logtime > (now() - interval '15 minutes');

向DBA发送一个告警让他（她）分析该告警。可能想要对该查询增加额外的过滤条件忽略掉兴趣度不高的特定消息。

设置服务器配置参数来发送SNMP 或者 email告警。

推荐频率：N/A。告警由系统生成。

重要度： WARNING

这项活动和上一项是监控log_alert_history表中消息的两种方法。只需要设置其中一种即可。

启用服务器配置参数以通过 SNMP 或者 email发送告警：

gp_email_smtp_server
gp_email_smtp_userid
gp_email_smtp_password orgp_snmp_monitor_address
gp_snmp_community
gp_snmp_use_inform_or_trap

DBA基于告警的性质采取行动。

硬件和操作系统监控

活动	过程	纠正措施
底层平台检查需要进行的维护或者硬件问题。推荐频率：实时（如果可能），或者每15分钟重要度： CRITICAL	为硬件和OS错误设置SNMP或其他系统检查。	如果需要，从Greenplum集群移除一台机器以解决硬件及OS问题，然后把它加回到集群中并且运行gprecoverseg。
检查卷上用于Greenplum数据库数据存储和OS的磁盘空间使用。推荐频率：每5到30分钟重要度： CRITICAL	设置一个磁盘空间检查。设置一个阈值，当一个磁盘达到一个容量的百分数时抛出一个告警。推荐阈值是75%用满。不推荐运行容量接近100%的系统。	通过移除一些数据或者文件释放系统上的空间。
检查网络接口上的错误或者丢包。推荐频率：每小时重要度： IMPORTANT	设置一个网络接口检查。	与网络和OS团队一起解决问题。
检查RAID错误或者RAID性能退化。推荐频率：每5分钟重要度： CRITICAL	设置一个RAID检查。	尽快替换失效的磁盘。与系统管理团队一起尽快解决其他RAID或者控制器错误。
运行Greenplum的gpcheck工具来测试集群的配置中编写有当前的推荐。推荐频率：在创建集群时或者向集群中增加新机器时重要度： IMPORTANT	运行gpcheck。	与系统管理团队一起根据gpcheck工具做出的推荐更新配置。
检查足够的I/O带宽和I/O倾斜。推荐频率：创建集群时或者怀疑有硬件问题时。	运行Greenplum的gpcheckperf工具。	如果数据传输率与下列不相似，则集群可能存在不足： 2 GB每秒的磁盘读 1 GB每秒的磁盘写 10 GB每秒的网络读写如果传输率低于预期，请向数据架构师咨询性能预期。如果集群上的机器显示出一种不均匀的性能画像，与系统管理团队一起修复有错误的机器。

目录监控

活动	过程	纠正措施
运行目录一致性检查以确保集群中每台主机上的目录都是一致的并且处于好的状态。推荐频率：每周重要度： IMPORTANT	在每个数据库中运行Greenplum的gpcheckcat工具： gpcheckcat -O	对任何检测到的问题运行修复脚本。
运行一个长期的表目录检查。推荐频率：每月重要度： CRITICAL	在一次停机时间，在系统中没有用户时，在每个数据库中运行Greenplum的gpcheckcat工具： gpcheckcat -R persistent	对任何检测到的问题运行修复脚本。
检查没有相应pg_attribute项的pg_class项。推荐频率：每月重要度： IMPORTANT	在一次停机时间，在系统中没有用户时，在每个数据库中运行Greenplum的gpcheckcat工具： gpcheckcat -R pgclass	对任何被发现的问题运行修复脚本。
检查泄露的临时方案和丢失的方案定义。推荐频率：每月重要度： IMPORTANT	在一次停机时间，在系统中没有用户时，在每个数据库中运行Greenplum的gpcheckcat工具： gpcheckcat -R namespace	对任何被发现的问题运行修复脚本。
检查随机分布表上的约束。推荐频率：每月重要度： IMPORTANT	在一次停机时间，在系统中没有用户时，在每个数据库中运行Greenplum的gpcheckcat工具： gpcheckcat -R distribution_policy	对任何被发现的问题运行修复脚本。
检查非存在对象上的依赖。推荐频率：每月重要度： IMPORTANT	在一次停机时间，在系统中没有用户时，在每个数据库中运行Greenplum的gpcheckcat工具： gpcheckcat -R dependency	对任何被发现的问题运行修复脚本。

活动

过程

纠正措施

运行目录一致性检查以确保集群中每台主机上的目录都是一致的并且处于好的状态。

推荐频率：每周

重要度： IMPORTANT

在每个数据库中运行Greenplum的gpcheckcat工具：

gpcheckcat -O

对任何检测到的问题运行修复脚本。

运行一个长期的表目录检查。

推荐频率：每月

重要度： CRITICAL