CDH运维】的更多相关文章

1.单个节点宕机后,想可能存在的问题: 时间同步是否正常运行 hbase对时间是否同步很敏感 2.zookeeper报警 ZooKeeper 服务 canary 因未知原因失败. 该警报是在重启CM的时候会触发的一个警报. 警报的展示如下: 报错解释: 这是 ZooKeeper 服务级运行状况测试,用于检查基本客户端操作是否正常以及是否在合理时间内完成.该测试将对定期执行以下操作序列的“Canary”测试的结果进行报告. 首先,与 ZooKeeper 服务连接并建立会话(根会话),并创建一个永久…
日常运维 升级 问题处理方法 日常运维 进程管理 由于配置文件的更改,需要重启生效, 或者是进程自己因某种致命原因终止, 或者发现进程工作出现异常等情况下,需要进行手动进程的关闭或启动, 或者是增删节点过程中的需要, 进程的关闭与启动,使用 hadoop-daemon.sh start|stop datanode/namenode/journalnode/zkfc yarn-daemon.sh start|stop nodemanager/resourcemanager 检查进程是否完成关闭:…
面试必考 mysql5和mysql6 有什么区别 mysql-server-5.5:默认引擎改为Innodb,提高了性能和扩展性,提高实用性(中继日志自动恢复) mysql-server-5.6:InnoDB性能加强,InnoDB死锁信息可以记录到 error 日志,方便分析,MySQL5.6支持延时复制,可以让slave跟master之间控制一个时间间隔,方便特殊情况下的数据恢复. nginx用于md5加密的模块是什么 nginx_file_md5 lvs调优参数 CONFIG_IP_VS_T…
1 Hbase日常运维 1.1 监控Hbase运行状况 1.1.1 操作系统 1.1.1.1 IO 群集网络IO,磁盘IO,HDFS IO IO越大说明文件读写操作越多.当IO突然增加时,有可能:1.compact队列较大,集群正在进行大量压缩操作. 2.正在执行mapreduce作业 可以通过CDH前台查看整个集群综合的数据或进入指定机器的前台查看单台机器的数据: Io wait 磁盘IO对集群的影响比较大,如果io wait时间过长需检查系统或磁盘是否有异常.通常IO增加时io wait也会…
我现在在一家公司负责大数据平台(CDH平台)的运维管理,最常遇见的问题我总结出来,并且继续在下面更新.希望方便自己以后trouble shooting以及方便各位同行解决问题与学习. 关于做运维有几个重要的要点一定一定要遵守的: 遇到问题冷静,冷静,冷静,就山崩都要冷静,心态关乎你是否能将问题解决同时不会给人留下不好的印象. 凡是关于对集群更改与变动的操作,一定要在测试环境测试到没问题才上生产,不然可能会造成不可挽回的损失. 尽可能的定期做备份,它可能在最绝望的时刻救命,这是最后的救命草. HU…
日常维护的命令 1,major_compact 'testtable',通常生产环境会关闭自动major_compact(配置文件中hbase.hregion.majorcompaction设 为0),选择一个晚上用户少的时间窗口手工major_compact,如果hbase更新不是太频繁,可以一个星期对所有表做一次 major_compact,这个可以在做完一次major_compact后,观看所有的storefile数量,如果storefile数量增加到 major_compact后的sto…
说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课:https://url.cn/5HIqOOr,主要是实战强.含金量高.专注度高,有6个专题+2个大型项目+腾讯云服务器,真枪实弹传授上千大数据集群运维经验.   课程介绍:   这是专门为IT运维人员设计的高端大数据课程,可能也是目前的 only  one!课程内容从100多份招聘要求中萃取知识点,再邀请几位年薪60W+的大数据运维专家共同商讨打磨而成.传统运维…
现状 •小公司/ 创业团队< 500台服务器规模 开源方案:Zabbix.Nagios.Cacti- 云服务提供商:监控宝.oneAlert等 •BAT级别> 10万台服务器 投入大量的人力,内部自研,与业务严重耦合没法作为产品推出 •中间阶层 无从可选   早期,选用Zabbix •Zabbix是一款开源的企业级监控系统 •对其进行二次开发.封装.调优... •为什么选择Zabbix •Cacti •Collectd •RRDtool •Nagios •openTSDB   Za…
运维人的神技 运维既是个技术活儿也是个苦差事,而运维人员被期望有着无限的技能:主机.存储.网络.操作系统样样精通,而且还要会写SQL.shell.开发语言java..net.python等等,对业务更是门清,对各个用户的脾气喜好也要了如指掌. 除了广阔的知识面,强大的技术能力,沟通协调的能力,还需要拥有超强的耐心.谨慎的态度以及强健的体魄. 运维人的痛 人手有限,往往身兼数职(网管.项目管理.协调厂商.DBA.应用.写报告),既有很多协调性的管理工作,又有一些专业技术工作,尤其是数据库,短时间是…
马哥linux运维初级+中级+高级 视频教程 教学视频 全套下载(近50G)目录详情:18_02_ssl协议.openssl及创建私有CA18_03_OpenSSH服务及其相关应用09_01_磁盘及文件系统管理详解之三10_05_脚本编程之八 脚本完成磁盘分区格式化20_01_DNS主从复制及区域传送04_04_grep及正则表达式01_03_操作系统基础08_02_bash脚本编程之七 case语句及脚本选项进阶14_03_bash脚本编程之十一(Linux启动流程之三) SysV服务脚本01…