如何做监控？Google SRE 解密

监控值班室: @隔壁老王头 SQL执行耗时时间过长,达到了报警阈值[5000ms] 隔壁老王头: @监控值班室少量报警请忽略,批量关注即可. 监控值班室: @隔壁老王头订单号[88886666]状态为处理中,是否需要关注? 隔壁老王头: @监控值班室请忽略,稍后运营会处理. 如果上面的对话,每天都会高频出现在 QQ.微信之中,你是否会炸毛,尤其是深夜梦正香甜时. 如果上面的报警,你是否会怒火,尤其是当报警邮件撑爆了你的邮箱时. 其实,这就是宁可错杀一千,不可放过一个的监控系统设计理念,千万…

《Google SRE》读后感

注:这是去年国庆时的一篇读书笔记,最近线上故障频繁,重新读了下这篇读书笔记,觉得<Google SRE>非常棒,遂从简书再搬家到博客园,希望大家受益.我的简书地址:daoqidelv 国庆长假,出门太堵,遂待在魔都,花了三天时间将<Google SRE>中文版翻了一遍,好书一本,不管是开发人员.运维人员还是架构师,都可以读一读,受益匪浅的. 鉴于自己是做开发的,所以对于运维相关流程化的内容没有涉猎.不过这部分内容对于运维leader应当是大有裨益的. SRE是个全能手,DevOps…

soft deletion Google SRE 保障数据完整性的手段

w http://www.infoq.com/cn/articles/GoogleSRE-BookChapter26 Google SRE 保障数据完整性的手段就像我们假设Google 的底层系统经常出问题那样,SRE 同样假设任何一个数据保护机制都可能在最不适合的时间出现问题.在所依赖的软件系统不停改变的情况下保障大规模数据的完整性,需要很多特定选择的.相互独立的手段来各自提供高度保障. 24种数据完整性的事故组合由于数据丢失类型很多(如上文所述),没有任何一种银弹可以同时保护所有事故…

开源框架是如何通过JMX来做监控的(一) - JMX简介和Standard MBean

相关文章目录: 开源框架是如何通过JMX来做监控的(一) - JMX简介和Standard MBean 开源框架是如何通过JMX来做监控的(二) - Druid连接池的监控相信很多做Java开发的同学都使用过JDK自带的 jconsole 或者 jvisualvm 监控过JVM的运行情况,但不知道有没有留意过它们会有一个MBean的功能/标签,通过MBean可以看到在JVM中运行的组件的一些属性和操作例如,可以看到Tomcat 8080端口Connector的请求连接池信息,Druid数据库…

Google SRE

SRE_百度百科 https://baike.baidu.com/item/SRE/1141123 我们离Google SRE还有多远? - 简书https://www.jianshu.com/p/6c222a0832ee…

实时监控Cat之旅~对请求是否正常结束做监控（分布式的消息树）

对基于请求的分布式消息树的分析在MVC时有过滤器System.Web.Mvc.ActionFilterAttribute,它可以对action执行的整个过程进行拦截,执行前与执行后我们可以注入自己的代码,这是我们实现对请求做监控的前提,对于一个请求来说,如果它是从Get或者Post过来的,我们会在发起端将初始catContext进行链条式的传递,从第一个节点开始生成并传递,最后到尾结节,开始执行cat,生成新的context,将新的context回写到响应头,由上一个节点拿到这个响应头,开始写…

【转】开源框架是如何通过JMX来做监控的(一) - JMX简介和Standard MBean

原文链接:https://www.cnblogs.com/trust-freedom/p/6842332.html#autoid-0-0-0 相信很多做Java开发的同学都使用过JDK自带的 jconsole 或者 jvisualvm 监控过JVM的运行情况,但不知道有没有留意过它们会有一个MBean的功能/标签,通过MBean可以看到在JVM中运行的组件的一些属性和操作例如,可以看到Tomcat 8080端口Connector的请求连接池信息,Druid数据库连接池的activeCount连…

ss命令结合zabbix对socket做监控

本文为博客园作者所写: 一寸HUI,个人博客地址:https://www.cnblogs.com/zsql/ 最近天冷了,socket也出问题了,一直没有做监控,现在就把监控加起来,目前我们使用的有zabbix和prometheus两种监控,这里我们使用zabbix对其进行监控,这里使用的是ss命令,不使用netstat命令,因为ss的速度快很多,不信的话可以去测一下哈,一台机器的socket越多,对比越明显.而且ss命令能显示更多的内容,其实我对这两个命令不是特别的熟悉,通过man ss可以看…

Google SRE 读书笔记扒一扒SRE用的那些工具

写在前面最近花了一点时间阅读了<SRE Goolge运维解密>这本书,对于书的内容大家可以看看豆瓣上的介绍.总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想.实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义. 书中的一些思想也令我印象深刻,例如SRE工程师要保证投入50%的时间在项目上.错误预算.命运之轮.事故总结等等,对于从业者有很大的启发.书中提到了很多思想,也提到了很多工具,我想不同的单位有不同的文化.制度背景,这种指导思想未必能够执行,但是书…

【iOS】利用Runtime特性做监控

最近在看Object-C运行时特性,其中有一个特别好用的特性叫 Method Swizzling ,可以动态交换函数地址,在应用程序加载的时候,通过运行时特性互换两个函数的地址,不改变原有代码而改变原有行为,达到偷天换日的效果,下面直接看效果吧 1.我们先创建一个Calculator类,并提供两个简单的方法 #import <Foundation/Foundation.h> @interface Calculator : NSObject + (instancetype)shareInstan…

C#做的一个加密/解密的类

转自:http://www.16aspx.com/Article/3904 using System; using System.Security.Cryptography; using System.Text; using System.IO; namespace SEDO { /// <summary> /// SEDO 的摘要说明. /// SEDO 实现的是用一个封装了4种对称加密方法(Des,Rc2,Rijndael,TripleDes)的组件 /// /// 注意事项: /// 1…

zabbix 对服务器的负载做监控

# cat /etc/zabbix/zabbix_agentd.d/average.conf UserParameter=average[*],uptime|awk '{print $NF}' 自定义模板: 创建items: 需要注意的是Type of information:Numeric(float) 创建Triggers: 需要注意的是自定义Template:key的名子不能错了:{LoadeAverage:average.last()}>0.7 创建Graph:…

基于spring boot admin 做监控的一些问题记录

问题一各个健康节点权限问题解决方式加入权限模块 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-security</artifactId> </dependency> 设置账户 security: user: name: admin password: qq123123 management: sec…

elasticSearch2.4与grafana,stagemonitor集成做监控需要执行的mapping

PUT /_template/stagemonitor-metrics-{ "template": "stagemonitor-metrics-*", "settings": { "index": { "refresh_interval": "5s" } }, "mappings": { "_default_": { "dynamic_t…

hdfs 通过命令坏块监测和删除或者地址获取参数做监控

[root@nodecm.oldboy.org.cn /data/dfs/nn/current]# hdfs fsck -list-corruptfileblocksConnecting to namenode via http://nodecm.oldboy.org.cn:50070/fsck?ugi=root&listcorruptfileblocks=1&path=%2FThe filesystem under path '/' has 0 CORRUPT files http://…

故障复盘究竟怎么做？美图SRE结合10年经验做了三大总结（附模板）

美图崇尚的故障文化是 "拥抱故障,卓越运维",倡导的基准是 No-Blame, 即「不指责,重改进」.今年 9 月 TakinTalks 社区曾经分享过美图的三段式故障治理方法(美图 SRE:一次线上大事故,我悟出了故障治理的 3 步 9 招),这次重点讲讲故障治理中的最后一个重要环节 -- 故障后的复盘,在这个过程里可以总结吸取经验教训并改进,这样才能让整个系统的稳定性得到实质性提升. 作者介绍:美图 SRE 负责人 - 石鹏 TakinTalks 社区专家团特聘讲师.2016 年加…

做个简单的Redis监控(源码分享)

Redis监控 Redis 是目前应用广泛的NoSQL,我做的项目中大部分都是与Redis打交道,发现身边的朋友也更多人在用,相对于memcached 来说,它的优势也确实是可圈可点.在随着业务,数据量等不断的扩大后,对Redis的稳定性,性能等也更在的重视,之前就遇到过Redis导致服务器内存不足,做持久化的时候CPU飙高,Redis连接数过多等问题,这时候我们就需要有一个监控工具,能够看到各个指标的变化,方便做跟踪分析,这里先列举下目前接触过几个监控工具. redis-cli 这个工具是Re…

Docker监控怎么做？

http://dockone.io/article/1643 监控的价值与体系在运维体系中, 监控是非常重要的组成部分.通过监控可以实时掌握系统运行的状态,对故障的提前预警,历史状态的回放等,还可以通过监控数据为系统的容量规划提供辅助决策,为系统性能优化提供真实的用户行为和体验. 这几年互联网业务的迅速发展,用户对系统的要求也越来越高,而做好监控成能为系统保驾护航,能有效提高系统的可靠性,可用性及用户体验.监控的价值体现主要体现在以下几点: 节约成本在生产环境中故障是避免不了的,如果能够通过精确…