Google SRE】的更多相关文章

注:这是去年国庆时的一篇读书笔记,最近线上故障频繁,重新读了下这篇读书笔记,觉得<Google SRE>非常棒,遂从简书再搬家到博客园,希望大家受益.我的简书地址:daoqidelv 国庆长假,出门太堵,遂待在魔都,花了三天时间将<Google SRE>中文版翻了一遍,好书一本,不管是开发人员.运维人员还是架构师,都可以读一读,受益匪浅的. 鉴于自己是做开发的,所以对于运维相关流程化的内容没有涉猎.不过这部分内容对于运维leader应当是大有裨益的. SRE是个全能手,DevOps…
SRE_百度百科 https://baike.baidu.com/item/SRE/1141123 我们离Google SRE还有多远? - 简书https://www.jianshu.com/p/6c222a0832ee…
w http://www.infoq.com/cn/articles/GoogleSRE-BookChapter26 Google SRE 保障数据完整性的手段 就像我们假设Google 的底层系统经常出问题那样,SRE 同样假设任何一个数据保护机 制都可能在最不适合的时间出现问题.在所依赖的软件系统不停改变的情况下保障大规 模数据的完整性,需要很多特定选择的.相互独立的手段来各自提供高度保障. 24种数据完整性的事故组合 由于数据丢失类型很多(如上文所述),没有任何一种银弹可以同时保护所有事故…
监控值班室: @隔壁老王头 SQL执行耗时时间过长,达到了报警阈值[5000ms] 隔壁老王头: @监控值班室 少量报警请忽略,批量关注即可. 监控值班室: @隔壁老王头 订单号[88886666]状态为处理中,是否需要关注? 隔壁老王头: @监控值班室 请忽略,稍后运营会处理. 如果上面的对话,每天都会高频出现在 QQ.微信之中,你是否会炸毛,尤其是深夜梦正香甜时. 如果上面的报警,你是否会怒火,尤其是当报警邮件撑爆了你的邮箱时. 其实,这就是宁可错杀一千,不可放过一个的监控系统设计理念,千万…
写在前面 最近花了一点时间阅读了<SRE Goolge运维解密>这本书,对于书的内容大家可以看看豆瓣上的介绍.总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想.实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义. 书中的一些思想也令我印象深刻,例如SRE工程师要保证投入50%的时间在项目上.错误预算.命运之轮.事故总结等等,对于从业者有很大的启发.书中提到了很多思想,也提到了很多工具,我想不同的单位有不同的文化.制度背景,这种指导思想未必能够执行,但是书…
引言:本文作者Ben Treynor Sloss,Google 运维团队的高级副总裁,SRE 名称的发明者,在这里提供了他对SRE 的定义.  本文选自<SRE:Google运维解密>. 大家都知道, 计算机软件系统离开人通常是无法自主运行的.那么,究竟应该如何去运维一个日趋复杂的大型分布式计算系统呢?雇佣系统管理员(sysadmin)运维复杂的计算机系统,是行业内一直以来的普遍做法.而Google 的解决之道是--SRE.  SRE 团队通过雇佣软件工程师,创造软件系统来维护系统运行以替代传…
How the production environment at Google fits together for networking, monitoring and finishing with a sample service architecture at Google. I am a Site Reliability Engineer at Google, annotating the SRE book in a series of posts. The opinions state…
虎牙直播运维负责人张观石 本文是根据虎牙直播运维负责人张观石10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族开放日<虎牙直播平台SRE实践>演讲中的分享内容整理而成. 张观石,拥有10余年网站开发.架构.运维经验:目前关注互联网服务可靠性系统工程.运维平台的规划建设.网站高可用架构等方面:在音视频传输质量评估.微服务运维方面积累了丰富的经验. 目录 一. 直播平台的架构及运维挑战 (一) 音视频传输流程及挑战 (二) 一个直播间的流程 (三) 直播平台的运维挑战 二. 我们…
转自:   https://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=402738153&idx=1&sn=af5e76aad269799e517607cdc2cfaf06&scene=0&key=ac89cba618d2d9764985895cc5dcd8413928f15cfa134812846b816487c1609c40778841d410e63dc802acd538e5cc5d&ascene=7&a…
前段时间riusksk在公众号分享的Google安全团队的新书,好书,全英原版,开源免费. 免费下载地址:https://static.googleusercontent.com/media/landing.google.com/zh-CN//sre/static/pdf/SRS.pdf riusksk的介绍:https://mp.weixin.qq.com/s/HztqUAeAfuobvXzOfZ6CFA 主要介绍Google SRE团队在安全可靠系统构建过程中的四个主要工作: 设计策略 编码…