前言 这是读“SRE Google运维解密”有感第四篇,之前的文章可访问www.addops.cn来查看.今天我们来聊聊“问题排查”这个话题,本人到目前为止还在参与一线运维的工作,遇到过很多“稀奇古怪”的线上故障和问题,结合SRE中给出的一些方法,来说说“问题排查”那点事. 排查问题不是玄学 排查出线上问题,并找到根本原因加以解决,是一件很有成就感的事情,曾经有人问过我,“你是怎么想到问题出现在xxx的?又是怎么确认根本原因是xxx的?”,我只能淡淡的说:“靠经验”,然后感觉这个逼装的自己还算满…
前言 这是读“SRE Google运维解密”有感第二篇,第一篇参见 这本书最近又读了几章,结合自己的经历,有些地方真的能感同身受,有些地方也惊叹SRE充满辩证的思想,总之SRE是好一本好书,会给你很大的启发. 充满辩证的思想 本书主要是讲通过SRE思想进行运维体系的构建,除了技术层面以外,我更关注SRE内在充满辩证的思想. 一个辩证的思想是凡事都有两面性,这个道理很简单,大家一听就说“对啊,这不是废话么”,可是面对具体问题的时候,有时候往往做不到这一点. 服务太稳定不好 “什么?我有没有听错”,…
前言 这是读“SRE Google运维解密”有感第三篇,之前的文章可访问www.addops.cn来查看.我们今天来聊聊“on call”也就是运维值班制度, 本人到目前为止也还在参与一线运维的值班,对运维值班体系也有一些感悟和心得,再参考SRE的“on call”中的方法来说说这个让运维同学“又爱又恨”的值班. 值班 因为运维人员的工作性质,要时刻保障线上服务的稳定可用,遇到事故问题要第一时间处理,所以很多运维团队的工作必须是7x24小时的. 但是人不是机器,他需要休息,也要有生活,所以不能要…
前言 这几天打算利用碎片时间读了一下"SRE Google运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考 SRE 有关SRE我就不多介绍了,中文名字叫站点可靠性工程师,它的由来是google想通过软件工程师来解决复杂运维问题. 它里面有很多有意思的点,比如: 运维工作只能占比工作时间50% 另外50%要开发工具解决问题 SRE和开发工程师会轮岗 这些相关概念网上很多都介绍了,我就不赘述了,我说下一些我感兴趣的点 谷歌神话 谷歌一直在技术…
1.运维团队与开发团队的矛盾: 运维追求业务的稳定.开发更关注新功能的添加与版本的快速迭代.但是由于业务更新,有很大可能导致故障.从本质上来说,两部门是矛盾的. deops应该是: 1.对重复性工作有天然排斥感 2.有足够能力快速开发软件系统来代替手工操作 sre团队职责:可用性改进.延迟优化.效率优化.性能优化.变更管理.监控.紧急事务处理.容量规划与管理 2.告警系统: 监控系统不应该要人来去分析告警信息,而是要告诉人要做 3.sre要密切关注系统的性能和资源利用率,进而改进资源利用率,降低…
# 第IV部分 管理 #系统可用性时间表 # 专用术语 SLO:服务等级目标 LCE(Land-Covered Earth):紧急检修登陆艇 # 紧急事故管理 一次流程管理良好的事故 # 东西早晚要坏的,这就是生活 # 值得警惕的是,理解一个系统应该如何工作并不能使人成为专家.只能靠调查系统为何不能正常工作才行. --Brian Redman # 系统正常,只是该系统无数 异常情况下的一种特例. --John Allspaw…
在我们日常的工作中,有时候需要监控和管理平台的运行状况,而服务运行是否存在异常,是否有软硬件bug等,均需要第一时间知道.对服务状态了如指掌,是一个很重要的事情.那么这个如何做到呢,我们之前在进行私有云平台研发过程中,曾经用过一些工具,在一定程度上能帮到大家,这里记录一下,希望对有需要的同学有帮助. 一些常见的监控.告警工具:Nagios . ganglia.zabbix.onealert   一.Nagios: Nagios是一款开源的免费网络监视工具,能有效监控Windows.Linux和U…
企业信息化系统建设按生命周期可分为IT规划阶段.IT建设阶段和IT运维阶段,其中,IT运维阶段的时间最长,IT运维管理关乎着IT运维的质量.成本和速度,更关乎着IT系统的安全.连续和可用.大数据云计算时代的来临,使Oracle服务商需要集中精力提高运维服务核心竞争力,才能促使运维外包走向更深的发展.1.数据安全    数据安全是第一位的,Oracle服务商的首要职责必须保证不丢数据,丢掉数据就丢掉了饭碗!    1)在人为误操作的时候(update,insert,delete,drop,alte…
本文转载自 crossoverJie 的b博客 https://www.cnblogs.com/crossoverJie/p/9282065.html 前言 之前或多或少分享过一些内存模型.对象创建之类的内容,其实大部分人看完都是懵懵懂懂,也不知道这些的实际意义. 直到有一天你会碰到线上奇奇怪怪的问题,如: 线程执行一个任务迟迟没有返回,应用假死. 接口响应缓慢,甚至请求超时. CPU 高负载运行. 这类问题并不像一个空指针.数组越界这样明显好查,这时就需要刚才提到的内存模型.对象创建.线程等相…
内容目录: HTML概述 head标签 body中常用标签 css选择器 css常用属性 HTML HTML概述 HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写,他是一种制作万维网页面标准语言(标记).相当于定义统一的一套规则,大家都来遵守他,这样就可以让浏览器根据标记语言的规则去解释它. 浏览器负责将标签翻译成用户“看得懂”的格式,呈现给用户!(例:djangomoan模版引擎) html树结构 head头部标签 Doctype Doctype告诉…
第四部 3. Linux扩展正则表达式实战 扩展的正则表达式:ERE(主要用于egrep或grep  -E) +      重复一个或一个以上前面的字符. (*是0或多个) ?     重复0个或一个0前面的字符 |       用或的方式查找多个符合的字符串 ()       找出“用户组”字符串. 命令: # grep  -Eo    “正则表达式”   文件名      (会过滤出红颜色,首选命令)     # egrep  -o     “正则表达式”   文件名 4. Linux通配符…
1.通过网页访问https://conntionserver.testad.local/admin,打开如下图所示页面:输入用户名密码 2.进来以后配置View 许可,点击"编辑许可证" 3.输入许可证序列号 4.许可认证通过…
古木阴中系短篷 杖藜扶我过桥东 沾衣欲湿杏花雨 吹面不寒杨柳风 *不要辜负绵绵春意 第四周学记 第四周主要学习了文件查找和打包压缩的相关工具,以及软件包管理工具 文件查找相关命令 1.locate 在索引中查找 2.find 在磁盘中查找,功能强大 文件压缩工具 1.compress和uncompress 2.gzip和gunzip 最常用 3.bzip2和bunzip2 压缩比较高,较常用 4.xz和unxz 压缩比最高,耗费资源 5.zip和unzip 通用性高 *压缩比xz>bz2>gz…
虎牙直播运维负责人张观石 本文是根据虎牙直播运维负责人张观石10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族开放日<虎牙直播平台SRE实践>演讲中的分享内容整理而成. 张观石,拥有10余年网站开发.架构.运维经验:目前关注互联网服务可靠性系统工程.运维平台的规划建设.网站高可用架构等方面:在音视频传输质量评估.微服务运维方面积累了丰富的经验. 目录 一. 直播平台的架构及运维挑战 (一) 音视频传输流程及挑战 (二) 一个直播间的流程 (三) 直播平台的运维挑战 二. 我们…
SRE Google运维解密 Nginx Cookbook 2019 链接:https://pan.baidu.com/s/1Sob4JSjNKe77wMACmDZHig 提取码:rhc6…
谷歌SRE运维模式解读 前面我和你分享了一些关于运维组织架构和协作模式转型的内容,为了便于我们更加全面地了解先进的运维模式,今天我们再来谈一下谷歌的SRE(Site Reliability Engineer). 同时,也期望你能在我们介绍的这些运维模式中找到一些共通点,只有找到这些共通点,才能更深刻地理解,并借鉴到真正对我们有用的东西. 专栏的第一篇文章我们介绍了Netflix的NoOps模式.这个模式并不意味着不存在任何运维工作,只是Netflix将这些事情更紧密地融入到了日常的开发工作中,又…
1.假如你从来未接触过Linux的话,首先要做的就找一本指导书来学习.现在公认的Linux的入门书籍是“鸟哥的私房菜”,讲的很全面,鸟哥的私房菜一共分为两部,一部是基础篇,一部是服务器篇.“鸟哥的私房菜”讲的很全面,可能会包括一些已经过时的知识点,但是这本书是入门Linux必备. 2.学习Linux的时候,或者学习其他网络知识的时候最重要的就是实践操作.所以学习Linux,实践操作是必不可少的.首先就是要装一个Linux系统,鸟哥开始几章会讲Linux的由来以及怎样安装Linux的系统.安装Li…
  GTID(global transaction identifier)是对于一个已提交事务的全局唯一编号,前一部分是server_uuid,后面一部分是执行事务的唯一标志,通常是自增的. 下表整理了GTID常用的查看命令,以及变量的描述及原理,供大家参考(以下基于MySQL5.7,对于MySQL5.6的GTID由于存在性能问题,不推荐使用) 角色 常用查看GTID的相关命令 变量示例 描述 变量的更新时机 master show global variables like '%gtid%';…
[MySQL 5.6] GTID实现.运维变化及存在的bug http://www.tuicool.com/articles/NjqQju 由于之前没太多深入关注gtid,这里给自己补补课,本文是我看文档和代码的整理记录. 本文的主要目的是记下跟gtid相关的backtrace,用于以后的问题排查.另外也会讨论目前在MySQL5.6.11版本中存在的bug. 前言:什么是GTID   什么是GTID呢, 简而言之,就是全局事务ID(global transaction identifier ),…
做运维也快四年多了,就像游戏打怪升级,升级后知识体系和运维体系也相对变化挺大,学习了很多新的知识点. 运维工程师是从一个呆逼进化为苦逼再成长为牛逼的过程,前提在于你要能忍能干能拼,还要具有敏锐的嗅觉感知前方潮流变化.如:今年大数据,人工智能比较火……(相对表示就是 Python 比较火) 之前写过运维基础篇,发现对很多人收益挺大,接下来也写下关于这 4 年多的运维实践经验,从事了 2 年多游戏运维,1 年多安全运维,1 年大数据运维,相关行业信息不能算非常精通,但是熟悉和熟练还是相对可以的. 初…
DEVOPS 运维开发系列四:ITIL事态管理流程.事态监控系统设计以及基于Devops的效率提升实践 - watermelonbig的专栏 - CSDN博客https://blog.csdn.net/watermelonbig/article/details/81572482 [watermelonbig]博客 - CSDNhttps://me.csdn.net/watermelonbig…
MySQL数据库运维课程 http://www.dataguru.cn/article-4834-1.html?union_site=comm100 课程大纲 第一课:机器选型.系统规划 第二课:安装部署 第三课:压力测试 第四课:性能优化 第五课:字符集和权限安全 第六课:日志系统 第七课:备份与恢复1 第八课:备份与恢复2 第九课:常用工具 第十课:MySQL集群 第十一课:分布式集群 第十二课:集群高可用(HA)和容灾演练 第十三课:自动化运维 第十四课:监控和审计系统 第十五课:成长规划…
目录:Python自动化运维笔记 Python自动化运维 - day2 - 数据类型 Python自动化运维 - day3 - 函数part1 Python自动化运维 - day4 - 函数Part2 Python自动化运维 - day5 - 函数part3.模块与包 Python自动化运维 - day6 - 常用模块 Python自动化运维 - day7 - 面向对象 Python自动化运维 - day8 - 面向对象高级及异常处理 Python自动化运维 - day8 - socket编程…
http://slaytanic.blog.51cto.com/2057708/1038676 Hadoop运维记录系列(一) Hadoop运维记录系列(二) Hadoop运维记录系列(三) Hadoop运维记录系列(四) Hadoop运维记录系列(五) Hadoop运维记录系列(六) Hadoop运维记录系列(七) Hadoop运维记录系列(八) Hadoop运维记录系列(九) Hadoop运维记录系列(十) Hadoop运维记录系列(十一) Hadoop配置项整理(mapred-site.x…
Linux云自动化运维第四课 一.vim 1.vim光标移动 1)在命令模式下 :数字  ###移动到指定的行 G  ###文件最后一行 gg  ###文件第一行 2)在插入模式下 i  ###光标所在位置插入 I  ###光标所在行行首 a  ###光标所在字符的下一个位置 A  ###光标所在行行尾 o  ###光标所在行下一行 O  ###光标所在行上一行 s  ###删除光标所在字符插入 S  ###删除光标所在行插入 2.vim的退出模式 :q  ###当用vim打开文件但没有对字符作…
一:文件属性 我们使用ls -lhi命令来查看文件时,会列出一堆的文件属性,如: [root@Gin day7]# ll -hi total 7.8M 260674 -rw-r--r-- 1 root root 608 Jan 27 09:44 group 260683 ---------- 1 root root 495 Jan 27 09:44 gshadow 260623 -rw-r--r-- 1 root root 1.2K Jan 27 09:43 passwd 260693 -rw-…
之前曾看到一篇新闻,Linux之父建议大家找一份基于Linux和开源环境的工作.今天就来聊一聊我的想法,本人8年Linux运维一线经验,呆过很多互联网公司,从一线运维做到运维架构师一职,也见证了中国运维行业从无人问津到可圈可点的整个演变过程. Linux系统目前主要应用在企业服务器上,学习Linux,更多的是向Linux系统/运维工程师方向进军.比如云计算系统工程师,大数据运维工程师,运维开发工程师其职位都是Linux运维工程师的进阶.下面就整体介绍下,作为过来人,怎么学习Linux,以及Lin…
[编者按]林昊(毕玄),阿里巴巴研发效能事业部负责人.2007年加入阿里,10年间打造了阿里目前使用最为广泛的核心中间件之一的服务框架:建设了阿里的HBase团队,发展到今天HBase已经是阿里最重要的NoSQL产品:打造阿里基于LXC的虚拟化系统,以及集群资源管理系统,不断降低阿里巴巴在机器资源上投入的成本:设计并带领团队实现了阿里巴巴技术发展史上具有里程碑意义的异地多活. 本文首发于InfoQ,作者毕玄,原编辑谢然:由亿欧在此编辑,供行业人士参考. 随着大数据.机器学习和 AI 技术的飞速发…
作者:HelloGitHub-小鱼干 本周大热点无疑是前几天 GitHub 发布的 Copilot,帮你补全代码,给你的注释提出建议,预测你即将使用的代码组件-如此神奇的 AI 技术,恰巧本周微软也开源了他们的机器学习入门课程,你在 12 周之内完成 24 堂课程即可入门机器学习.除此之外,本周的特点主题之一 DevOps 和 SRE,包括 Google.百度在内的多家科技公司在本周特推给出了他们的最佳实践. 以下内容摘录自微博@HelloGitHub 的 GitHub Trending 及 H…
Linux系统运维笔记(四),CentOS 6.4安装 MongoDB 1,下载 https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz 2,解压后,用SecureFXPortable.exe  工具,上传到服务器目录     /usr/local/mongodb3 3,在目录 /usr/local/mongodb3/bin 目录下创建 data目录,用于数据存储. 4,起动 /usr/local/mongodb3/bin/…