虎牙直播运维负责人张观石 本文是根据虎牙直播运维负责人张观石10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族开放日<虎牙直播平台SRE实践>演讲中的分享内容整理而成. 张观石,拥有10余年网站开发.架构.运维经验:目前关注互联网服务可靠性系统工程.运维平台的规划建设.网站高可用架构等方面:在音视频传输质量评估.微服务运维方面积累了丰富的经验. 目录 一. 直播平台的架构及运维挑战 (一) 音视频传输流程及挑战 (二) 一个直播间的流程 (三) 直播平台的运维挑战 二. 我们…
<开源安全运维平台:OSSIM最佳实践 > 李晨光 著 清华大学出版社出版 内 容 简 介在传统的异构网络环境中,运维人员往往利用各种复杂的监管工具来管理网络,由于缺乏一种集成安全运维平台,当遇到故障时总是处于被动“救火”状态,如何将资产管理.流量监控.漏洞管理.入侵监测.合规管理等重要环节,通过开源软件集成到统一的平台中,以实现安全事件关联分析,可从本书介绍的OSSIM 平台中找到答案.本书借助作者在OSSIM 领域长达10 年开发应用实践经验之上,以大量生动实例阐述了基于插件收集日志并实现…
内容简介: <Python自动化运维:技术与最佳实践>一书在中国运维领域将有“划时代”的重要意义:一方面,这是国内第一本从纵.深和实践角度探讨Python在运维领域应用的著作:一方面本书的作者是中国运维领域的“偶像级”人物,本书是他在天涯社区和腾讯近10年工作经验的结晶.因为作者实战经验丰富,所以能高屋建瓴.直指痛处,围绕Python自动化运维这个主题,不仅详细介绍了系统基础信息.服务监控.数据报表.系统安全等基础模块,而且深入讲解了自动化操作.系统管理.配置管理.集群管理及大数据应用等高级功…
Ansible-实战指南-LNMP环境部署,并使用zabbix监控 主机规划 系统初始化:必要的系统初始化 基础组件包括:zabbix监控,mariadb(用于存放zabbix监控信息) 业务组件包括:MySQL.memcached.nginx.PHP.haproxy.keepalived 添加用户账号 说明: 1. 运维人员使用的登录账号: 2. 所有的业务都放在 /app/ 下「yun用户的家目录」,避免业务数据乱放: 3. 该用户也被 ansible 使用,因为几乎所有的生产环境都是禁止…
Ansible 架构及特点 第一章主要讲的是 Ansible 架构及特点,主要包含以下内容: Ansible 软件 Ansible 架构模式 Ansible 特性 Ansible 软件 Ansible 的编排引擎可以完成配置管理.流程控制.资源部署等工作. Ansible 基于 Python语言实现,由 Paramiko 和 PyYAML 两个关键模块构建. Ansible 应用领域 配置管理 服务即时开通 应用部署 流程编排 监控告警 日志记录 Ansible 架构模式 Ansible 维护模…
Ansible 安装与配置 本章主要讲的是 Ansible 安装与基本配置,主要包含以下内容: Ansible 环境准备 安装 Ansible 配置运行环境 Ansible 环境准备 从 GitHub 获取 Ansible,准备控制主机,查看被管节点. 使用的操作系统为 Centos 7.0,自带 Python 2.7.5. 角色 主机名 IP 地址 组名 CPU Web 根目录 被管节点 web1 192.168.46.128 webservers 2 /website 被管节点 web2 1…
Ansible 组件介绍 本章主要通过对 Ansible 经常使用的组件进行讲解,使对 Ansible 有一个更全面的了解,主要包含以下内容: Ansible Inventory Ansible Ad-Hoc 命令 Ansible playbook Ansible facts Ansible role Ansible Galaxy Ansible Inventory Inventory 组件主要存储在配置管理工作中需要管理的不同业务的不同机器的信息.默认 Ansible 的 Inventory…
胡凯,bilibili运维负责人,曾经就职于金山软件.金山网络.猎豹移动,负责运维相关工作.Bilibili是国内最大的年轻人潮流文化娱乐社区,银河系知名弹幕视频分享UGC平台.   95后二次元新人类的追捧,让以视频弹幕.UP主闻名于世的bilibili(以下简称B站)愈发火爆,无数年轻人通过电脑.手机.电视等终端设备在B站上追番.看弹幕,特别是新番上线时的访问压力是非常大的,这就给B站的IT运维团队带来了巨大压力.胡凯在去年加入B站刚刚成立的运维部,人少事多,遇到了很多坑. 本文根据作者在“…
企业信息化系统建设按生命周期可分为IT规划阶段.IT建设阶段和IT运维阶段,其中,IT运维阶段的时间最长,IT运维管理关乎着IT运维的质量.成本和速度,更关乎着IT系统的安全.连续和可用.大数据云计算时代的来临,使Oracle服务商需要集中精力提高运维服务核心竞争力,才能促使运维外包走向更深的发展.1.数据安全    数据安全是第一位的,Oracle服务商的首要职责必须保证不丢数据,丢掉数据就丢掉了饭碗!    1)在人为误操作的时候(update,insert,delete,drop,alte…
去年,GOPS全球运维大会在深圳出发,当时门票提前几周收盘,2017年,承载着运维人的期望,GOPS全球运维大会再次来到了深圳.第六届GOPS2017全球运维大会深圳站(本次)将于2017年4月21日-22日在深圳举行,历届金牌讲师精选亮相,各种精彩等您发掘.下面和活动家一起来盘点GOPS2017全球运维大会嘉宾! (该场会议报名火爆,可能提前截止报名,如您需要参加,请尽早通过活动家在线报名.快捷报名:http://www.huodongjia.com/event-231365274.html)…
51reboot 运维开发又双叒叕的搞活动了,鉴于之前 51reboot 的活动反馈,每次活动结束后(或者已经结束了很长时间)还有人在问活动的事情.这一次小编先声明一下真的不想在此次活动结束后再听到类似下面的话了 我之前不知道有活动 (这个锅小编我背了) 这个活动还有吗? 我想了解一下这个活动 跟我说可以给我按活动价算吗? .......... 针对以上类似的询问小编在此统一回复大家: 好了,接下来进入今天的重中之重 本次活动:Python 运维开发——18天训练营 本课程为:网络班+面授班(北…
百度云智能运维负责人 曲显平 本文是根据百度云智能运维负责人曲显平10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族技术开放日<百度云智能运维实践>演讲中的分享内容整理而成. 内容简介:本文主要从百度运维技术的发展历程.如何做智能运维.故障管理场景.服务咨询场景和面对的挑战等几个方面介绍了百度云智能运维实践. 百度运维技术的三个阶段 第一阶段:基础运维平台  2008年~2012年 2008年,在百度运维部建立之前,还没有一个标准而统一的运维平台.例如,搜索.广告.贴吧都有各…
如何评价一个公司数据库运维水平的高低?用什么来进行横向与纵向对比?自动化平台建设的目标是什么?必须有相应的指标体系来指导,此指标体系必须满足以下条件: • 可以用数字来测算和衡量 • 最终指标,而不是中间指标 比如有时DBA会关注数据库的吞吐量,但吞吐量越高不能代表数据库提供的服务质量越好,开发人员关心这个指标的原因也是因为担心过高的吞吐量会影响响应时间或者造成系统不可用,所以这只是一个中间指标. • 可以全面衡量一个网站的数据库运维水平,而不会顾此失彼 • 有人文关注 1.1. 数据安全 数据…
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名“辟拾(P10)”:他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路:他爱好清奇,练就了能在 20 秒内从20000个像素块里找出不同颜色像素的“特异功能”:他乐观豁达,一言不合就讲段子的性格让他成为身边同事的“开心果”:临近不惑之年的他,经历过很多故事,但他在用自己的行动向这个世界诠释着什么是 IT 工程师告别平庸的“不惑生活”. 在阿里云视频云团队的一次集体活动上,有一个工程师的“特殊才艺”引起…
他是阿里云的一位 P8 运维专家,却很有野心得给自己取花名“辟拾(P10)”:他没有华丽的履历,仅凭着 26 年的热爱与坚持,一步一个脚印踏出了属于自己的技术逆袭之路:他爱好清奇,练就了能在 20 秒内从20000个像素块里找出不同颜色像素的“特异功能”:他乐观豁达,一言不合就讲段子的性格让他成为身边同事的“开心果”:临近不惑之年的他,经历过很多故事,但他在用自己的行动向这个世界诠释着什么是 IT 工程师告别平庸的“不惑生活”. 在阿里云视频云团队的一次集体活动上,有一个工程师的“特殊才艺”引起…
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 作为企业智能运维门户,业界早已关注织云的智能运维体系.我们很荣幸地宣布织云 Metis 智能运维体系正式发布.自此,织云家族已发布:织云企业版,织云社区版(Lite),织云 Metis 智能运维.企业版和社区版区别请戳. Metis 是腾讯内部落地实践的智能运维场景的集合,具备多种核心能力,如智能监控.智能分析.智能决策等.这些核心能力已在多元化.多样化的运维场景中得到落地实践.Metis 是从腾讯QQ.Qzone 等海量业务的一体化运…
GOPS· 2017全球运维大会北京站于2017年7月28日-29日在北京隆重举办,汇聚国内一线运维专家和诸多运维同仁达800余名.作为长期致力于企业级高端运维市场软件开发和咨询服务的优云软件受邀参与本次运维界的盛会. ▲全球运维大会北京站现场情况 ▲优云软件展台 ▲优云软件技术专家向参会者介绍全栈双态运维管理平台 在云计算.大数据和物联网的时代,企业同时面临着数字化和“互联网+”转型的双重挑战,而企业IT架构随着业务转型而急需变革,运维也面临着迭代升级.在此背景下,2016年广通软件率先在业内…
一.基础入门 <鸟哥的Linux私房菜基础学习篇>:最具知名度的Linux入门书<鸟哥的Linux私房菜基础学习篇>,全面而详细地介绍了Linux操作系统. https://book.douban.com/subject/4889838 <鸟哥的Linux私房菜服务器篇>:从系统基础以及网络基础讲起,再谈到网络攻击与防火墙防护主机后,才进入服务器的架设.全面了解如何维护与管理您的服务器. https://book.douban.com/subject/10794788/…
1. Linux运维基础采集项 做运维,不怕出问题,怕的是出了问题,抓不到现场,两眼摸黑.所以,依靠强大的监控系统,收集尽可能多的指标,意义重大.但哪些指标才是有意义的呢,本着从实践中来的思想,各位工程师在长期摸爬滚打中总结出来的经验最有价值. 在各位运维工程师长期的工作实践中,我们总结了在系统运维过程中,经常会参考的一些指标,主要包括以下几个类别: CPU Load 内存 磁盘 IO 网络相关 内核参数 ss 统计输出 端口采集 核心服务的进程存活信息采集 关键业务进程资源消耗 NTP off…
点击获取提取码:7bl4 一.内容简介 <python自动化运维:技术与最佳实践>一书在中国运维领域将有"划时代"的重要意义:一方面,这是国内第一本从纵.深和实践角度探讨Python在运维领域应用的著作:一方面本书的作者是中国运维领域的"偶像级"人物,本书是他在天涯社区和腾讯近10年工作经验的结晶.因为作者实战经验丰富,所以能高屋建瓴.直指痛处,围绕Python自动化运维这个主题,不仅详细介绍了系统基础信息.服务监控.数据报表.系统安全等基础模块,而且深…
[点击 关注「 WeiyiGeek」公众号 ] 设为「️ 星标」每天带你玩转网络安全运维.应用开发.物联网IOT学习! 希望各位看友[关注.点赞.评论.收藏.投币],助力每一个梦想. 本章目录 目录 1.Docker 快速部署 MySQL 数据库服务器 命令方式 配置清单 2.Kubernetes 快速部署 MySQL 数据库服务器 单实例模式 主从同步模式 首发地址: https://mp.weixin.qq.com/s/7mmIsd83QPT65QnQd5CtFQ 温馨提示:唯一极客技术博客…
前言 这是读“SRE Google运维解密”有感第四篇,之前的文章可访问www.addops.cn来查看.今天我们来聊聊“问题排查”这个话题,本人到目前为止还在参与一线运维的工作,遇到过很多“稀奇古怪”的线上故障和问题,结合SRE中给出的一些方法,来说说“问题排查”那点事. 排查问题不是玄学 排查出线上问题,并找到根本原因加以解决,是一件很有成就感的事情,曾经有人问过我,“你是怎么想到问题出现在xxx的?又是怎么确认根本原因是xxx的?”,我只能淡淡的说:“靠经验”,然后感觉这个逼装的自己还算满…
前言 这是读“SRE Google运维解密”有感第三篇,之前的文章可访问www.addops.cn来查看.我们今天来聊聊“on call”也就是运维值班制度, 本人到目前为止也还在参与一线运维的值班,对运维值班体系也有一些感悟和心得,再参考SRE的“on call”中的方法来说说这个让运维同学“又爱又恨”的值班. 值班 因为运维人员的工作性质,要时刻保障线上服务的稳定可用,遇到事故问题要第一时间处理,所以很多运维团队的工作必须是7x24小时的. 但是人不是机器,他需要休息,也要有生活,所以不能要…
前言 这是读“SRE Google运维解密”有感第二篇,第一篇参见 这本书最近又读了几章,结合自己的经历,有些地方真的能感同身受,有些地方也惊叹SRE充满辩证的思想,总之SRE是好一本好书,会给你很大的启发. 充满辩证的思想 本书主要是讲通过SRE思想进行运维体系的构建,除了技术层面以外,我更关注SRE内在充满辩证的思想. 一个辩证的思想是凡事都有两面性,这个道理很简单,大家一听就说“对啊,这不是废话么”,可是面对具体问题的时候,有时候往往做不到这一点. 服务太稳定不好 “什么?我有没有听错”,…
前言 这几天打算利用碎片时间读了一下"SRE Google运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考 SRE 有关SRE我就不多介绍了,中文名字叫站点可靠性工程师,它的由来是google想通过软件工程师来解决复杂运维问题. 它里面有很多有意思的点,比如: 运维工作只能占比工作时间50% 另外50%要开发工具解决问题 SRE和开发工程师会轮岗 这些相关概念网上很多都介绍了,我就不赘述了,我说下一些我感兴趣的点 谷歌神话 谷歌一直在技术…
背景分析 随着EasyNVR软件为越来越多的用户接受和使用,我们也致力于用户的需求收集和需求的调研,发现一部分用户有关于硬件设备的需求,加之我们推出的免费产品EasyNVS云管理平台,可以说用户自己搭建起属于自身的视频直播云平台是再简单不过了. EasyNVR智能云终端(硬件版)是EasyNVR研发团队历时一年研发的软硬一体音视频流媒体媒体服务器.它是在互联网基础设施不断完善和发展.宽带不断提速,4G/5G等网络技术大规模商用后,用户要求视频随时随地可看可控,尤其是使用PC.手机.微信这些终端观…
谷歌SRE运维模式解读 前面我和你分享了一些关于运维组织架构和协作模式转型的内容,为了便于我们更加全面地了解先进的运维模式,今天我们再来谈一下谷歌的SRE(Site Reliability Engineer). 同时,也期望你能在我们介绍的这些运维模式中找到一些共通点,只有找到这些共通点,才能更深刻地理解,并借鉴到真正对我们有用的东西. 专栏的第一篇文章我们介绍了Netflix的NoOps模式.这个模式并不意味着不存在任何运维工作,只是Netflix将这些事情更紧密地融入到了日常的开发工作中,又…
作者:HelloGitHub-小鱼干 本周大热点无疑是前几天 GitHub 发布的 Copilot,帮你补全代码,给你的注释提出建议,预测你即将使用的代码组件-如此神奇的 AI 技术,恰巧本周微软也开源了他们的机器学习入门课程,你在 12 周之内完成 24 堂课程即可入门机器学习.除此之外,本周的特点主题之一 DevOps 和 SRE,包括 Google.百度在内的多家科技公司在本周特推给出了他们的最佳实践. 以下内容摘录自微博@HelloGitHub 的 GitHub Trending 及 H…
大家好!我是来自虎牙直播技术保障部的张波.今天主要会从数据挖掘层面跟大家探讨一下 Nginx 的价值.OpenResty 在虎牙的应用场景主要 WAF 和流控等方面,我今天主要分享的是“ Nginx 日志”,因为这在虎牙产生过巨大的价值,简单来说,我们最终做到的效果就是每年节省数百上千万的成本. Nginx 是现在最流行的负载均衡和反向代理服务器之一,仅 Nginx 每天就会产生上百 M 甚至数十 G 的日志文件.但又有多少人关注过它背后的价值呢? 常见故障处理场景 举个经典的 CDN 故障处理…
12月10 日,2021云上架构与运维峰会上,阿里云发布业界首部<云上自动化运维白皮书>(简称CloudOps白皮书),并在其中提出了CloudOps成熟度模型.同时,阿里云还宣布了ECS自动化运维套件的全新升级,发布新产品应用管理(Application Manager)和反向运维编排等一系列新能力. CloudOps,运维新趋势 DevOps(研发运维一体化)给应用软件开发带来了极大便利,越来越多的企业在拥抱DevOps.同时,云服务有着"软件定义一切"和弹性敏捷等特点…