[编者按]林昊(毕玄),阿里巴巴研发效能事业部负责人.2007年加入阿里,10年间打造了阿里目前使用最为广泛的核心中间件之一的服务框架:建设了阿里的HBase团队,发展到今天HBase已经是阿里最重要的NoSQL产品:打造阿里基于LXC的虚拟化系统,以及集群资源管理系统,不断降低阿里巴巴在机器资源上投入的成本:设计并带领团队实现了阿里巴巴技术发展史上具有里程碑意义的异地多活. 本文首发于InfoQ,作者毕玄,原编辑谢然:由亿欧在此编辑,供行业人士参考. 随着大数据.机器学习和 AI 技术的飞速发…
摘要: 本文来自蚂蚁金服首席技术架构师,基础技术部负责人胡喜.从2010年支撑双十一最高交易峰值2万笔/分钟到2015年双十一的8.59万笔/秒,蚂蚁金服的技术架构和运维体系一直都在不断摸索和实践.本文就“互联网IT运维体系”这一主题,和朋友们分享蚂蚁金服在该领域的实践经验. 8月30-31日20:00-21:30,一场别开生面的技术大会—— “蚂蚁金服&阿里云在线金融技术峰会”将在线举办.本次将聚焦数据库.应用架构.移动开发.机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿应用…
简介 运维体系的建设的目的在于方便运维工作,通过自动化.规范化.流程化的操作方法提高运维效率,打造一个安全.可靠.高效.可追踪.可回溯的运维环境,实现一个高可用.高并发.具备高容错.自我修复.故障能快速定位的生产环境的运维生态环境(DevOps Ecosystem).本篇文章将从三个方面来讨论运维体系的建设,账号权限管理.发布流程CI/CD.系统监控预警,文中可能多有理解不透.涉及不到甚至错误之处,希望有见解的小伙伴留言交流. 基于OpenLDAP的统一账号管理 LDAP(Lightweight…
从零开始搭建运维体系 - ansible 基本配置好了局域网内的机器后,第一个遇到的问题就是如何批量操作这么多台机器,ansible就是这么一个自动化运维工具. ansible是一个基于ssh的批量远程操作命令工具.它有分管理端和被管理端,管理端安装ansible,被管理端什么都不需要安装.这个是非常方便的.只要能远程登陆上就可以. ansible有两种模式,ansible-hoc和ansible-playbook.简单来说,ansible-hoc就是可以在console上一次执行多个命令.an…
痛点 传统竖井式IT架构(封闭.隔离.非标.难运维) X86 服务器硬件稳定性不足 开源软件可靠性不足,且不可控 出了故障,被动救火救不完 转型 由此催生了转型升级的需求: 运维智能(SRE)的转型 SRE运维模式 核心职责 保证: 业务连续性 应用连续性 平台连续性 职责分工 综合运维岗 7*24 在线或远程值班 业务监控 业务运维操作 故障处理 应急处理 运维专业组(由基础架构的:主机.存储.网络.中间件.数据库岗位演化而来) 系统架构梳理和优化 新建系统评审 故障演练 新技术引入 专业职责…
作者 | 孙健波(天元)  阿里巴巴技术专家 导读:本文整理自孙健波在 ArchSummit 大会 2019 北京站演讲稿记录.首先介绍了阿里巴巴基于 Kubernetes 项目进行大规模应用实践过程中遇到的问题:随后会逐一介绍解决这些问题的现有实践及其本身存在的局限性:最后会介绍阿里巴巴目前正在进行的尝试和社区在这一领域的发展方向. 如今,阿里巴巴内部维护了数十个大规模的 K8s 集群,其中最大的集群约 1 万个节点,每个集群会服务上万个应用:在阿里云的 Kubernetes 服务 ACK 上…
Kubernetes节点的底层由一个叫做“容器运行时”的软件进行支撑,它负责比如启停容器这样的事情.最广为人知的容器运行时当属Docker,但它不是唯一的.事实上,容器运行时这个领域发展迅速.为了使Kubernetes的扩展变得更容易,我们一直在打磨支持容器运行时的K8s插件API:容器运行时接口(Container Runtime Interface, CRI). CRI是什么? 每种容器运行时各有所长,许多用户都希望Kubernetes支持更多的运行时.在Kubernetes 1.5发布版里…
编者按:本文源自阿里云云效团队出品的<阿里巴巴DevOps实践指南>,扫描上方二维码或前往:https://developer.aliyun.com/topic/devops,下载完整版电子书,了解阿里十年DevOps实践经验. 阿里巴巴的运维团队致力于打造无人值守的运维平台,用智能化推动高效率.低成本的应用运维.智能运维是运维平台实现信息化和数字化之后的自然发展,利用扎实的技术基础,把机器学习.优化算法和各个专业领域方面的知识完美结合起来,针对具体运维场景提供令人满意的解决方案. 智能运维(…
导读 目前国内的网络运维还处于初级阶段,工作人员每天就像救火一样,天天疲于奔命.运维人员只能埋头查找系统运行的日志,耗时耗力,老眼昏花不说,有时候忙了半天还一无所获,作为运维工程师的你,有木有遇到过类似苦逼的经历? 目前国内的网络运维还处于初级阶段,工作人员每天就像救火一样,天天疲于奔命.“什么破网络怎么又断了”,“我去,服务器宕机啊”,“这个网速慢的跟乌龟爬的一样”,这些埋怨声每天都在运维人员耳边回荡.运维人员只能埋头查找系统运行的日志,耗时耗力,老眼昏花不说,有时候忙了半天还一无所获,作为运…
云计算和AI时代,运维应该如何做好转型? 今天我们来聊一聊,在云计算和AI时代,运维应该如何做好转型?今天的内容可以说是我们前面运维组织架构和协作模式转型的姊妹篇.针对运维转型这个话题,谈谈我的思考和建议. 总结运维转型案例 我们先来看业界的三个典型案例,一个来自国外,一个来自国内,最后一个是我自己团队的案例,都非常具有代表性. 国外Netflix的模式. Netflix从一开始就强调开发人员进行自助化运维.我们第一篇文章中就介绍到,Netflix内部的运维工作全部都由开发人员完成,平台也由开发…