联想企业网盘:SaaS服务集群化持续交付实践
1 前言
当代信息技术飞速发展,软件和系统的代码规模都变得越来越大,而且组件众多,依赖繁复,每次新版本的发布都仿佛是乘坐一次无座的绿皮车长途夜行,疲惫不堪。软件交付是一个复杂的工程,涉及到软件开发的各个细节,其中任何一环出现问题,都会导致软件不能及时交付,或者交付的质量堪忧。
从企业的角度来讲,如何利用更科学的工具、更科学的流程来提高产品质量,提升客户满意度,是刚需。从员工角度来讲,生命里值得追求的事情很多,不能把宝贵的时间浪费在一些机械的、重复的事情上面。
联想企业网盘从2007开始面向企业客户提供专业的云存储服务,10年来服务了250000+企业。软件的更新迭代司空见惯,联想企业网盘就是由成百上千台服务器组成的,是一个非常复杂的互联网应用,仅仅在服务端就有几十个模块协同工作,加上各种客户端,需要使用不同的编译发布环境,有时候需要单独模块发布,有时候需要多个模块联合发布,使得每次的升级情况都非常复杂。曾经经历过一次大版本的升级迭代,运维和研发团队不眠不休的工作了40多个小时,既影响了用户的服务,也使得团队疲惫不堪。类似的经历,使得我们思考如何通过技术革新来解决这一难题,能够把我们的工程师们从简单劳动中解放出来,这样在未来面对更大规模的集群的时候,才能够游刃有余。
缩短上线时间,提高上线准确度,是我们建设这个系统的初衷。
2 问题
先让我们借用一张图(来源于 thoughtworks 官方文档)来回顾一下软件发布的一个完整的流程:
整个过程中,代码管理,集成和测试,发布上线是3个主要的环节。我们所有的问题都集中在这3个环节当中。
1、代码管理
代码管理混乱是一个研发团队的常见问题,研发的过程中,代码的分支设计不合理,分支过多或者过少,分支依赖混乱,权限控制缺失,完全靠人治,没有代码审核。
2、集成和测试
从研发环境到测试环境,都没有统一规范的部署环境,研发团队直接给测试出版本(野版本),因为编译环境,人员水平的差异会导致各种莫名其妙(有时候很低级)的问题,极大的影响了测试的效率和准确度。
3、上线交付
代码最终部署到生产环境的时候,需要运维人员和研发人员频繁手工操作,费时费力,还容易出错,整个过程不可重复且没有记录,回滚操作复杂,有时候甚至是无法回滚的,一旦是上线出现错误,对我们用户的影响就是非常恶劣的。
3 实践
多年来,我们在研发过程中不断总结,想了很多的办法,在服务客户的同时积累了大量的生产环境运维经验,开发了许多工具和流程,来解决升级和产品上线的问题。,下面基于联想企业网盘的生产实践,分享一些我们在建设持续交付系统方面的方法。
如下图所示,我们主要讨论这几个方面:
3.1 代码管理
代码是软件交付过程的源头,所以合理的规划与管理尤为重要。
3.1.1 代码仓库
早期,我们所有研发人员的代码都存放在一个 SVN 库里,分支和 Tag 散布在各个模块的子目录里。SVN 是很好的一个工具,但是太灵活了,要大家严格遵守纪律,但是更多时候要靠大家自觉,但是人总是会有松懈的时候。一旦有人不守纪律,对于后来者就是一个苦不堪言过程。
所以我们的第一步,就是把 SVN 迁移至 Git。按照模块拆分为单独的库,每个模块单独授权,统一分支模型。仓库软件用的 Gerrit,它原本是代码审核工具,拥有强大的权限管理系统,Git 仓库只是附带的功能。
其实在从SVN迁移到Git的时候,有很多工程师会有疑问,为什么迁移到 Git?不是 SVN 不好,也不是为了追逐技术潮流,而是后面的自动化工作(包括代码审核工具)用 Git 更方便,当然 Git 强大的分支功能以及分布式也是一个重要原因。
3.1.2 分支设计
分支我们参考比较常见的一个 Git 分支模型(参考链接),针对我们自己的需求做了一些调整,如下图:
1、 设计两条主分支,dev 和 master,dev 是开发分支,master 是对外的稳定分支,持续交付系统会从master分支拉取代码进行构建;
2、 辅助分支只使用 feature 分支和 hotfix 分支,feature 分支原则上是尽量不建,只用于开发周期比较长的新功能开发,短平快的 feature 都直接提交至 dev。
3.1.3 审核
代码是产品质量的源头,代码质量不行,其他再多辅助手段都没用。代码审核是保证代码质量至关重要的一环。只要团队人员数大于一个就应该推行代码审核。
代码审核有两种模式:
l 集成前审核(pre review)
顾名思义,在代码合并至目标分支前进行代码审核,有问题改,改完再继续审核,审核通过则集成进目标分支,这一类审核的代表工具软件有:Github,Gerrit,其中 Github 是以分支为单位进行审核,Gerrit 以提交为单位进行审核。
l 集成后审核(post review)
先合并代码,然后进行审核,有问题只能用新的提交来修复了,这一类审核的代表工具软件(其实这两款软件也支持 pre review):reviewboard,phabricator。此种方式容易导致目标分支不稳定,所以一般不建议。
我们采用的是第一种集成前审核的方式,工具软件用的 Gerrit,以提交为单位,强制审核过后再合并至目标分支(当然这个过程是自动的)。
好了,话不多说,有图有真相,下图是我们的代码提交工作流:
图中黄色的部分即是代码审核的部分,每个提交需要经过其他人审核(Code Review +2)和持续集成系统验证过(Verify +1)才能合并至目标分支。
代码审核页面:
3.2 构建部署
在这里我简单的将构建部署分为持续集成和部署流水线,实际上,这两块很多地方有重合,这里的持续集成仅仅只讨论构建验证和自动集成,部署流水线包括从构建到部署至不同环境的整个过程。
3.2.1 持续集成
持续集成是一个大的议题,是敏捷开发的一项核心实践。在持续交付过程当中,持续集成将从开发到部署的各个环节组成一条流水线,是整个交付过程的核心。重点是要快速反馈,在集成代码之前迅速发现问题并改正。
我们把单元测试、编译验证、静态扫描和覆盖率检测分离出来(这一步骤的时间控制在 5分钟内,这也是前面为什么要把库拆分的原因之一),在研发人员提交代码后立即触发构建,在5分钟内把结果反馈给研发人员,继而快速修复错误,直至验证通过。
我们采用的工具软件是 Jenkins,最流行的持续集成软件,通过插件支持 Gerrit,功能非常强大。
在实际的实施过程当中,要求每个模块都要提供在一个干净环境执行编译、单元测试等等步骤的脚本或方法,构建环境可以通过 Vagrant 或者 Docker 来自动配置,我们内部采用了Docker 技术来隔离各个构建环境。
流水线
3.2.2 部署流水线
顾名思义,这一步骤就是把打包好的软件部署到不同的运行环境,并且要自动处理各个环境的配置(例如域名、数据库信息、登录信息等等),此步骤严重依赖于前面步骤的实现,仓库的规划、分支的规划、持续集成的流水线构建等等。
一个典型的部署流水线
在构建部署流水线的时候,我们要遵循几个原则:
1、 过程可重复;
2、 一次构建多地部署;
3、 模块化部署;
4、 变更管理;
5、 审计功能;
6、 快速回滚。
在选择部署工具方面,我们考察过两个:thoughtworks go 和 Jenkins(插件 Delivery Pipeline)。
Go 系统自带管道,但是灵活性不如 Jenkins;Jenkins 的一个好处是我们的持续集成都在 Jenkins 里实现,很多脚本都可以复用,甚至很多任务都能直接复用,缺点是管道各任务之间数据共享比较繁琐,需要额外的插件(例如 Copy Artifact),所以实现的不是很自然。
在实际的实施过程当中,能够完全实现自动化(无人值守发布)是一种理想状态,但实践当中总是会受各种因素制约,所以必要时也必须向现实低头。我们最终实现了一键部署加关键环境(例如生产环境)手工触发(下面图中的播放小箭头就是这样的步骤)相结合的流程,参见下图:
在实施过程当中,配置文件的管理也是很重要的一个议题。配置文件主要分为两类:
1、 配置文件与运行程序不能分离,像J2EE这样的应用,配置文件与编译成果物打包成一个 war 文件,我们的处理方法是把敏感信息(例如数据库信息)存放在其他的Git 库,构建的时候针对不同环境分别构建,构建时由Jenkins 自动记录代码的版本和配置文件的版本;
2、 配置文件与运行程序可以分离,类似于 nginx 这样,我们把程序打包成 rpm 或者 deb ,配置文件存放在 puppet 主服务器上,每次部署都触发 puppet 的自动分发。
在持续交付流程中,我们可以清楚的知道当前每个环节,每个节点都处在一个什么版本状态,这对于清晰的了解,快速回滚非常有用。参见下图,某项目部分模块不同环境版本信息(请忽略页面丑陋这个细节,红色即表示某个模块正在发布,还没最终上线):
@IT薄荷叶:4 尾声 目前联想企业网盘的服务已经全面采用流程化的上线交付体系,从研发环境到测试环境到生产环境,全部是流水线作业,保证了各个模块间代码和版本的一致性,代表的集成、发布只需要我们轻点一下鼠标,然后就可以喝着茶耐心等待收到发布成功的邮件了。 持续交付是一个长期的需要不断完善的过程,公司的策略在变,产品需求在变,人在变,流程也在变,我们所做的仅仅是开始,还需要继续去摸索,磨合,打造出更为完善的交付系统。这是一个任何软件开发团队都需要重点考虑的事情,建立规范,制定流程,利用科学的工具来实践规范和流程,脱离小作坊式的交付模式,按时按质按量交付产品。 (1小时前)
http://www.oschina.net/question/2448759_2186294
联想企业网盘:SaaS服务集群化持续交付实践的更多相关文章
- Docker学习总结(14)——从代码到上线, 云端Docker化持续交付实践
2016云栖大会·北京峰会于8月9号在国家会议中心拉开帷幕,在云栖社区开发者技术专场中,来自阿里云技术专家罗晶(瑶靖)为在场的听众带来<从代码到上线,云端Docker化持续交付实践>精彩分 ...
- 在dotnet core下去中心化访问HTTP服务集群
一般应用服务都会部署到多台服务器之上,一.可以通过硬件得到更多的并发处理能力:二.可以避免单点太故障的出现,从而确保服务7X24有效运作.当访问这些HTTP服务的情况一般都是经过反向代理服务进行统一处 ...
- 如何实现 集群化/Session 复制-doc(cluster-howto.html)
源文档链接: http://tomcat.apache.org/tomcat-6.0-doc/cluster-howto.html 翻译日期: 2014年3月19日 翻译人员: 铁锚 感受: Tomc ...
- .net core下简单构建高可用服务集群
一说到集群服务相信对普通开发者来说肯定想到很复杂的事情,如zeekeeper ,反向代理服务网关等一系列的搭建和配置等等:总得来说需要有一定经验和规划的团队才能应用起来.在这文章里你能看到在.net ...
- keycloak集群化的思考
目录 简介 keycloak中的集群 load balancing负载均衡 暴露客户端IP地址 sticky sessions 和 非sticky sessions shared databases ...
- windows+nginx+iis+redis+Task.MainForm构建分布式架构 之 (nginx+iis构建服务集群)
本次要分享的是利用windows+nginx+iis+redis+Task.MainForm组建分布式架构,由标题就能看出此内容不是一篇分享文章能说完的,所以我打算分几篇分享文章来讲解,一步一步实现分 ...
- 分享在Linux下使用OSGi.NET插件框架快速实现一个分布式服务集群的方法
在这篇文章我分享了如何使用分层与模块化的方法来设计一个分布式服务集群.这个分布式服务集群是基于DynamicProxy.WCF和OSGi.NET插件框架实现的.我将从设计思路.目标和实现三方面来描述. ...
- WebLogic11g-半小时让你的domain集群化
WebLogic11g-半小时让你的domain集群化 WebLogic11g-负载分发 weblogic proxy.war配置 web.xml <!DOCTYPE web-app PUBLI ...
- Dubbo服务集群、服务启动依赖检查
一.什么叫Dubbo服务集群 指把同一个服务部署到多台机器,然后通过Dubbo服务集群的容错配置实现一台机器的服务挂掉之后自动切换到另外的一台机器 二.Dubbo服务集群容错配置--集群容错模式 标签 ...
随机推荐
- Java 并发专题 :FutureTask 实现预加载数据 在线看电子书、浏览器浏览网页等
继续并发专题~ FutureTask 有点类似Runnable,都可以通过Thread来启动,不过FutureTask可以返回执行完毕的数据,并且FutureTask的get方法支持阻塞. 由于:Fu ...
- 【PAT】1025. PAT Ranking (25)
题目链接:http://pat.zju.edu.cn/contests/pat-a-practise/1025 题目描述: Programming Ability Test (PAT) is orga ...
- codevs1039 数的划分
题目描述 Description 将整数n分成k份,且每份不能为空,任意两种划分方案不能相同(不考虑顺序). 例如:n=7,k=3,下面三种划分方案被认为是相同的. 1 1 5 1 5 1 5 1 1 ...
- UVA 12902 Reverse Polish Notation
//跟wyr学的//其实是贪心//题解稍后补上 #include<cstdio> #include<iostream> #include<cmath> #inclu ...
- VC6使用技巧
1.检测程序中的括号是否匹配 把光标移动到需要检测的括号(如大括号{}.方括号[].圆括号()和尖括号<>)前面,键入快捷键“Ctrl+]”.如果括号匹配正确,光标就跳到匹配的括号处,否则 ...
- tty/pts 相关指令
http://unix.stackexchange.com/questions/136662/how-can-we-know-whos-at-the-other-end-of-a-pseudo-ter ...
- sharepoint 2010 使用自定义列表模版创建列表(2)
前面用的方法是通过界面上操作,根据自定义模版,创建的列表.sharepoint 2010 使用自定义列表模版创建列表(1) 这里顺便记录多另一种方法,通过程序来创建. ---------------- ...
- hdu 5570 balls(期望好题)
Problem Description There are n balls with m colors. The possibility of that the color of the i-th b ...
- PHP 多input file文件上传
前台html jquery代码 后台PHP处理 前台html <form id="form" method="post" enctype="mu ...
- Swift中的集合类型
一.引子: 在2014年10月TIOBE编程语言排行榜中,Swift位居第18位,从2014WWDC发布会首次公布至今不到半年时间,swift一直受到编程人 员的追捧,其热衷程度并不亚于当红巨星Tay ...