Apsara Stack 技术百科 | 数字化业务系统安全工程
简介:数字化平台已经与我们生活紧密结合,其用户规模庞大,一旦系统出现故障,势必会造成一定生活的不便。比如疫情时代,健康码已经成为人们出门必备的条件,一旦提供健康码服务平台出现故障,出行将变得寸步难行。因此,系统安全问题成为威胁企业正常运行的重大风险,其安全稳定将变的越来越重要。
数字化时代,如果说哪些信息是最受关注的,能不能上“热搜”一定是评价的方法之一。在每天进入“热搜”的新闻中,有一类事件不仅上热搜的频率高,并且热搜的名称格式也高度统一,那就是“某某崩了”或者“某某打不开了”。这里“某某”指那些与我们生活息息相关的数字化平台,可能是购物平台,也可能是信息分享平台。之所以人们如此的关注这类事件,因为这些数字化平台已经与我们生活紧密结合,其用户规模庞大,一旦系统出现故障,势必会造成一定生活的不便。比如疫情时代,健康码已经成为人们出门必备的条件,一旦提供健康码服务平台出现故障,出行将变得寸步难行。
系统安全问题成为威胁企业正常运行的重大风险
数字化系统在给我们生活带来便利的同时,也提升了他在人们生活中的重要性,一旦系统出现故障,不仅仅会影响到业务的正常运行,也会影响到用户的日常生活和体验。因此,系统安全问题成为威胁企业正常运行的重大风险,其安全稳定将变的越来越重要。
在此背景下,一方面企业开始加大系统安全领域的投入,另一方面国家监管要求也变得越来越高。2021年6月10日,第十三届全国人民代表大会通过了《全国人民代表大会常务委员会关于修改[中华人民共和国安全生产法]的决定》,自2021年9月1日实施。新安全生产法首次提出平台经济等新兴行业、领域的生产经营单位应当根据本行业、领域的特点,建立健全并落实全员安全生产责任制,加强从业人员安全生产教育和培训,履行有关安全生产义务。在工信部和应急管理部印发《“工业互联网+安全生产”行动计划(2021-2023年)》中,也提出了要增强工业安全生产的感知、监测、预警、处置和评估能力,加速安全生产从静态分析向动态感知、事后应急向事前预防、单点防控向全局联防的转变,提升工业生产本质安全水平。
内部风险成为威胁系统安全的主要风险之一
在影响系统稳定和安全的原因中,按照其发生的主体,可以分为外部安全和内部安全,外部安全指常见由于黑客攻击、木马、DDOS攻击等原因导致的系统安全问题,而内部安全则是由误操作、变更故障、程序缺陷、硬件故障等原因导致的系统安全问题。外部安全属于信息安全的覆盖域,目前已经相对成熟,而内部风险的控制还是薄弱环节。
通过对企业内部安全故障原因分析可以发现,其中变更类故障导致的安全问题约占60-70%,环境变化类故障(如流量过大)导致的问题约占约15-25%,硬件类故障约占约5-15%。由此可见,由于变更风险导致的系统安全问题是威胁系统安全的主要风险之一。
传统风险控制方法难以解决内部风险带来的系统安全挑战
传统变更风险的控制是通过制度规范、宣贯、审批等方式来进行控制,由于风险控制复杂性,通过传统方式进行风险管控存在较大挑战,主要表现在:
1)产品更新迭代快,仅靠制度和人工审核控制风险难度大。由于目前数字化产品研发追求敏捷性,产品迭代频繁,可能导致系统故障发生频繁,而规章制度难以深入到产品研发、运维细节中,执行难度较大。通过人工审核、审批的方式成本高,难以直接量化风险,在需要大量审核的场景下,容易忽视风险。
2)系统安全涉及范围广,控制成本高。范围广主要体现在数字化系统和人员范围广,数字化系统包括重要业务系统、相应变更系统(云资源变更、应用变更、业务变更);人员包括产品、研发、测试、运维、运营人员等。
3)点状风险控制方案难以有效控制风险,控制效果差。风险控制是复杂系统工程,控制效果受短板影响明显,没有体系化控制手段,难有效控制风险发生。
解决方案实践
系统故障诱因复杂,这导致单点控制很难解决问题,需要一个系统化解决方案。第一届天猫双十一,开发和运维人员需要整夜保障,随时解决出现的问题,即便这样,也会出一些意想不到的故障。2020年双十一用户数量和销售规模与第一届双十一对比,已经不可同日而语,系统也更加复杂,但双十一大促系统保障过程却越来越流畅,保障人数也在持续降低,这背后就是一个系统化解决方案。
组织的顶层设计
组织设计是指从组织层面设置专门组织机构来负责系统稳定和安全,包括最高层安全生产委员会和各个研发部门稳定性负责人。安全生产委员会职能包括负责全局稳定性决策、安全生产规则制定、整体应急协同、安全文化培养、全局管控系统的规划与管理。当故障发生时,由相关人员负责故障应急与统筹,各研发部门稳定性负责人负责各系统风险治理和稳定性保障,在研发、运维过程中避免系统故障出现。
事前的风险预防
防患于未然是安全最高能力。首先,事前风险预防包括事前分析系统各个组成要素、组成要素可能面临威胁和存在脆弱性,并将分析结果作为安全治理输入。对于威胁,需要制定相应措施避免或减少威胁发生。对于脆弱性,需要针对性进行巩固,比如对于经常会导致系统故障的系统变配操作,通过统一的变更平台集中管理各种变配申请,从而实现对变配操作集中管控。其次,通过最小权限原则,限制操作人操作权限,包括操作时间限制、操作对象限制和操作范围限制。另外,每一次的变配操作,系统可以根据操作人、操作对象、操作类型等要素,计算操作过程中存在的风险,一旦发现过程中存在确定风险,则会直接阻断当前操作;如果是高风险,则会发起交叉确认流程;如果是低风险,则会直接放行。这种方式,既实现了对风险的实时管控,防止由于人为失误导致故障,同时又平衡了研发效率与安全生产间关系。
事中的实时观测
快速发现是避免损失扩大的重要手段。首先,在系统运行过程中,通过业务指标观测、应用程序观测、云资源观测相结合的方式,能够及时发现系统存在的问题,一旦发现故障,按照事先制定的预案,系统会通知相关人员进行处理。其次,基于大数据和人工智能算法,平台会实时预测相关指标变化趋势,将故障预警时间再次提前。
事后的快速恢复
尽管事前事中制定了详尽的方案,但是还是很难避免故障发生。一旦故障发生,如何快速进行故障恢复就是首要事情。按照故障不同类型,可以使用故障恢复手段有限流、拦截、熔断、快恢、降级、扩容、切流、重启等。不同恢复方式都需要有相应系统支持和日常演练测试。
故障恢复后,安全生产委员会还需要组织相关人员排查和分析故障原因,制定整改方案,确定故障责任人,推进和落实整改方案,防止相同故障再次发生。
业务系统安全工程
从以上的实践过程可以看出,企业很难依靠单一手段解决系统故障,而需要通过系统化的手段,从顶层的组织设计、事前的风险分析和策略制定、事中的持续监测和预警、日常的演练和事后的应急响应等多方面进行控制。
在传统行业中,为了保证生产经营活动能够正常运行,国家制定了一系列的措施使生产过程在符合规定的物质条件和工作秩序下进行,从而有效消除或控制危险和有害因素,减少人身伤亡和财产损失,保障人员安全与健康、设备和设施免受损坏、环境免遭破坏。在建筑、石油化工、交通运输、航空航天等行业,安全生产已相对成熟和完备,但在互联网领域还是空白。以下图采矿业安全生产流程为例,我们可以看出安全生产的管理要求已经落实到了作业的各个过程和环节。
参考传统行业中的安全生产解决方案,同时结合阿里巴巴内部的最佳实践,我们提出了业务系统安全工程解决方案,该方案是指导业务系统防范故障的安全指南,其目标是通过预防、监测预警、应急响应等手段,减少业务系统故障,保障业务系统稳定、可用和可靠,防范由于业务系统故障导致的资产损失和用户影响。
业务系统安全工程框架
由于业务系统以及故障原因的复杂性,单纯的从一个或多个点出发很难解决问题。业务系统安全工程以控制论和系统论为指导,以风险控制方法为工具,形成了自己的实施框架 IPDRI,即识别(identify)、预防(protect)、监测(detect)、恢复(recover)和改进(improvement)五个环节。从事前、事中、事后进行风险的控制,形成闭环的反馈网络。
其中,识别包括资产分析、威胁识别、脆弱性识别等。预防是为了避免风险的发生而采取的一定的预防措施。监测是监测系统和保护措施是否在正常的运行。恢复是在故障出现时快速的采取措施恢复系统的运行。改进是查找故障原因,制定改进方案避免相同故障的再次发生。
业务系统安全工程标准
在此背景下,阿里云联合国家信通院牵头起草了《基于云计算的数字化业务安全工程标准》,该标准是国内首部聚焦于保护系统持续正常运行的行业标准。标准核心目标是保护业务系统能够持续正常运行,防范由于业务系统故障导致资产损失和用户影响,保证系统可用、稳定和可靠。
标准规定了企业实现业务系统持续正常运行需要具备的各项能力,包括组织设计能力、风险分析与识别能力、策略与管控能力、监测与预警能力以及应急响应能力。
其中:
· 组织设计能力规定企业应设立顶层安全生产委员会,下辖公司安全生产部门,用技术手段提升风险控制能力,保障业务稳定;打造安全生产文化,确保人人重视、有持续性提升;明确行为准则,用机制保护人,减少犯错,降低损失,以此快速推进稳定治理,大幅收敛公司全局性故障和重大影响故障。
· 风险分析与识别模块帮助企业通过对系统脆弱性、业务安全生产需求、系统已发生故障分析,寻找影响信息系统安全生产的潜在风险。
· 策略与管控模块是针对已经分析发现的风险制定安全生产管控策略,通过降低、预防威胁发生,提前巩固、消除脆弱性等手段预防风险的发生。
· 观测与预警模块是通过业务状态观测、云资源状态观测、大数据风险分析与预警以及预警管理等能力,快速发现风险。
· 应急响应模块规定了企业缩短故障时间、快速恢复故障应该具备的响应和快恢能力,包括容灾演练、切流、限流、降级、重启、拦截、扩容等能力。
总结
系统安全受内部和外部双重影响,在防止企业系统受外部影响上,信息安全目前相关理论研究和产品建设已经较为完善。当前系统故障更多原因是由于企业内部问题导致,安全工程成为降低系统故障体系化解决方案。
随着企业上云和用云深入,阿里云混合云安全工程为企业上好云、安全用云提供了全套解决方案, 内容包括:安全工程标准培训、企业安全工程标准评测认证(联合信通院)、安全工程产品体系(运维风控等)、业务稳定性咨询等产品与服务, 提升云上业务的安全可控。
本文为阿里云原创内容,未经允许不得转载。
Apsara Stack 技术百科 | 数字化业务系统安全工程的更多相关文章
- 统一门户与业务系统的sso整合技术方案(单点登录)
一.单点登录(SSO,Single Sign On)整合目前计划接入统一门户的所有业务系统均为基于JavaEE技术的B/S架构系统.由于统一门户的单点登录技术选用的是JA-SIG组织开发的Cas Se ...
- 基于ETL技术的数字化校园共享数据中心设计
摘要:数据的抽取.转换与加载(ETL)是数据整合的核心过程.在分析高校信息化建设现状基础上,以建立数字化校园.整合数据资源.实现数据共享为目标,提出以ETL为基础建立共享数据中心实现数据整合的方案.介 ...
- 上海仪电Azure Stack技术深入浅出系列2:Azure Stack与Azure的有QoS保证的网络联通实现方法和对比测试
本篇文章作为<Azure Stack技术深入浅出系列>的第二篇,将描述我们目前在构建基于Azure Stack混合云业务解决方案方面所面临的网络连通困难,以及相关技术人员为解决这一问题所做 ...
- 上海仪电Azure Stack技术深入浅出系列1:谈Azure Stack在私有云/混合云生态中的定位
2.2 Azure Stack Azure Stack到2017年7月才提供GA版本,但目前还是可以通过技术预览版了解该技术.Azure Stack本质上是核心Azure服务的一个私有实例. Micr ...
- C#.NET 大型企业信息化系统集成快速开发平台 4.2 版本 - 几十套业务系统集中统一授权管理实现经验分享
由于这几年互联网电商的快速发展,快递公司也进入了快速发展的绝好快速成长期.随着社会的强劲需求公司的业绩年年攀新高.快速发展的公司都需要有强大的IT信息系统,硬件设备基本上款到了货也可以到了,但是软件系 ...
- 区块链Fabric技术在托管业务中的运用初探
区块链Fabric技术在托管业务中的运用初探 什么是Fabric技术 HyperLedger是IBM.Intel等多家公司正开展的一个区块链项目,包含了Fabric.Iroha等多项技术,其中最为活跃 ...
- 物联网RFID技术之应用ETC系统
背景 信息物理系统CPS通过集成先进的感知.计算.通 信.控制等信息技术和自动控制技术,构建了物理空间与信息空间中人. 机.物.环境.信息等要素相互映射.适时交互.高效协同的复杂系统, 实现系统内资源 ...
- 20年硅谷技术牛人到访DataPipeline谈:技术如何与业务平衡发展
导读:技术人员的常态是“左手支持业务签单,右手提升系统性能”,却经常陷入技术和业务该如何平衡发展的困惑?今天,且听一位硅谷牛人分享他的平衡之道. 以个人名誉申请31个国内外技术和产品专利,中国最佳CT ...
- 用uniGUI做B/S下业务系统的产品原型体验
从10月份到重庆工作后,一直忙于工作,感兴趣的几个方面的技术都处于暂停. 一个多月来,按照公司要求在做B/S集中式基卫产品的原型,主要是画原型图,开始是用Axure,弄来弄去感觉功能还是弱了些,尤其是 ...
- 为 10000+ 业务系统提供数据可视化能力的 AntV 又进化了
小蚂蚁说: 2018 年 AntV 品牌日以知新.知心为主题,旨在让产品一直「知新」,与用户一直「知心」.AntV 是蚂蚁金服全新一代数据可视化解决方案,致力于提供一套简单方便.专业可靠.无限可能的数 ...
随机推荐
- java的接口和抽象类区别
转自:深入理解Java的接口和抽象类 对于面向对象编程来说,抽象是它的一大特征之一.在Java中,可以通过两种形式来体现OOP的抽象:接口和抽象类.这两者有太多相似的地方,又有太多不同的地方.很多人在 ...
- 在LabVIEW中编程运行可执行程序
以下文字来自于 https://knowledge.ni.com/KnowledgeArticleDetails?id=kA03q000000YGhVCAW&l=en-US 翻译来自于Chat ...
- 从零开始学Spring Boot系列-集成Kafka
Kafka简介 Apache Kafka是一个开源的分布式流处理平台,由LinkedIn公司开发和维护,后来捐赠给了Apache软件基金会.Kafka主要用于构建实时数据管道和流应用.它类似于一个分布 ...
- .NET分布式Orleans - 3 - Grain放置
在Orleans 7中,Grain放置是指确定将Grain对象放置在Orleans集群中的哪些物理节点上的过程. Grain是Orleans中的基本单位,代表应用程序中的逻辑单元或实体.Grain放置 ...
- 【Spring注解驱动开发】@PostConstruct与@PreDestroy源码的执行过程
写在前面 在前面的<[String注解驱动开发]你真的了解@PostConstruct注解和@PreDestroy注解吗?>一文中,我们简单的介绍了@PostConstruct注解与@Pr ...
- Oracle 已存在数据的大表 改 分区表
创建表,插入测试数据 -- Create table create table LXW_TEST ( CDATE DATE, T1 NUMBER, T2 VARCHAR2(2) ) ; insert ...
- 镭速Raysync v6.6.8.0版本发布
最近镭速发布了v6.6.8.0版本,已经发布上线了.主要更新内容有服务器下发任务支持指定客户端,客户端增加日志清理和日志压缩,自动删除源文件保持源目录结构,支持将文件投递给其他成员等功能,详细的更新内 ...
- java使用Ffmpeg合成音频和视频
1.Maven依赖 <!-- 需要注意,javacv主要是一组API为主,还需要加入对应的实现 --> <dependency> <groupId>org.byte ...
- Hall定理小记
前言 Hall定理:一张二分图有完美匹配(即最大匹配为 \(\min\{|X|,|Y|\}\) ) 当且仅当任意一个点集 \(X'\) 与所有能直接到达 \(X'\) 的点集 \(Y'\), 也就是 ...
- #模拟#洛谷 5957 [POI2017]Flappy Bird
题目 分析 小鸟所在坐标的奇偶性一定相同, 考虑每次维护一个可行区间表示小鸟在当前列可以进入的纵坐标区间, 那么它有\(x_i-x_{i-1}\)的纵坐标最大改变差,然后根据奇偶性以及限制区间缩小范围 ...