随着物联网、云平台、大数据、人工智能等技术的发展,并逐步投入到智慧园区的建设,传统园区数字化转型加快。园区的形式包括产业园区、教育园区、制造业园区、科研园区、社区等等,园区形态不断演进和发展,园区网承载的对象和业务也越来越多。业务种类爆炸性增长,业务变更愈加频繁,网络运维的复杂程度与难度逐渐升高,引入大数据、AI技术促进网络运维更加智能高效已成为智慧园区网络运维的必然趋势。

第1章 智慧园区IT运维的痛点

随着园区数字化转型加速,智慧园区内的各类资产设备数量激增,运维问题不断凸显。如,设备种类多、数量大、分布广,故障排障难、效率低,人工运维成本高等等,园区网IT运维部门面临巨大网络运维压力。

面临的具体难题如下:

  • 园区网建设时期与阶段不同,缺乏统一的网络规划管理,网络架构相对混乱,难以实时观测,对网络性能瓶颈缺乏准确评估与扩容依据。
  • 园区网内包含的设备、系统类型多,数量大,分布广泛,缺乏态势感知能力,网络运行态势难以实时掌握,人工巡检难度大。
  • 网络中出现故障或异常时,因网络结构复杂,设施异地等原因难以快速定位,又因设备品牌、型号、配置等存在差异,难以快速定位故障根因,造成排障困难。
  • 园区网络缺乏故障自愈能力,未实现远程运维,人工运维成本高、效率低。
  • 网络性能、流量、巡检和配置检查的数据多为手工整理,数据分析统计难度大,效率和正确率较低,难满足更高的运维管理需求。
  • 园区管理涉及的IT设备、业务软件、行政资产、备品备件等数量巨大,种类繁多,仅靠人工管理难以对其备件、配件信息详细统计工作力量巨大且极易出错,资产的采购、调拨、报废等管理效率低,难审计。

第2章 智慧园区全息感知运维方案

在传统运维方式下,智慧园区运维工作中,集中监控能力薄弱且依赖于经验和规则,因网络故障引起的业务中断现象,网络故障的定位、诊断、分析过程对IT运维人员的能力和经验水平要求不断增高。因此,简单有效的图形化运维工具,对全区内网络、设备、业务的实时监测和分析预警,已成为园区实现全局化统筹管控、高效决策的必然选择。

北京智和信通智慧园区运维方案,通过智和网管平台对这些设备分布在智慧园区的不同区域、线路、位置的IT基础设施进行统一纳管、统一监测。通过实时网络拓扑、状态监控和各类故障、事件的预警,动态展现感知各种设备的分布情况、状态信息、异常情况等,并对园区内路径的流量信息进行统计分析,对网络带宽进行管理和规划,给后续网络扩容提供参考。

智和信通智慧园区一体化运维监控架构

2.1.智慧园区网络全景观测

智慧园区网络涉及大量传输设备、数通设备、安全设备、服务器、云、摄像头、感知终端等多种类型并存且相互连接,连接方式多样复杂,常规运维方案难以清晰管理设备间的链接关系。通过北京智和信通的网络全景观测方案将智慧园区的IT设施纳入智和网管平台中一站管控,采取智能技术,实现网络拓扑可视化的能力,通过动态智能拓扑实现全量设备、资源、链接关系、IP等实时更新、快速定位。

智和园区网络拓扑示意图

2.2.端到端网络连接关系可视化

方案通过对交换机光口和网络接口的监控,通过数据采集分析,实现对网络流量和关键连接的预测性维护,从整体维度到局部维度全面展示智慧园区网络内IT设施间链路各项指标,整体可观测、可告警、可分析、可统计。通过实时监控各个端口以及每条线路的通断情况和性能指标,结合专业的流量监控分析能力,对链路容量进行及时监控,并生成流量分析报告,为容量规划提供依据。

2.3.园区视频监控摄像头运维

智慧园区的视频监控体系的稳定运行是对智慧园区实时全面了解的有效手段,因此对视频监控系统内摄像头运行状态、画面质量的监测尤为重要。

本方案支持对不同品牌、不同型号的摄像头进行统一运维,将网络高清、智能分析、多级管控融合为一体。通过onvif接口协议和智能化识别技术,实现对视频画面自动侦测、自动提取,主动监控发现和分析出摄像机设备常见的故障,如设备不连通、画面偏色、信号缺失、清晰度异常、亮度异常等问题和原因,并及时在拓扑图中显示出当前视频监控的可用情况。

2.4.PON设备监控管理

方案采集、监控PON设备和其他网络设备数据,实现全域网络数据统一分析,统一呈现,对PON设备和以太网有线、无线设备统一智能分析,分析结果集中呈现,提升管理运维体验。通过智能技术,用户只需输入IP范围即可发现PON设备,满足整个网络大量设备接入需求;支持单个添加设备,在管理少量设备时逐个添加。

2.5.园区终端可视管理

PC、手机、PAD、摄像头、打印机、IP电话、视频会议等终端快速增长,方案通过多种发现算法,自动搜索发现交换机的下挂设备,智能识别网络中的智能终端和物联网终端,分析其的IP、MAC、端口等信息。自动生成设备拓扑图,简化添加删除等设备操作,提升管理效率。

2.6.虚拟化资源统一管理

方案支持对虚拟化环境下的虚拟机、宿主机等进行全方位运维监控,全面支持Exi5、KVM、Xen、Hyper-v等,监测指标涵盖物理机内部虚拟化设备的电源、操作系统、CPU、内存、磁盘等,最大化利用计算资源,保障虚拟化平台运行稳定。

2.7.云上云下资源统一监控

方案对复杂的多云异构环境、云上云下资源、信创云等进行全面管理,实现云下服务器、网络设备、安全设备、机房、机柜、专线、配件等设施,云上各类云服务器、云磁盘等云产品以及各类IP、NAT、DNS等资源的真正一站式运维,并支持对纳管资源的快速扩展。自动监测基础设施及资源,其中包括云、混合云、容器、虚拟主机、网络、服务器、存储等。对进程、资源利用率、网络使用量、性能、日志、事件进行全面监测。

2.8.弹性扩展,满足网络发展需求

方案支持设备及资源弹性伸缩,满足网络中设备量持续增长及更新的需求。可对设备类型模型进行扩展,可自定义新设备的类型、图标、类型识别策略;可对设备资源模型进行扩展,自定义新设备类型的网口、指示灯、风扇、电源的图标、识别发现策略;可自定义设备面板图,以拖拽、鼠标操作完成设备面板模板的制作;支持故障和性能扩展。

通过自定义设备类型及其设备资源,最大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的全面化管理,达到管控万物的目标。

第3章 IT基础设施运行态势感知

方案融合人工智能、大数据、物联网、远程2.5D全景呈现等技术,实时感知IT设施全息运行状态,轻松观测智慧园区任一IT基础设施,无论主机、进行、网络设备等,通过统一的监测面板,全面洞察IT设施运行状态和性能,对全局网络态势实时追踪,快速定位故障和异常。

3.1.运行性能态势分析

实时监测并感知网络性能相关情况,全面覆盖IT环境,采集设备资源、应用、服务等性能信息,通过智能分析,多维度处理、分析、展示网络基础设施性能状态,实现全网态势的“可观、可管、可控”。

3.2.日志与事件管理

将事件和告警分离管理,接收设备/服务器主动发送的消息,集中处理后,及时地通知用户,并可以通过集中的管理界面进行管理。接收设备/服务器主动发送的消息,极大地提高了管理的主动性,通过统一界面集中管理事件,降低了管理的难度。

3.3.故障态势感知

方案通过统一的故障管理中心,统一检测、统一管理、统一分析园区网中各种事件日志、设备故障、网络异常、业务指标异常、流量异常等信息,快速感知网络故障。基于故障模型和AI算法分析故障原因,分析、压缩、并归关联故障信息,降低故障风暴,秒级定位故障位置,主动出击快速排障,故障处置全流程展示。

3.4.跨地域自动巡检

传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略,日常例行巡检、节假日和重要事件前的巡检均可自动化执行。

第4章 全网流量透视

随着智慧园区信息化建设的加速,其业务、应用层出不穷,对网络带宽的需求越来越高。正常的业务需要良好的带宽环境保障机制,避免被一些与业务无关的杂事干扰,影响工作效率。方案对智慧园区路网络全局流量和带宽实时监控,将出入双方向流量情况可视化展现。基于海量流量数据的存储挖掘,统计分析流量峰值、谷值、流量趋势、设备流量等数据,为网络流量管理提供数据支撑。

第5章 端到端业务运维体系

随着业务的不断增长,基于园区网的应用系统也越来越多,如OA、Email、ERP等数据业务,VoIP、PTSN等语音业务,视频会议等视频业务以及其他的办公、运营业务。如何维护园区网络的可靠稳定,不中断、不丢包、低延时、低抖动,以保障关键业务稳定运行。

第6章 全网IP合规监测

对于园区网内的IP地址采取统一数据标准进行梳理和管理,分网段、端到端的规划、部署、管理和监控IP地址。通过多种合规性策略检测全网MAC-IP的使用情况,实现从规划、分配到使用、回收的IP地址全视角管理,提升IP信息准确性,真正IP地址集中化、自动化、规范化管控。

黑白名单配置:通过黑白名单功能用来检测用户所关心的设备是否在网络中出现及出现时间。支持配置黑名单或白名单,智能划拨规划表中的IP、MAC设置为白名单策略,对非法接入设备进行告警处置。

IP-MAC绑定:对全网MAC和IP进行配对绑定,并周期性对MAC-IP进行检测。自动将规划表中的IP-MAC设置为绑定关系,自动扫描在线终端,当IP-MAC的绑定关系发生冲突时产生告警,保证入网终端安全可信。

第7章 无人值守地设备远程配置

园区网承载的业务经常发生变更,面对业务的变更运维工程师往往要对大量设备进行操作,此时如果依靠工程师逐一登录设备进行命令下发、策略配置,将产生大量重复性的工作,不但导致运维效率低下,也不可避免地产生人为配置错误。

通过智和信通全场景自动化运维方案纳入监控的设备进行单独、批量的配置操作,设备策略远程配置管理,可以自动批量进行设备配置修改,并可对设备配置进行备份、对比、恢复,宕机后设备配置可快速复原,保障设备及时恢复运行,全面提升配置效率、质量和安全性,降低运维复杂度。

针对不同类型的设备,支持进行各种控制、配置操作。

  • 对服务器/主机/虚拟化,支持一键开关机、进程管理、应用管理、容量管理等
  • 对交换机/路由器,支持ACL、QoS、流量策略、端口策略等
  • 对安全设备,支持防护管理、认证管理、NAT管理、VPN管理、内容控制等
  • 对数据库/中间件,支持空间管理、池管理、会话管理、连接控制等
  • 对传输设备,支持终端管理、链路管理、信号控制、功率配置等
  • 对其他设备,支持结合用户实际场景,通过拖拽流程的方式实现自定义管控策略

对不同厂商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、华为、H3C、锐捷、中兴等多家厂商的网络设备。

第8章 全场景自动化运维

随着智慧园区信息化建设发展而来的是越来越复杂的业务和越来越多样化的需求,不断扩展的应用需要更加合理的运维模式来保障。传统园区网运维依赖人工进行,运维效率低,网络配置管理易出错,排障处置困难。

方案通过运维自动化将IT运维中涉及的服务、命令、操作、执行组件化、策略化,将需要进行的运维服务、操作等以组件、策略的形式托管至平台中进行维护和管理,通过简单灵活的编排能力,使用者可以选择业务场景所需的策略,通过可视化拖拽的编排方式进行组合,即可完成应用场景端到端的图形化编排。

在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,实现网络变更、设备配置自动化,业务需求变更,通过平台自动部署实现,无需手工敲命令行,快速响应需求变化。

将人工运维与故障自愈结合,无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,实现故障自愈。降低甚至清除排障处置中的延迟时间,完成零延迟的IT运维。

在智慧园区日常网络运维服务中,重复的故障和请求约占到70%,只有30%的故障真正需要专业人员来解决,知识经验对提升重复工作的效率起到了至关重要的作用。通过智和网管平台自动化运维的能力,将只能由专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识,减少因误操作带来的损失,保障运维效率。

第9章 运维大数据分析

智慧园区涉及的IT设施及各业务系统产生的海量数据无法得到深层次的应用,管理者决策缺乏数据依据,难以参考各类网络业务指标、数据等实现对运行态势、隐患风险的实时掌控及运营管理。

为解决此难题,智和信通智慧园区监控运维方案利用图形、图表、图表等易于理解的形式,提取和分析大量复杂的各类运维数据,呈现分析结果,将全域资源融合展示。从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维中心能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。

智慧园区运维大屏示意图

第10章 更多协同运维能力

10.1.IT资产生命周期监管

建立健全资产台账,实现一机一档,通过自定义多级资产分类,细化资产类别,实现资产分类管控,提高资产精细管理程度。从资产入库、领用、变更、维修、调拨、到报废处置,资产每一步操作均实现完整记录,支持追溯,通过平台实现资产整个生命周期的全流程闭环管理,使得IT资产每一次生命周期变更,都有流程可依、都有迹可循,从而实现全面的IT资产监管,解决网络设备在日常运维过程中出现“脱管”或“半脱管”的问题。

10.2.可量化运维工单体系

通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。

第11章 智和信通信创国产化支持

智和信通提供的信创运维方案,立足于北京智和信通10年的国产融合经验,与国产软硬件产品深度适配,方案应用覆盖各行各业。方案支持在中标麒麟、银河麒麟、红旗Linux等国产操作系统上运行,支持在达梦、金仓、神州等国产数据库进行数据存储,通过东方通等国产中间件提供对外服务,支持龙芯、申威等国产CPU架构,并实现对国产化CPU、服务器、数据库、中间件等IT软硬件设备的综合监控与运维管理。

第12章 方案应用价值

通过对园区网内的IT基础设施、IT机房、链路、资产、流程、业务的全面梳理、全栈监控、实时告警、故障自愈等智能化运维手段,解决园区运维面临的各项难题,助力智慧园区IT运维部门告别传统“救火式”运维,运维效率大幅度上升。

基于AIOps实现智慧园区极简IT运维的更多相关文章

  1. 基于layui和bootstrap搭建极简后台管理框架

    年前无聊,想自己搭建一个后台管理框架,对比了easyui.Extjs.H-ui.H+UI.layui几个框架,easyui和Extjs虽然功能强大但是界面实在是接受不了,H+UI和layuiAdmin ...

  2. 【自动化】基于Spark streaming的SQL服务实时自动化运维

    设计背景 spark thriftserver目前线上有10个实例,以往通过监控端口存活的方式很不准确,当出故障时进程不退出情况很多,而手动去查看日志再重启处理服务这个过程很低效,故设计利用Spark ...

  3. 基于 Node.js 平台,快速、开放、极简的 web 开发框架。

    资料地址:http://www.expressjs.com.cn/ Express 基于 Node.js 平台,快速.开放.极简的 web 开发框架. $ npm install express -- ...

  4. 极简Node教程-七天从小白变大神(一:你需要Express)

    如果说用一句话来概括Node那就是:它开启了JavaScript服务器端语言. Node系列的文章并不会从一开始长篇概论的讲Node的历史,安装,以及其他很琐碎的事情.只会专门介绍关于Node或者准确 ...

  5. AIOps 一场颠覆传统运维的盛筵

    "颠覆传统运维."是 OneAPM CEO 陈旭经常挂在嘴边的一句话.为什么说 AIOps 将颠覆传统运维?如何才能把人工智能和运维管理相结合并落地? 2018年5月,OneAPM ...

  6. saltstack自动化运维系列11基于etcd的saltstack的自动化扩容

    saltstack自动化运维系列11基于etcd的saltstack的自动化扩容 自动化运维-基于etcd加saltstack的自动化扩容# tar -xf etcd-v2.2.1-linux-amd ...

  7. 基于Linux-3.9.4的mykernel实验环境的极简内核分析

    382 + 原创作品转载请注明出处 + https://github.com/mengning/linuxkernel/ 一.实验环境 win10 -> VMware -> Ubuntu1 ...

  8. [开发技巧]·Python极简实现滑动平均滤波(基于Numpy.convolve)

    [开发技巧]·Python极简实现滑动平均滤波(基于Numpy.convolve) ​ 1.滑动平均概念 滑动平均滤波法(又称递推平均滤波法),时把连续取N个采样值看成一个队列 ,队列的长度固定为N ...

  9. 一个基于protobuf的极简RPC

    前言 RPC采用客户机/服务器模式实现两个进程之间的相互通信,socket是RPC经常采用的通信手段之一.当然,除了socket,RPC还有其他的通信方法:http.管道...网络开源的RPC框架也比 ...

  10. 基于七牛云对象存储,搭建一个自己专属的极简Web图床应用(手摸手的注释讲解核心部分的实现原理)

    一个极简的Web图床应用,支持复制粘贴与拖拽上传图片 1.开发缘由 日常使用Vs Code编写markdown笔记与博客文章时,在文章中插入图片时发现非常不便 使用本地文件编写相对路径---没法直接复 ...

随机推荐

  1. java web 开发框架编

    学习web 框架上开发需要的是安装  mysql 8.0  idea 2022 git  2.2.23  node 16以上 (新版本不好拉有些库了)jdk 最好是17以上 jdk8也是行的,反正不管 ...

  2. 映射lun

    环境 VMware1 网卡与 主机ping通 创建文件夹将文件解压进去 删除压缩包 创建虚拟机 下一步下一步,完成虚拟机 编辑虚拟机设置 否 账号密码 admin Admin@storage 等待 导 ...

  3. hadoop web界面

    通过界面监控大数据平台运行状态 通过界面查看大数据平台状态 通过大数据平台 Hadoop 的用户界面可以查看平台的计算资源和存储资源.打开 http://master:8088/cluster/nod ...

  4. 认识netty的基本组件

    Java NIO VS Netty 有了 Java NIO,而且 Netty 也是基于 Java NIO 实现,那么为什么不能直接用 Java NIO 来实现网络通信模块呢? 接下来我就给大家解释一下 ...

  5. SpringBoot 配置统一API对象返回

    1.前言 在实际项目开发中,为了便于前端进行响应处理,需要统一返回类格式.特别是在有多个后端开发人员参与的情况下,如果不规范返回类,每个人按照个人习惯返回数据,前端将面临各式各样的返回数据,难以统一处 ...

  6. 2、SpringBoot2之入门案例

    2.1.创建Maven工程 2.1.1.创建空项目 2.1.2.设置项目名称和路径 2.1.3.设置项目sdk 2.1.4.项目初始状态 注意:需要关闭项目再重新打开,才能看到SpringBoot-P ...

  7. 【Docker】02 上手入门

    环境前提: 软硬件设备:真机 | 服务器 | 虚拟机 操作系统:Linux 协议传输工具:XSHELL等等,直接操作就不用了 网路:必须得有 Docker的安装: 还好在学Linux的时候装了一下,发 ...

  8. 【转载】 使用Python的ctypes查看内存

    =================================================================== 原文地址: https://zhuanlan.zhihu.com ...

  9. 介绍一款新奇的开源操作系统:GodoOS

    在快节奏的现代办公环境中,一款高效.集成化的操作系统无疑是提升工作效率的利器.今天,我们要为您隆重介绍 --GodoOS,一款专为内网办公环境设计的全能操作系统.它不仅仅是一个工具,更是您团队协作与文 ...

  10. Java IO 流详解

    概述 流是一个抽象的概念,代表了数据的无结构化传递.流的本质是数据在不同设备之间的传输.在 Java 中,数据的读取和写入都是以流的方式进行的 在 Java 中,根据数据流向的不同,可以将流分为输入( ...