最近一年负责运维的GPU主机越来越多,发现现有的监控项无法很好的了解GPU的性能和负载情况,研究了下官方文档,在此记录. 一.NVML和DCGM NVML:https://developer.nvidia.com/nvidia-management-library-nvml DCGM:https://developer.nvidia.com/dcgm 从网址就能看出,这两个工具都是nvidia官方推出的.都是用C/C++编写的底层库. NVML的操作命令是nvidia-smi,DCGM的操作命令…
目前大部分使用GPU的AI模型,都使用的英伟达这套. 需要注意的是,驱动.cuda.cudnn版本需要一一对应,高低版本互不兼容. 驱动和cuda对应关系:https://docs.nvidia.com/deploy/cuda-compatibility/index.html 驱动下载:https://www.nvidia.cn/Download/index.aspx?lang=cn CUDA下载:https://developer.nvidia.com/cuda-downloads 一.NVI…
11月14日,由<网络安全和信息化>和IT运维网联合主办的2019(第十届) IT运维大会上海站在锦荣国际大酒店如期召开.运维领域权威专家.技术领袖.各类运维相关技术产品提供商及服务商共同聚焦AIOps.运维自动化等前沿领域,分享智能化时代运维的转型与变革.作为业界知名智能化运维管理解决方案提供商的北京智和信通技术有限公司应邀参会,为与会嘉宾现场演示智和网管平台SugarNMS通过一键式自动发现.自动识别.智能监控.智能管理功能赋能AI智能化运维,助力用户IT运维服务生态体系建设. 智和网管平…
一. 介绍 监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供翔实的数据用于追查定位问题.监控系统作为一个成熟的运维产品,业界有很多开源的实现可供选择.当公司刚刚起步,业务规模较小,运维团队也刚刚建立的初期,选择一款开源的监控系统,是一个省时省力,效率最高的方案.之后,随着业务规模的持续快速增长,监控的对象也越来越多,越来越复杂,监控系统的使用对象也从最初少数的几个SRE,扩大为更多的DEVS,SRE.这时候,监控系统的容量和用户的"使用效率"成…
一些经典的运维问题: .配置文件中有空格,导致服务端下发的域名出现问题 .修改数据库没有备份 .修改dnspod问题,指向了错误的IP地址 .时间不一致,需要重新设定时区 .启动程序必须是最新版本,如:.jar 有可能没有杀死老版本的程序 .ssl证书更换(cdn,slb,nginx,tomcat,haproxy,upyun,qiniu) .域名解析,经过通用高防以后无法获取客户端的真实IP地址,获取的全部是高防的IP地址 .每个业务应用都需要至少双实例(避免单点问题) slb,nginx,ja…
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由 织云平台团队 团队发布在腾讯云+社区 诞生背景 最近这些年,运维行业提出了不少概念,各种各样的"XX运维"可以说是你方未唱罢我方已登场.然而,这些概念,都有一个共同点:专注于面向运维同学自身的工具和系统. 这些,其实都隐含了一个前提:DO分离后,开发和运维都做好自己的事情,然后就可以老死不相往来了.哦,还有一个另类,DevOps.虽然这个概念,在运维行业炒得更火,但它的初衷,其实是开发抛开运维单干吧?只不过运维同学利用…
1. Nagios 简介是一个开源软件,可以监控网络设备网络流量.Linux/windows主机状态,甚至可以监控打印机它可以运行在Linux上或windows上基于浏览器的web界面方便运维人员查看监控项目的状态支持web界面配置.管理操作支持短信.邮件通知可以自定义脚本实现自定义化监控Nagios官网 http://www.nagios.org 2. Nagios安装 - 服务端(192.168.1.117)Centos6默认的yum源里没有nagios相关的rpm包,但是我们可以安装一个e…
有三台redis服务器6379.6380.6381,配置6379为主服务器,6380与6381都为6379的从服务器.如果主服务器6379挂掉了,我们怎么办? 方式一:手动修改从服务器的配置,将6380设置为主服务器,6381为6380的从服务器,并且6380设置为可写,6381为只读. 方式二: 运用运维工具sentinel监控…
业务运维并不是一个新概念,针对传统信息架构提出的业务服务管理就是把以业务为核心的IT系统与IT基础设施性能进行整合运维的解决方案.然而随着互联网+转型的不断推进,基础设施的智能化和广泛云化成为IT发展的"新常态",只关注IT基础设施.系统与应用软件的稳定性与性能状况的传统运维手段,越来越难以满足企业业务高速发展的需求. 互联网+时代的业务运维是IT运维与互联网深度融合的产物,是运维管理在云计算.大数据技术推动下的必然结果.业务运维是以用户体验为核心,以业务价值为导向,严格遵循业务运维监…
虎牙直播运维负责人张观石 本文是根据虎牙直播运维负责人张观石10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族开放日<虎牙直播平台SRE实践>演讲中的分享内容整理而成. 张观石,拥有10余年网站开发.架构.运维经验:目前关注互联网服务可靠性系统工程.运维平台的规划建设.网站高可用架构等方面:在音视频传输质量评估.微服务运维方面积累了丰富的经验. 目录 一. 直播平台的架构及运维挑战 (一) 音视频传输流程及挑战 (二) 一个直播间的流程 (三) 直播平台的运维挑战 二. 我们…