运维利器万能的 strace】的更多相关文章

strace是什么? 按照strace官网的描述, strace是一个可用于诊断.调试和教学的Linux用户空间跟踪器.我们用它来监控用户空间进程和内核的交互,比如系统调用.信号传递.进程状态变更等. strace底层使用内核的ptrace特性来实现其功能. 在运维的日常工作中,故障处理和问题诊断是个主要的内容,也是必备的技能.strace作为一种动态跟踪工具,能够帮助运维高效地定位进程和服务故障.它像是一个侦探,通过系统调用的蛛丝马迹,告诉你异常的真相. strace能做什么? 运维工程师都是…
在运维实战中,如果有若干台数据库服务器,想对这些服务器进行同等动作,比如查看它们当前的即时负载情况,查看它们的主机名,分发文件等等,这个时候该怎么办?一个个登陆服务器去操作,太傻帽了!写个shell去执行,浪费时间~~ 这种情况下,如果集群数量不多的话,选择一个轻量级的集群管理软件就显得非常有必要了.ClusterShell就是这样一种小的集群管理工具,原理是利用ssh,可以说是Linux系统下非常好用的运维利器!选择了clustershell这个软件(也简称clush),原因如下: 1)安装方…
写在前面的话 在前面的博客中已经具体提到了如何获取对的机器人的 Token 等操作,不清楚的可以参考之前写的 [运维利器:钉钉机器人脚本告警(Linux Shell 篇)]这篇博客的前部分. 本文主要给出的 Python 脚本的实现,我记得网上很多脚本给的好像是 go 语言写的. 虽然现在 go 超级火,运维 docker 和 k8s 以及性能的原因在自动化运维上可能即将取代 Python. 但不可忽视,Python 写脚本还是挺不错的,且 Linux 自带 Python,可以省去很多麻烦! 闲…
关于 Python 自动化的话题,在上一篇文章中,我介绍了 Invoke 库,它是 Fabric 的最重要组件之一.Fabric 也是一个被广泛应用的自动化工具库,是不得不提的自动化运维利器,所以,本文将来介绍一下它. Fabric 主要用在应用部署与系统管理等任务的自动化,简单轻量级,提供有丰富的 SSH 扩展接口.在 Fabric 1.x 版本中,它混杂了本地及远程两类功能:但自 Fabric 2.x 版本起,它分离出了独立的 Invoke 库,来处理本地的自动化任务,而 Fabric 则聚…
在运维实战中,如果有若干台数据库服务器,想对这些服务器进行同等动作,比如查看它们当前的即时负载情况,查看它们的主机名,分发文件等等,这个时候该怎么办?一个个登陆服务器去操作,太傻帽了!写个shell去执行,浪费时间~~ 这种情况下,如果集群数量不多的话,选择一个轻量级的集群管理软件就显得非常有必要了.ClusterShell就是这样一种小的集群管理工具,原理是利用ssh,可以说是Linux系统下非常好用的运维利器!选择了clustershell这个软件(也简称clush),原因如下:  1)安装…
写在前面的话 目前换了几家公司,且最近几家都是以钉钉作为公司 OA 聊天工具,总的来说还是很不错的.最近去了新公司,由于公司以前没有运维,所以监控,做自动化等方面都没有实施,恰逢这个机会把最近做的关于用到钉钉机器人的一些东西写出来,希望能够帮到和我有同样需求的兄弟,少走一些弯路! 目前个人钉钉机器用在了两个方面: 一是 Zabbix 监控告警,使用的是 Python 编写的脚本,且目前也在写关于 Zabbix 的文档,有兴趣的小伙伴可以到我主页看看! 二是 Jenkins 自动发布,在构建后执行…
Redis作为一个基于内存的可持久化的日志型.Key-Value数据库,以其出色的性能表现以及高可用性在许多公司有着举足轻重的地位.伴随着业务量的增长,redis集群的规模不可避免的需要扩大,此时redis集群的运维成本就成为一个不可忽视的工作内容. RedisManager作为一个redis一站式管理平台,它支持redis集群的创建.管理.监控.手动故障转移以及预警等功能,对redis集群做到全方位的保护.它大大降低了redis集群的运维成本,能做到对集群的实时监控,在redis出现问题是进行…
由于大部分互联网公司服务器环境复杂,线上线下环境.测试正式环境.分区环境.客户项目环境等造成每个应用都要重新部署,而且服务器数量少则几十台,多则千台,若手工一台台部署效率低下,且容易出错,不利后期运维,因此需要Ansible或者Saltstack来解决此问题. Ansible与Saltstack最大的区别是Ansible无需在被控主机部署任何客户端代理,默认直接通过SSH通道进行远程命令执行或下发配置,这里不作详细对比,直接使用Ansible.Ansible是DevOps项目基础工具之一,致力于…
supervisor用来管理进程服务很方便 优点: 1.重启方便,无抖动感 2.可以分组管理进程 3.加入系统自动启动后,可以开机自启,程序异常退出能自动启动 操作: 1.在python沙箱环境下操作supervisor,进去python 沙箱虚拟环境(virtualenv) $source my_env/bin/activity 这个不会的自行谷歌下 2.安装supervisor $pip install supervisor 3.生成默认配置文件 安装好supervisor之后,默认是没有生…
Fabric 主要用在应用部署与系统管理等任务的自动化,简单轻量级,提供有丰富的 SSH 扩展接口.在 Fabric 1.x 版本中,它混杂了本地及远程两类功能:但自 Fabric 2.x 版本起,它分离出了独立的 Invoke 库,来处理本地的自动化任务,而 Fabric 则聚焦于远程与网络层面的任务. 为了做到这点,Fabric 主要依赖另一大核心组件 Paramiko,它是基于 SSH 协议的远程控制模块,Fabric 在其基础上封装出了更加友好的接口,可以远程执行 Shell 命令.传输…
前言 和ansible类似,但是更加高效 安装 yum install -y clustershell clush命令: clush -a 全部 等于 clush -g all clush -g 指定组 clush -w 操作主机名字,多个主机之间用逗号隔开 clush -g 组名 -c --dest 文件群发 (-c等于--copy)\ 配置groups vim /etc/clustershell/groups all: host1 host2 实例 [root@ops-server1 clu…
##sample 1 : mysql 监控 1.phpadmin  比较简单,适合上手 2.mysql_web python 写的, https://github.com/ycg/mysql_web/ mysql monitor web - MySQL实时监控 安装环境: 基于python2.7.11开发的 安装MySQL数据库 安装python第三方包 #更新setuptools wget http://pypi.python.org/packages/source/s/setuptools/…
一.简介 Ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet.cfengine.chef.func.fabric)的优点,实现了批量系统配置.批量程序部署.批量运行命令等功能. 二.安装 yum -y install ansible 三.配置ssh-key(可选) ssh-keygen //生成秘钥 # 将秘钥拷贝到被管理服务器上 ssh-copy-id -i ~/.ssh/id_rsa.pub -p root@192.168.182.129 四.an…
概述 下面几个问题,相信广大 K8s 用户在日常集群运维中都曾经遇到过: 集群中的某个应用被删除了,谁干的? Apiserver 的负载突然变高,大量访问失败,集群中到底发生了什么? 集群节点 NotReady,是什么原因导致的? 集群的节点发生了自动扩容,是什么触发的?什么时间触发的? 以前,排查这些问题,对客户来说并不容易.生产环境中的 Kubernetes 集群通常是一个相当复杂的系统,底层是各种异构的主机.网络.存储等云基础设施,上层承载着大量的应用负载,中间运行着各种原生(例如:Sch…
一.saltstack介绍 1.介绍 SaltStack管理工具允许管理员对多个操作系统创建一个一致的管理系统,包括VMware vSphere环境. SaltStack是一个服务器基础架构集中化管理平台,具备配置管理.远程执行.监控等功能,基于Python语言实现,结合轻量级消息队列(ZeroMQ)与Python第三方模块(Pyzmq.PyCrypto.Pyjinjia2.python-msgpack和PyYAML等)构建.通过部署SaltStack,我们可以在成千万台服务器上做到批量执行命令…
1.精通shell编程,熟练应用awk,sed,grep,strace,tcpdump等常用命令; 2.精通windows server,linux,mssql,mysql,熟悉网络,cisco,juniper主流网络设备配置维护; 3.大型系统集群规划,实施,运维,调优,分库分表读写分离,丰富的高可用场景管理经验; 4.熟悉Redis,MongoDB,Memcache等Nosql的日常维护,备份,性能优化; 5.熟悉Linux下的脚本编写,有python/bash shell/perl/sca…
<开源安全运维平台OSSIM最佳实践> 经多年潜心研究开源技术,历时三年创作的<开源安全运维平台OSSIM最佳实践>一书即将出版.该书用80多万字记录了,作者10多年的IT行业技术积累,重点展示了开源安全管理平台OSSIM在大型企业网运维管理中的实践.国内目前也有各式各样的开源安全运维系统,经过笔者对比分析得出这些工具无论在功能上.性能上还是在安全和稳定性易用性上都无法跟OSSIM系统想媲美,而且很多国内的开源安全运维项目在发布1-2年后就逐步淡出了舞台,而OSSIM持续发展了十多…
对于运维工程师来讲,etc环境是一个痛点,各种配置,各种修改,某些软件的配置关联因素过多的话,那就更加痛苦了,改完发现不对再想改回去都千难万难, 现在有一个好的解决方案,那就是用etckeeper,绝对是解救运维工程师的利器之一! etckeeper本质上就是 git 管理 etc 版本环境的思维, 由于etc中有的文件信息较为敏感,因此,etckeeper还附带了一些工具来保证安装性. ubuntu下的安装和使用: 1. 安装: sudo apt-get install etckeeper 2…
作为一个运维工程师,经常可能会面对几十台.几百台甚至上千台服务器,除了批量操作外,环境同步.数据同步也是必不可少的技能.说到“同步”,不得不提的利器就是rsync. 下面结合本人近几年运维工作中对这一工具使用的经验,简单在此梳理下: rsync不但可以在本机进行文件同步,也可以作为远程同步工具.rsync+inotify实时同步方案部署,请参考:http://www.cnblogs.com/kevingrace/p/6001252.html rsync同步命令中常用的几个参数说明:-a, --a…
IT运维的五大基础知识 | 浏览:331 | 更新:2014-09-25 11:36 IT运维对于很多企业都很重要,接下来运维的一些基础知识天天客服IT运维总监龙少文,就给大家介绍下IT运维的基础知识: IT运维管理基础知识一.微软系统 关于Windows的熟识是最基本的.当然,作为一个运维经理,可不是整天玩个Windows7或xp就可以交差的.你得掌握微软Active Directory及其顶层各种服务和使用的搭建.普通常用的有ISA.Exchange.SQL Server.随着Windows…
运维人员按区域组织,人员分散,集中培训成本比较高: 新入职运维人员除了培训手册,没有其它渠道可以持续深入了解公司产品: 运维人员的知识存在各自脑袋里,缺少有效的渠道来传播和分享: 运维知识体系需要积累,形成公司资产: 选择Wiki系统 最初公司遇到的问题是运维人员经常向研发人员或者上级领导咨询重复回答无数次的问题.我在接手这个需求时,首先想到的是百科系统,类似百度知道.设想是运维人员遇到问题,将问题描述写出来,由其它能解决问题的人(研发或者经验丰富的运维人员)来回答.在这个阶段,我查找了多个百科…
但凡服务器上了一定规模(百台以上),普通的ssh登录管理的模式就越来越举步维艰.试想Linux发布了一个高危漏洞的补丁,你要把手下成百上千台机器都更新该补丁,如果没有一种自动化方式,那么至少要耗上大半天时间.虽然你编写了大量的shell(或python,perl)脚本来实现各种自动化场景,但最后会发现你又陷入了脚本的汪洋大海之中,管理和维护这么多的脚本的成本也不小.你需要一款基础设施自动化工具,希望它能具有以下功能. 1批量执行 这个不多说了吧,试想要为每一台机器打补丁的情形吧. 2任务编排 现…
一.有文件file1 1.查询file1 里面空行的所在行号 grep -n "^#" file1 or awk ‗{if($0~/^$/)print NR}‘ file or grep -n ^$ file |awk ‗BEGIN{FS=|:|}{print $1}‘ 2.查询file1 以abc 结尾的行 grep abc$ file1 3.打印出file1 文件第1 到第3 行 sed -n ‘1,3p‘ file1 head -3 file1 二.如何将本地80 端口的请求转发…
自动化部署及配置(Cobbler/Kickstart) 红帽发布的网络安装服务器套件 Cobbler可以说是一大Linux装机利器,可以快速的建立网络安装环境,据说比Kickstart还要好用. 分布式集中化管理(Puppet/Salt/Ansible) Ansible是新出现的运维工具是基于Python研发的糅合了众多老牌运维工具的优点实现了批量操作系统配置.批量程序的部署.批量运行命令等功能.(推荐) SaltStack是一个服务器基础架构集中化管理平台,具备配置管理.远程执行.监控等功能,…
Linux运维不可不知的性能监控和调试工具 1 nagios Nagios是一个开源监控解决方案,我觉得他可以监控一切 ,可以看一下我以前的文章:NAGIOS 2 ps #用来查看程序的运行情况 ps -ef |grep svr.py|grep -v grep |awk '{print $2}' #查看svr.py的进程pid号 14554 dongwm@linux-b8lh:~> ps -e -o pid,args --forest #层次结构中的进程ID 3 free #查看系统的物理(RA…
1.Storm全面.系统.深入讲解,采用最新的稳定版本Storm 0.9.0.1 :   2.注重实践,对较抽象难懂的技术点如Grouping策略.并发度及线程安全.批处理事务.DRPC.Storm Trident均结合企业场景开发案例进行讲解,  让学员觉得简单易懂:   3.分享积累的经验和技巧,从架构的角度剖析场景和设计实现方案:   4.讲师Cloudy具有丰富的电商云平台架构经验,对流计算更是涉足早.沉淀深,课程依然沿用重实践.重实战的风格.     学习课程需要具有: Java基础.…
如果你是一位运维工程师,你很可能会面对几十台.几百台甚至上千台服务器,除了批量操作外,环境同步.数据同步也是必不可少的技能. 说到“同步”,不得不提的利器就是rsync,今天就来说说我从这个工具中看到的同步的艺术. [不带任何选项] 我们经常这样使用rsync: $ rsync main.c machineB:/home/userB1 只要目的端的文件内容和源端不一样,就会触发数据同步,rsync会确保两边的文件内容一样.2 但rsync不会同步文件的“modify time”,凡是有数据同步的…
初中级Linux运维人员们系统学习并迅速掌握Linux的运维实战技能.学习路线大纲如下: 入门基础篇 系统运维篇 Web运维篇 数据库运维篇 集群实战篇 运维监控篇 第一篇:Linux入门(安装.配置.shell命令)基础篇   一. 学习Linux的经验与技巧   1.1 Linux在各领域发展的现状和趋势 1.1.1 Linux与开源软件(Linux成就了开源) 1.1.2 Linux在服务器领域的发展(市场占有率95%,2015年数据) 1.1.3 Linux在桌面领域的发展 1.1.4…
漫谈ELK在大数据运维中的应用 圈子里关于大数据.云计算相关文章和讨论是越来越多,愈演愈烈.行业内企业也争前恐后,群雄逐鹿.而在大数据时代的运维挑站问题也就日渐突出,任重而道远了.众所周知,大数据平台组件是很复杂的.而这庞大的系统整合问题,对于运维来说是很头疼的.所以,在大数据时代下的运维问题是日渐尖锐. 有人把运维比作医生给病人看病,那么日志则是病人对自己的陈述.所以只有在海量分布式日志系统中有效的提取关键信息,才能对症下药.如果能把这些日志集中管理,并提供全文检索功能,不仅可以提高诊断的效率…
博客已经完全更新了名字,新的名字,新的开始,想让自走向新的道路是很难的,走出舒适圈说了好久,也是时候开始行动了,今天就从写博客开始. 今天给大家推荐一本书,<凤凰项目:一个IT运维的传奇故事>,恰如编辑推荐说的一样,这是一本少见的IT类小说,美国亚马逊读者评价734条,而且有众多名人推荐.全书讲述了一名IT经理Bill临危受命,在未来董事的帮助和自己The Three Ways理念的支撑下,挽救工期和预算都大大超期的凤凰项目,挽救一家具有悠久历史的汽车配件制造商的故事. 这是一本值得在IT行业…