运维wiki】的更多相关文章

意识 1.责任心 要有 owner 意识.运维是线上产品的首要负责人,出现故障都默认是运维的故障,要推动改进. 2.细心 要有敏感的风险意识,稳定和安全是运维的最高责任 3.上进心 要善于学习,不断反省,每次故障都是最好的学习机会,不求上进,不进则退. 最重要的一点,要对生产环境有敬畏之心 技术栈 Linux 基础命令 Vim Find.grep.sed Nginx Node.npm.pm2 Tomcat zookeeper Redis MongoDB MySQL RabbitMQ superv…
 from:http://blog.csdn.net/hengyunabc/article/details/19006911  zookeeper运维 尽管zookeeper在编程上有很多的阱陷,API也非常的难用,但zookeeper服务本身可以说是很牢靠的了,所以在网上貌似关于运维的文章比较少. 但省心并不代表不会出麻烦,下面总结下zookeeper运维相关的东东. 重要的参考资料 这里有一个很好的Pdf,介绍了很多zookeeper的东东,作者是zookeeper的committer之一:…
本文以ZooKeeper3.4.3版本的官方指南为基础:http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html,补充一些作者运维实践中的要点,围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西.本文并非一个ZK搭建的快速入门,关于这方面,可以查看<ZooKeeper快速搭建>. 1.部署 本章节主要讲述如何部署ZooKeeper,包括以下三部分的内容: 系统环境 集群模式的配置 单机模式的配置 系统环境和集群模式配置这两节内容大…
运维人员按区域组织,人员分散,集中培训成本比较高: 新入职运维人员除了培训手册,没有其它渠道可以持续深入了解公司产品: 运维人员的知识存在各自脑袋里,缺少有效的渠道来传播和分享: 运维知识体系需要积累,形成公司资产: 选择Wiki系统 最初公司遇到的问题是运维人员经常向研发人员或者上级领导咨询重复回答无数次的问题.我在接手这个需求时,首先想到的是百科系统,类似百度知道.设想是运维人员遇到问题,将问题描述写出来,由其它能解决问题的人(研发或者经验丰富的运维人员)来回答.在这个阶段,我查找了多个百科…
运维日志排查记录 前言 记录一些排查常见日志的命令,方法wiki,欢迎补充(Markdown 语法). 常用命令 查找关键词并统计行数 cat 2015_7_25_test_access.log | grep "sqlmap" | wc -l 删除含有匹配字符的行 sed -i '/Indy Library/d' 2015_7_25_test_access.log 查找所有日志中的关键词 find ./ -name "*.log" |xargs grep "…
http://www.90qj.com/?post=318http://ixdba.blog.51cto.com/2895551/1751377   运维知识体系v0.5-(运维社区-赵班长出品,欢迎转载!) 运维管理体系 测试和开发相关 运维架构层级 内容描述 监控体系 安全体系 备份体系 自动化体系 管理必知必会 ITSM ITIL IT Service CMM Six Sigma PMBok 涉及到运维参与 性能测试(TCPCopy) 单机监控(nmon) 环境规划(开发.测试.预生产.生…
七天学会 SALT STACK 自动化运维 (1) 简单理解 SALTSTACK 安装与配置 基本的使用方法 结束语 引用资源 简单理解 SALT STACK 笔者是初次接触 自动化运维 这一技术领域,也是初次接触SALT STACK这一自动化运维工具, 所以这里的 简单理解 SALTSTACK 之意为 笔者的简单理解,可以看做是作者的学习笔记,文中较多记述笔者在配置安装过程中遇到的问题,可能会有纰漏以及错误的地方,具体的新手指南,最好是参见这里. SALTSTACK是一款自动化运维软件,使用p…
本文介绍几款Linux运维比较实用的工具,希望对Linux管理员有所帮助. 1.查看进程占用带宽情况-Nethogs Nethogs 是一个终端下的网络流量监控工具可以直观的显示每个进程占用的带宽. 下载:http://sourceforge.net/projects/nethogs/files/nethogs/0.8/nethogs-0.8.0.tar.gz/download [root@localhost ~]#yum  -y install libpcap-devel  ncurses-d…
1.Ansible简介 1.1 Ansible介绍 Ansible 是一个简单的自动化运维管理工具,基于Python开发,集合了众多运维工具(puppet.cfengine.chef.func.fabric)的优点,实现了批量系统配置.批量程序部署.批量运行命令等功能.可以用来自动化部署应用.配置.编排 task(持续 交付.无宕机更新等),采用 paramiko 协议库(fabric 也使用这个),通过 SSH 或者 ZeroMQ 等连 接主机. Ansible是基于模块工作的,本身没有批量部…
面试必考 mysql5和mysql6 有什么区别 mysql-server-5.5:默认引擎改为Innodb,提高了性能和扩展性,提高实用性(中继日志自动恢复) mysql-server-5.6:InnoDB性能加强,InnoDB死锁信息可以记录到 error 日志,方便分析,MySQL5.6支持延时复制,可以让slave跟master之间控制一个时间间隔,方便特殊情况下的数据恢复. nginx用于md5加密的模块是什么 nginx_file_md5 lvs调优参数 CONFIG_IP_VS_T…
这个问题挺好的,回答这个问题也是对自身的审查,看看自己还欠缺哪些.(所以我估计得好好思考下,也许下一刻我就会突然惊醒,发现我还是战⑤渣) 首先限定在Linux运维工程师上 回答仅代表我想到,不代表我都会 :( 技能: 1.Linux基础 包括对Linux整体的理解/使用和基本命令: 了解Linux FHS : Filesystem Hierarchy Standard,国人写的这本书不错 Linux系统架构与目录解析 (豆瓣) 入门Linux:鸟哥的Linux私房菜.基础学习篇(第三版) (豆瓣…
python自动化运维之路~DAY5 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.模块的分类 模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才能完成(函数又可以在不同的.py文件中),n个 .py 文件组成的代码集合就称为模块. 如:os 是系统相关的模块:file是文件操作相关的模块 模块分为三种: 1>.自定义模块:…
导语 都忘记是什么时候知道python的了,我是搞linux运维的,早先只是知道搞运维必须会shell,要做一些运维自动化的工作,比如实现一些定时备份数据啊.批量执行某个操作啊.写写监控脚本什么的. 后来发现工作量大的时候shell开始变慢,实现某个功能使用shell感觉力不从心,听人说python能实现shell能做的一切功能,而且开发效率高,速度快,慢慢的就认识了python,多多少少看点简单的东西. 印象最深的是花几天时间把<python简明手册>看完后,感觉python很简单,特二的认…
==========================================================================================一.基础介绍==========================================================================================1.简介SaltStack是一个服务器基础架构集中化管理平台,具备配置管理.远程执行.监控等功能,一般可以理解为简化版的pupp…
原文地址:http://edustack.org/ 所需知识: Linux Git Python (Django Mako coffeescript sass) (MongoDB Mysql) Ansible-playbook Gem 项目介绍: http://code.edx.orghttp://iblstudios.com/wp-content/uploads/2014/08/IBL-Open-edX-Ebook-2014.pdf 项目页: http://github.com/edxhttp…
尽管zookeeper在编程上有很多的阱陷,API也非常的难用,但zookeeper服务本身可以说是很牢靠的了,所以在网上貌似关于运维的文章比较少. 但省心并不代表不会出麻烦,下面总结下zookeeper运维相关的东东. 重要的参考资料 这里有一个很好的Pdf,介绍了很多zookeeper的东东,作者是zookeeper的committer之一:http://www.infoq.com/presentations/Misconfiguration-ZooKeeper另外,这里有一个总结:http…
==========================================================================================一.基础介绍==========================================================================================1.简介SaltStack是一个服务器基础架构集中化管理平台,具备配置管理.远程执行.监控等功能,一般可以理解为简化版的pupp…
1:saltstack的基本介绍 2:salt的安装 1:服务端1:安装2:配置文件3:运行4:注意事项2:客户端1:安装2:配置文件3:运行4:注意事项 3:salt的使用: 1:基础知识1:targeting2:nodegroup3:grains4:pillar2:状态管理1:state1:state语法2:state的逻辑关系2:highstate3:salt schedule3:实时管理1:cmd.run2:module4:其他1:无master2:peer3:runner4:react…
运维 运维,这里指互联网运维,通常属于技术部门,与研发.测试.系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同. 一个互联网产品的生成一般经历的过程是:产品经理(product manager,非技术部)需求分析.研发部门开发.测试部门测试.运维部门部署发布以及长期的运行维护. 一般来讲国内的互联网运维负责软件测试交付后的发布和管理,其核心目标是将交付的业务软件和硬件基础设施高效合理的整合,转换为可持续提供高质量服务的产品,同时最大限度降低服务运行的…
1.开发经验总结  ——12 Sep 2014 · 8 revisions 在jstorm中, spout中nextTuple和ack/fail运行在不同的线程中, 从而鼓励用户在nextTuple里面执行block的操作, 原生的storm,nextTuple和ack/fail在同一个线程,不允许nextTuple/ack/fail执行任何block的操作,否则就会出现数据超时,但带来的问题是,当没有数据时, 整个spout就不停的在空跑,极大的浪费了cpu, 因此,jstorm更改了stor…
本文以ZooKeeper3.4.3版本的官方指南为基础:http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html,补充一些作者运维实践中的要点,围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西.本文并非一个ZK搭建的快速入门,关于这方面,可以查看<ZooKeeper快速搭建>. 1.部署 本章节主要讲述如何部署ZooKeeper,包括以下三部分的内容: 系统环境 集群模式的配置 单机模式的配置 系统环境和集群模式配置这两节内容大…
lykops lykops是一套web可视化的运维自动化项目,基于python3+django开发的. 已实现功能 1.用户管理 详情 2.主机管理 主要功能:收录主机,为其他模块(例如:执行任务)直接调用提供便利. 详情 3.任务执行 已实现基于ansible执行运维任务. 可视化.简化执行ansible(github地址,该系统称之为原生ansible,和本系统的ansible进行区分)任务,并提供详细的任务执行报告. 详情 关于vault密码 什么是vault密码 vault密码用于加解密…
原文链接 参考文档 参考文档SA们现在都知道运维自动化的重要性,尤其是对于在服务器数量按几百台.几千台增加的公司而言,单单是装系统,如果不通过自动化来完成,根本是不可想象的. 运维自动化安装方面,早期一般使用人工配置pxe+dhcp+tftp配合kickstart,现在开源工具就多了,如cobbler,OpenQRM和Spacewalk.本文重点介绍Cobbler. Cobbler介绍 Cobbler是一个快速网络安装linux的服务,而且在经过调整也可以支持网络安装windows.该工具使用p…
生产力跟不上生产的速度时,就会出现很多问题,如何针对问题进行处理,制定什么样的计划,如何解决就是需要思考的难点? T运维的分类 IT运维,指的是对已经搭建好的网络,软件,硬件进行维护.运维领域也是细分的,有硬件运维和软件运维 硬件运维主要包括对基础设施的运维,比如机房的设备,主机的硬盘,内存这些物理设备的维护 软件运维主要包括系统运维和应用运维,系统运维主要包括对OS,数据库,中间件的监控和维护,这些系统介于设备和应用之间,应用运维主要是对线上业务系统的运维 这里讨论的主要是软件运维的自动化,包…
前言 天天说运维,究竟是干什么的?先看看工作流程呗.一般来说,运维工程师在一家企业里属于个位数的岗位,甚至只有一个.面对生产中NNN台服务器,NN个人员,工作量也是非常大的.所以嘛,图中的我好歹也会配置盔甲的. 这就是我主要干的事情(呵呵) 就算你会很厉害的脚本,面对成百上千,甚至上万的主机,效率问题将会困扰你的.因此,有没有解放的工具呢? Ansible 是什么 Ansible 简单的说是一个配置管理系统(configuration management system).你只需要可以使用 ss…
shell实例手册    https://github.com/liquanzhou/ops_doc   0 说明{       手册制作: 雪松   更新日期: 2018-09-11       欢迎系统运维加入Q群: 198173206 # 加群请回答问题   欢迎运维开发加入Q群: 365534424 # 不定期技术分享       请使用"notepad++"或其它编辑器打开此文档, "alt+0"将函数折叠后方便查阅   请勿删除信息, 转载请说明出处,…
Flume实战案例运维篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Flume概述 1>.什么是Flume Flume是一个分布式.可靠.高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接收方. 官方地址:http://flume.apache.org/. 2>.Flume特性 ()高可靠性 Flume提供了end to end的数据可靠性机制 ()易于扩展 Agent为分布式架构,可水平…
CMDB和自动化运维 IT运维的分类 IT运维,指的是对已经搭建好的网络,软件,硬件进行维护.运维领域也是细分的,有硬件运维和软件运维 硬件运维主要包括对基础设施的运维,比如机房的设备,主机的硬盘,内存这些物理设备的维护 软件运维主要包括系统运维和应用运维,系统运维主要包括对OS,数据库,中间件的监控和维护,这些系统介于设备和应用之间,应用运维主要是对线上业务系统的运维 这里讨论的主要是软件运维的自动化,包括系统运维和应用运维的自动化 传统运维痛点 日常工作繁琐 日常运维工作是比较繁琐的,研发同…
第15章 运维管理 随着各种技术的快速发展,现今的DBA可以比以前的DBA维护多得多的数据库实例.DBA已经越来越像一个资源的管理者,而不是简单的操作步骤执行人.本章将为读者介绍规模化运维之道.首先,我们讲述规模化的相关知识,然后再简要介绍下服务器的采购,最后,笔者将分享一些运维管理规则,希望能起到抛砖引玉的作用. 15.1 规模化运维 对于机器比较少的公司,我们可能不需要太过关注一些规模化运维的原则,这个时候更值得优化的是人员成本.而在拥有了大量机器之后,我们必须考虑如何高效地运维大规模的数据…
关于故障的事后复盘,英文名 Case Study是非常有必要做的,当然是根据故障的级别,不可能做到每个故障都Case Study,除非人员和时间充足: 文档能力也是能力的一种,一般工程师的文档能力比较薄弱或者一般 ,但是一般各种类型的文档其实都有模板,根据模板填充内容也能事半功倍. 故障要有记录, 每个公司应当都有wiki,这些复盘应当记录下来,能学习到很多.Case Study会占用大量的时间, 但是中级以及重大故障还是有必要的. 下面介绍的就是复盘的整体套路: 故障描述 xxx业务状态码报警…