ceph日常运维管理】的更多相关文章

点击关注上方"开源Linux", 后台回复"读书",有我为您特别筛选书籍资料~ 相关阅读: ceph分布式存储简介 常见问题 nearfull osd(s) or pool(s) nearfull 此时说明部分osd的存储已经超过阈值,mon会监控ceph集群中OSD空间使用情况.如果要消除WARN,可以修改这两个参数,提高阈值,但是通过实践发现并不能解决问题,可以通过观察osd的数据分布情况来分析原因. 配置文件设置阈值 "mon_osd_full_ra…
清理数据目录 dataDir目录指定了ZK的数据目录,用于存储ZK的快照文件(snapshot).另外,默认情况下,ZK的事务日志也会存储在这个目录中.在完成若干次事务日志之后(在ZK中,凡是对数据有更新的操作,比如创建节点,删除节点或是对节点数据内容进行更新等,都会记录事务日志),ZK会触发一次快照(snapshot),将当前server上所有节点的状态以快照文件的形式dump到磁盘上去,即snapshot文件.这里的若干次事务日志是可以配置的,默认是100000,具体参看下文中关于配置参数"…
1.查看系统负载命令 w命令:主要查看cpu负载 load average:一分钟内负载 五分钟内负载 十五分钟内负载 负载跟cpu核心数有关,查看cpu核心数: # cat /proc/cpuinfo | grep 'processor' | wc -l uptime也可以显示cpu负载 2.vmstat命令 # vmstat 1 5 1代表每一秒显示一次,5代表显示五次 r列:表示一秒内运行的进程 b列:被阻塞的进程 swpd列:有多少数据被交换,单位是kb free列:剩余内存 buff列…
日常运维 升级 问题处理方法 日常运维 进程管理 由于配置文件的更改,需要重启生效, 或者是进程自己因某种致命原因终止, 或者发现进程工作出现异常等情况下,需要进行手动进程的关闭或启动, 或者是增删节点过程中的需要, 进程的关闭与启动,使用 hadoop-daemon.sh start|stop datanode/namenode/journalnode/zkfc yarn-daemon.sh start|stop nodemanager/resourcemanager 检查进程是否完成关闭:…
本文以ZooKeeper3.4.3版本的官方指南为基础:http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html,补充一些作者运维实践中的要点,围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西.本文并非一个ZK搭建的快速入门,关于这方面,可以查看<ZooKeeper快速搭建>. 1.部署 本章节主要讲述如何部署ZooKeeper,包括以下三部分的内容: 系统环境 集群模式的配置 单机模式的配置 系统环境和集群模式配置这两节内容大…
之前介绍了Docker管理工具-Swarm部署记录,这里简单总结下Docker Swarm的日常维护命令,以作为平时运维笔记. Swarm作为一个管理Docker集群的工具,首先需要将其部署起来,可以单独将Swarm部署于一个节点.另外,自然需要一个Docker集群,集群上每一个节点均安装有Docker.具体的Swarm架构图可以参照下图: Swarm架构中最主要的处理部分自然是Swarm节点,Swarm管理的对象自然是Docker Cluster,Docker Cluster由多个Docker…
日常维护的命令 1,major_compact 'testtable',通常生产环境会关闭自动major_compact(配置文件中hbase.hregion.majorcompaction设 为0),选择一个晚上用户少的时间窗口手工major_compact,如果hbase更新不是太频繁,可以一个星期对所有表做一次 major_compact,这个可以在做完一次major_compact后,观看所有的storefile数量,如果storefile数量增加到 major_compact后的sto…
Ceph日常运维管理 集群监控管理 集群整体运行状态 [root@cephnode01 ~]# ceph -s cluster: id: 8230a918-a0de-4784-9ab8-cd2a2b8671d0 health: HEALTH_WARN application not enabled on 1 pool(s) services: mon: 3 daemons, quorum cephnode01,cephnode02,cephnode03 (age 27h) mgr: cephno…
Linux的使用环境也日趋成熟,各种开源产品络绎不绝,大有百花齐放的盛景,那么当Linux落地企业,回归工作时,我们还要面对这Linux运维方面的诸多问题,今天我们特意组织一场有关Linux 在企业运用当中交流分享活动.本次活动内容丰富,在此我们进行一下系统的梳理. 一 Linux选择 选择一个适合自身企业的Linux版本系列和主流版本还是相对不容易的,下面我们来介绍一下在选择时各企业所参考的依据: RedHat和CentOS 选择红帽子系列产品,以centos为主,主要考虑有几个方面: cen…
企业该如何进行高效IT运维管理 在企业内部也是一样,当大量的生产和经营数据集中在数据中心,一旦人们与数据中心因为IT故障而失去联系,停滞的也许不是个人应用受阻这样简单的后果.我们谁也不想看到自己企业的数据中心停滞不前,那么当中的IT运维管理就变得十分重要了,笔者就和大家来聊聊云计算架构当中,企业该如何进行高效的IT运维管理. IT运维管理需要改变 相比传统的IT运维管理模式来说,云计算大环境下,企业在IT设备采购和方案部署等诸多环节都需要进行改进和提升,在未来的大型云计算数据中心面前IT运维人员…
hadoop集群日常运维命令 #1.namenode hadoop namenode -format #格式化,慎用 su hdfs hadoop-daemon.sh start namenode hadoop-daemon.sh stop namenode #2.journalnode hadoop-daemon.sh start journalnode hadoop-daemon.sh stop journalnode #3.zkfc hdfs zkfc -formatZK #格式化,慎用…
之前在公司机房部署了一套jenkins环境,现需要迁移至IDC机房服务器上,迁移过程中记录了一些细节:1)jenkins默认的主目录放在当前用户家目录路径下的.jenkins目录中.如jenkins使用root用户启动,则主目录为/root/.jenkins [root@code-server ~]# ll -d /root/.jenkins/ drwxr-x--- 14 root root 4096 Dec 18 15:22 /root/.jenkins/ 2)可以在系统环境变量里手动设置je…
系统批量运维管理器Fabric详解 Fabrici 是基于python现实的SSH命令行工具,简化了SSH的应用程序部署及系统管理任务,它提供了系统基础的操作组件,可以实现本地或远程shell命令,包括执行,文件上传,下载及完整执行的日志输出等功能,Fabrici 比 paramiko 的基础上做了更高层的封装,操作起来更加简单. Fabric安装 Fabric支持pip,easy_install 或源码安装方式. pip install fabric easy_install fabric F…
WINDOWS系统日常运维 http://www.docin.com/p-677263438.html…
在MySQL数据库日常运维中,对业务子账号的权限的统一控制十分必要. 业务上基本分为读账号和写账号两种账号,所以可以整理为固定的存储过程,让数据库自动生成对应的库的账号,随机密码.以及统一的读权限,写权限.(这里没有对 host进行过多的限制.只赋给通用的192.168.% .有兴趣的同学可以在存储过程加个参数,对host 控制) delimiter // set session sql_log_bin=OFF; drop PROCEDURE IF EXISTS `usercrt` // CRE…
日常运维 DBA运维工作 日常 导数据,数据修改,表结构变更 加权限,问题处理 其它 数据库选型部署,设计,监控,备份,优化等 日常运维工作: 导数据及注意事项 数据修改及注意事项 表结构变更及注意事项 加权限及注意事项 问题处理,如数据库响应慢 导数据及注意事项 数据最终形式(csv,sql文本,还是直接导入某库中) 导数据方法(mysqldump,select into outfile,) 注意事项 导出为csv格式需要file权限,并且只能数据库本地导 避免锁库锁表(mysqldump使用…
不吹不黑的为菊厂的应用运维管理AOM点个赞.Why? 某菊厂应用运维管理工具AOM每天处理着亿级条数据,这么多数据是怎么存储的呢? 说到数据存储就会想到关系型数据库,比如mysql,oracle,sybase.关系型数据库有自己的优势,数据强一致性,支持事务,通用,技术成熟.但是对于大批量数据的存储和查询就稍显吃力,毕竟AOM每秒的写入数据至少都是上万条,甚至是十几万条,随着系统规模增长,数据库的扩容也成为新的瓶颈. AOM的数据存储系统使用的是非关系型数据库-----cassandra,相比关…
1.查询表或存储过程.函数异常 select * from user_errors where name ='TEST_TABLE' 2.查询表是否存在 select * from user_tables where table_name='TEST_TABLE' 3.查询表结构 select table_name,column_name,data_type,nullable from user_tab_cols where table_name ='TEST_TABLE' --表名注意大写 4…
长久以来,IT 运维在企业内部一直是个耗人耗力的事情.随着虚拟化的大量应用.私有云.容器的不断普及,数据中心内部的压力愈发增加.传统的自动化工具,往往是面向于数据中心特定的一类对象,例如操作系统.虚拟化.网络设备的自动化运维工具往往是不同的.那么,有没有一种数据中心级别的统一的自动化运维工具呢? 答案就是Ansible.和传统的自动化工具 (如 Puppet)相比,Ansible 尤其明显的优势: 简单,是一种高级的脚本类语言,而非标准语言. 不需要安装 agent, 分为管理节点和远程被管节点…
第15章 运维管理 随着各种技术的快速发展,现今的DBA可以比以前的DBA维护多得多的数据库实例.DBA已经越来越像一个资源的管理者,而不是简单的操作步骤执行人.本章将为读者介绍规模化运维之道.首先,我们讲述规模化的相关知识,然后再简要介绍下服务器的采购,最后,笔者将分享一些运维管理规则,希望能起到抛砖引玉的作用. 15.1 规模化运维 对于机器比较少的公司,我们可能不需要太过关注一些规模化运维的原则,这个时候更值得优化的是人员成本.而在拥有了大量机器之后,我们必须考虑如何高效地运维大规模的数据…
我们开发的页游General War(http://gw.gamebox.com)上线运营也有半年多了,服务器的开发到运维基本都由我一手包办,在服务器上线之后我们又招了一个程序员接手后续功能的开发,而我则主要转到后台工具开发和服务器运维上.说到服务器的运维,我的全部经验就是维护过几台小型企业的域控,在linux上部署过几个web服务,以前做游戏的时候运维都是交给运营方去打点,而这次我是主动承担了这部分的工作. 由于我们的游戏服务器框架(EasyGame)是基于.net技术开发的,所以选择wind…
子曰"干的最好就是个60分,稍有纰漏就是不及格" 谈一个事情,最先要谈的就是统一标准,又或者这个标准已经约定俗成,广泛认可,所以就可以略过.对于IT服务质量来说,确实有一个统一的标准,那就是上面的那个子曰:"干的最好就是个60分,稍有纰漏就是不及格".可悲的是虽然无论基层技术人员.中层管理人员.高层管理人员,甚至是旁观者来说,都不觉得这个标准是非常合理的,但是在实践当中,大家又都不自觉的执行着这个标准.真是有够虐心的. 有一些高速发展的中小型互联网企业,为了保证技术…
IT服务(运维)管理(不是IT运维技术)是IT行业当中相对比较"窄"的一个分支,通常只被金融.电信等大型数据中心的中高层管理人员所关注.但是根据笔者多年从事IT服务和服务管理的经验来看,IT服务并不是一件容易做的事情,特别是在功能复杂的.安全性要求高的和需要支持大量时间敏感性用户的业务要求下,更是如此.虽然很多企业对外标榜具有优秀的IT服务管理能力,但是真正深入到内部,你往往会发现一个焦虑的.机械化的.高压力的.没有成就感的,有时甚至是无所事从的运维技术团队.问题在哪里?如何评价企业的…
下面是测试验证环节 1. 创建一个 pool rbd create foo --size 4 --image-format 2 --image-feature layering 2. 挂载和格式化 rbd map foo sudo mkfs.ext4 -m0 /dev/rbd0 mkdir ~/foo mount /dev/rbd0 ~/foo   不错的文档:https://cloud.tencent.com/developer/article/1159507 “网红架构师”解决你的Ceph…
前面,跟大家简单地介绍了负载均衡和Nginx的一些基础配置(Nginx负载均衡配置实例),接下来,跟大家介绍一下Nginx的常用命令,便于日常的运维. 查看原文 停止Nginx的方法 通过之前的学习,大家知道了如何配置并启动Nginx,但如果想停止Nginx服务,该如何操作呢?下面介绍停止Nginx的四种方法. 普通停止 使用这种方法,会在进程完成当前工作后再停止 nginx -s quit 立即停止 这种方法比较暴力,不管进程是否在工作,直接停止进程 nginx -s stop systemc…
# 运维管理--- ### 1 集群搭建 #### 1.1 单Master模式 这种方式风险较大,一旦Broker重启或者宕机时,会导致整个服务不可用.不建议线上环境使用,可以用于本地测试. ##### 1)启动 NameServer ```bash### 首先启动Name Server$ nohup sh mqnamesrv & ### 验证Name Server 是否启动成功$ tail -f ~/logs/rocketmqlogs/namesrv.logThe Name Server bo…
Git&Gitlab开发流程与运维管理 作者 刘畅 时间 2020-10-31 实验系统版本centos7.5 主机名称 ip地址 配置 安装软件 controlnode 172.16.1.120 4核/8G/60G docker.git.gitlab slavenode1 172.16.1.121 2核/2G/60G docker.git.Runner 注:本文档docker的部署就不赘述了,可以参考docker部署文档. 目录 1 Git分布式版本控制系统 1 1.1 git简介 1 1.2…
1.自动化运维--cloudera manager 2.手动运维 a.启动./start.all.sh,停止./stop-all.sh b.hdfs启动/停止:./start-dfs.sh   ./stop-dfs.sh c.启动单个:./hadoop-daemon.sh start/stop namenode ./hadoop-daemon.sh start/stop datanode/secondarynamenode/nodemanager d.增加DataNode 1)修改slaves文…
对于Linux系统安全来说,日志文件是极其重要的工具.不知为何,我发现很多运维同学的服务器上都运行着一些诸如每天切分Nginx日志之类的CRON脚本,大家似乎遗忘了Logrotate,争相发明自己的轮子,这真是让人沮丧啊!就好比明明身边躺着现成的性感美女,大家却忙着自娱自乐,罪过!logrotate程序是一个日志文件管理工具.用于分割日志文件,删除旧的日志文件,并创建新的日志文件,起到“转储”作用.可以节省磁盘空间.下面就对logrotate日志轮转操作做一梳理记录: 1.  配置文件介绍Lin…
子曰"没有合适的人" 在流程化的管理模式下,最容易步入的一个误区是按流程设计一个"理想的"组织架构,然后对应于这个架构对人员进行评估.培养,甚至是更换.我见过很多试图采用这种方式,希望能把IT服务质量一步提高到位的客户.实践证明,凡是这么做的企业,往往要面临一个时间非常长(有的时候是几年)的动荡时期,而且往往最终结果并不尽如人意.原因很简单,适应一个企业的人,首先是适应这个企业的文化.有什么样的企业文化就有什么样的人,反之通过观察企业的一部分员工(样本数量足够大)就…