服务器(nginx/apache): 1.吞吐率. 2.并发连接数. 3.qps. 4.并发连接数详细数据统计,包括读取请求.持久连接.发送响应内容.关闭连接.等待连接. 5.连接线程池利用率. 关系型数据库(mysql): 1.连接吞吐率. 2.查询缓存命中率. 3.慢查询数量. 4.索引缓存命中率. 5.数据库锁表情况,以及锁等待统计. key-value存储系统(redis) 1.缓存命中率. 2.大key的数量. 3.链接客户数. 4.阻塞客户端数量,当并发请求数过高时触发阻塞.此指标反…
1.原因:本来在家正常休息了,我们放在上海托管机房的线上服务器突然蹦了远程不了,服务启动不了,然后让上海机房重启了一次,还是直接挂了,一直到我远程上才行. 2.现象:远程服务器发现出现这类信息 Hi, please view: http://pastie.org/pastes/10800563/text?key=hzzm4hk4ihwx1jfxzfizzq for further information in regards to your files!Hi, please view: http…
线上服务器CPU100%排查,Linux进程消耗查看 1.排查步骤 1.1Linux下排查 1.1.1查消耗cpu最高的进程PID 1.1.2根据PID查出消耗cpu最高的线程号 1.1.3根据线程号查出对应的java线程,进行处理 2.linux 进程消耗查看 相关博文: 博客园: chen_hao:告诉你如何回答"线上CPU100%排查"面试问题 博客园: liuge36:linux 进程消耗查看 生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,如何定位出问…
从一个线上服务器警告谈谈backlog https://wangxiangnan.cc/?p=105 缘起 双十一如期而至,此时的我因为在处理客户的一个问题已经陷入了忙碌.突然,不断接到驻场实施发来的反馈,都是相同的反馈--"客户端操作缓慢". 我现在负责的服务器是一台接口服务器,所有的卖家都要通过这台服务器连接到自己的数据库上,不得小觑.于是我立马放下手头的话,打开了我事先安装好的服务器监控软件(netdata),便看到了下面的警告: 其实,作为一个服务器端新手,我并不知道什么意思.…
说明 前阵子上线,一次性上了十个服务,一直上到凌晨才完事,期间每个服务都要先输入跳板机的登录信息来登录跳板机,然后再输入线上服务器的信息来登录线上服务器,实在是太过于麻烦,而且有些服务还有好几台服务器,检查问题的时候,服务器跳来跳去的,简直苦不堪言. 于是,便萌发了用shell脚本的方式来一键跳转的想法,先上github上搜了搜现成的轮子,发现都不太好用,要不就是没说明,要不就是只能登一台服务器,不能满足从跳板机A跳转到线上服务器B的需求. 所以,还是自己动手,丰衣足食. Shell脚本 She…
分享下使用 svn,测试服务器代码自动更新.线上服务器代码手动更新的配置经验 利用SVN的POST-COMMIT钩子自动部署代码 Linux SVN 命令详解 Linux SVN 命令详解2 使用svn hooks 脚本post-commit时遇到的故障…
1.问题描述: 线上服务器上安装的不能正常工作 2.解决问题过程: 一. 重启vncserver 运行命令:vncserver -kill :1和vncserver :1 二. 发现vncserver不能启动 三. 使用yum命令安装字符集,结果发现连yum命令也不能使用了 四. 分析考虑是不是系统临时空间满了,导致的这个问题.运行 df -h命令,发现空间都很充裕,没有占满. 五. 了解到了硬盘中还有存储文件元信息的区域叫做inode ,如果这个区域占满的话,也有可能导致这个问题.使用命令:…
更改默认端口 sudo vi /etc/mongod.conf 进入conf文件,修改port值为19999保存并退出. 重启mongodb sudo service mongod restart 进入mongo shell mongo --port 19999 本地数据库导入线上服务器的mongodb中 1 备份本地数据库 git 切换到mongodb/data,输入: ../bin/mongodump -h 127.0.0.1:27017 -d vueBlog -o ../data/vueB…
原文内容来自于LZ(楼主)的印象笔记,如出现排版异常或图片丢失等问题,可查看当前链接:https://app.yinxiang.com/shard/s17/nl/19391737/2fee7b91-fc6e-4e96-838a-b6926b422368 线上服务器CPU彪高的调试方式 1. 使用TOP获取对应的CPU彪高的进程ID 2. top -p 8948 -H 查看8948进程所对应的所有线程,查看引起CPU彪高的线程PID,此处为9037 3. jstack 8948 >/home/xi…
场景描述: 我们采用git去管理代码分支,本地开发环境,线上服务器多数情况下也会使用git去管理程序代码,那么新的一台服务器,如果指定了目标路径作为代码存放路径,该如何配置git环境, 以达到跟远程服务器通信的目的.本文以ubuntu系统为例. 操作步骤: 1. 安装git Ubuntu系统为例 apt-get install git 2. 切换到系统存放代码的路径. (这里需要进入你实际服务器计划用来存放代码的目录下) 初始化git本地环境 git init 3. 配置git服务器远程分支 (…
目录 1 案例描述? 2 命令一(目录统计排序最佳命令) 3 命令二(最实用,目录和文件一起统计排序) (1)命令详情和说明 (2)du.head.sort.awk 详细说明参考已有文章附录 (3)Linux 中 printf 命令使用参考 4 如何安全使用 rm 命令删除文件? (1)rm 命令有哪些坑? (2)如何安全使用 rm 命令? 5 磁盘使用率报警,却查不到具体的大文件? (1)问题情景 (2)排查思路 (3)占用磁盘空间释放 (4)备注附录 6 生产环境常用的安全清理大文件命令 7…
缘起 双十一如期而至,此时的我因为在处理客户的一个问题已经陷入了忙碌.突然,不断接到驻场实施发来的反馈,都是相同的反馈--"客户端操作缓慢". 我现在负责的服务器是一台接口服务器,所有的卖家都要通过这台服务器连接到自己的数据库上,不得小觑.于是我立马放下手头的话,打开了我事先安装好的服务器监控软件(netdata),便看到了下面的警告: 其实,作为一个服务器端新手,我并不知道什么意思.但是客户反馈慢啊!屁股一想也知道是因为服务器资源不够了嘛!于是,我立马把一小部分客户的配置切换到了另外…
记flume部署过程中遇到的问题以及解决方法(持续更新) - CSDN博客 https://blog.csdn.net/lijinqi1987/article/details/77449889 现将调试过程中遇到的问题以及解决方法记录如下: 1. [ERROR - org.apache.thrift.server.AbstractNonblockingServer$FrameBuffer.invoke(AbstractNonblockingServer.java:484)] Unexpected…
当前时间 2019-10-24-10:53:12 制作本地yum源 我用的VMware Workstation 系统环境: CentOS 7.5 首先我们先要挂载系统镜像 [root@laopa ~]#mount /dev/sr0 /media/ceshi 执行这条命令之前,先要确保你的/media/下 有ceshi 这个目录 (创建目录我就不多说了mkdir) [root@laopa ~]#df ---查看有无挂载条目 [root@laopa ~]#rm -rf /etc/yum.repos.…
整个九月份由于业务繁重以及玩心颇重,一直没有机会来写一篇博文.而且笔者于十月一日将会举办人生大事--婚礼,现在家里筹办过程中只能抽出零碎的时间来写这篇文章. 关于服务端截图,这种使用场景非常少见,大多服务器不同于PC机器并不提供相关图形界面以及图形库,所以对不同的系统的不同版本的服务器需要安装不同的共享库.同时,截图依赖的浏览器服务也存在很多兼容性问题,好在google提供了puppeteer模块依赖于webkit内核,这与大多数业务场景的渲染引擎一致,因此我们可大致忽略引擎渲染的差异(大多数差…
某服务器上部署了若干tomcat实例,即若干垂直切分的Java站点服务,以及若干Java微服务,突然收到运维的CPU异常告警. 问:如何定位是哪个服务进程导致CPU过载,哪个线程导致CPU过载,哪段代码导致CPU过载? 步骤一.找到最耗CPU的进程PID 工具:top 方法: · 执行top -c ,显示进程运行信息列表 · 键入P (大写p),进程按照CPU使用率排序 步骤二:找到该进程内最耗CPU的线程PID 工具:top 方法: · top -Hp 10765 ,显示一个进程的线程运行信息…
最近在用node写后端数据处理,以前虽然也用node写数据来进行测试,但是一直都是处于本地使用, 今天想将node作为后端服务来处理数据, 特此,以此博客记录. 第一步,写node 接口, 在本地我们一般会安装一些依赖. 1. 安装 Express   : npm install express --save 2. body-parser - node.js 中间件 : npm install body-parser --save 3. cookie-parser  : npm install…
一.特殊字符需要转义 只需要加个\反斜杠就可以了 二.zk的connectString 在rabbit web页面上登录上去,新增queue就可以了…
1.将原来的PHP重命名一下 cd /usr/local/bin/ mv php php.2.9 2.安装依赖 yum install gcc gcc-c++ libxml2 libxml2-devel autoconf libjpeg libjpeg-devel libpng libpng-devel freetype freetype-devel zlib zlib-devel glibc glibc-devel glib2 glib2-devel 报错,centos版本太老了,5.5,yu…
http://blog.csdn.net/wangzuxi/article/details/44766221…
如果是线上服务器,假设它是 2TB 的 SATA 硬盘.8GB 内存,建议按如下方式进行分区: / 20480M(20G)(主分区) /boot 128M swap 10240M /data 2016152M(即剩余的所有磁盘空间) 如果是 个人电脑 学习用,假设虚拟机的硬盘定为 50GB,分区参考如下: / 8192M(8G)(主分区) /boot 128M swap 1024M(1G) /data 41856M(即剩余的所有硬盘空间) 延伸阅读: Linux重装时保留分区…
本文大量参考阮一峰大神博客,整理笔记 之所以写inode文章是由于一次线上问题,引发对inode深入的思考. 磁盘的inode监控与磁盘空间的监控同等重要,线上服务器一定要做好磁盘inode与磁盘空间的监控. 由于本人对linux研究有限,目前参考大量阮一峰大神博客整理而成. 解决inode爆满问题 一般inode爆满情况就较为严重了,程序运维会有问题,会报磁盘无空间 No space left on device.所以做好监控非常重要. 线上服务器inode爆满但是磁盘空间还有很大是什么原因呢…
Linux线上排查程序员实用指南 一.乱码问题 二.帮助指令 1. help命令 2. man命令 3. info命令 三.性能监测与优化 1. top命令 参考资源 Linux线上排查程序员实用指南 一.乱码问题 1.Linux系统编码 有时候你会发现linux系统打印出来的文字是乱码,一般是要么是你连接Linux的终端编码有问题,或者是linux系统编码设置不对 (1)执行locale命令查看系统语言 [root@localhost /]# locale LANG=zh_CN.GBK LC_…
前言 作为后端开发工程师,当收到线上服务器CPU负载过高告警时,你会这么做?重启服务,忽略告警?不过在我看来一个合格的工程师是一定要定位到具体问题所在的,从而 fix 它.下面记录一下线上服务器 CPU 负载过高排查过程,把排查流程理清楚,以后遇到问题将会迅速定位到问题所在,快速解决. 什么样的场景会导致线上CPU负载过高? 代码层面常见的场景有: 程序陷入死循环,不停地消耗CPU 线程死锁,线程相互等待,导致假死状态,不停地消耗CPU 程序死循环场景 这里使用 JAVA 简单模拟程序死循环带来…
目录 一.Linux 内存和cpu 网络 磁盘 /proc文件系统 二.JVM Java堆和垃圾收集器 gc日志分析 JVMTI介绍 Attach机制 java自带工具 三.三方工具 jprofile arthas (类似btrace的工具) gceasy 四.实际案例 连接泄漏 String拼接导致内存溢出 堆内存占用过大 CPU占用高问题 aerospike线程阻塞导致内存溢出问题 问题 整体思路:全局观,先从系统层面入手,大致定位方向(内存,cpu,磁盘,网络),然后再去分析具体的进程.…
- 假设我们要上线一个两年内不会宕机的先进架构.在上线前,免不了单元测试,功能测试,还有使用ab,webbench等等进行压力测试. 但这些步骤非生产环境下正式用户的行为.或许你会想到灰度上线,但毕竟可能会影响到部分用户,这怎么对得起我们两年内不宕机的承诺呢? 好在网易的 王斌 开发了tcpcopy, 可以导入线上流量进行功能和压力测试. tcpcopy介绍 tcpcopy是一种请求复制工具.可以将线上流量拷贝到测试机器,实时的模拟线上环境.在不影响线上用户的情况下,使用线上流量进行测试,以尽早…
线上centos6出现软死锁 kernel:BUG: soft lockup 今天线上一台centos6机器用xshell一直连接不上,然后在xshell上显示 Message from syslogd@GZxxx at Mar 29 14:13:14 ...kernel:BUG: soft lockup - CPU#1 stuck for 68s! [events/1:36] 过了10分钟,终于可以连上了,看一下开机日志 dmesg |grep stuckBUG: soft lockup -…
服务器上部署了Java服务,出现了OutOfMemoryError,问题应该如何定位? 解决思路 Java服务OOM,最常见的原因为: 有可能是内存分配确实过小,而正常业务使用了大量内存 某一个对象被频繁申请,却没有释放,内存不断泄漏,导致内存耗尽 某一个资源被频繁申请,系统资源耗尽,例如:不断创建线程,不断发起网络连接 更具体的,可以使用以下的一些工具逐一排查. 一.查发生了OOM的进程 工具:top 方法: 执行top -d 1 -c,每秒刷新一次,显示进程运行信息列表 键入M (大写m),…
前言 本文介绍服务器内运行的 Java 应用产生的 OOM 问题 和 CPU 100% 的问题定位 1. 内存 OOM 问题定位 某Java服务(比如进程id pid 为 3320)出现OOM,常见的原因为: 内存分配的确实小了,而正常业务使用了大量的内存 某个对象被频繁申请,却没有释放,内存不断泄露,导致内存耗尽 某个资源被频繁申请,系统资源耗尽.例如不断创建线程,不断发起网络请求. 资源不够(也是"给的资源耗尽"),资源申请过多导致资源耗尽,资源申请过多不释放导致资源耗尽. 以下为…
前言:       由于公司项目需要,最近开始学习一下分布式存储相关知识,确定使用FastDFS这个开源工具.学习之初,自己利用VMware虚拟机搭建了一个5台机器的集群,摸清了安装过程中可能出现的问题和解决方案(http://www.cnblogs.com/PurpleDream/p/4510279.html ).后来在正式环境搭建的时候,自己安装的还是很顺利的,但是因为是线上环境,所以安装的时候就要注意集群设计等方面的问题.       如果您是第一次安装FastDFS5.0.5,建议先仔细…