机器pending排查

2024-09-05

XenServer的某台机器一直pending住怎么办

XenServer某台VM在操作后,图标一直显示成黄色,无法完成操作,成假死的状态.可以用下面命令强制终止VM: 1.在你假死的机器获得UUID 2.在XenServer的控制台输入如下命令获得ID list_domains | grep UUID 例如 list_domains | grep be91e94b-9b92-eacc-d80d-bd1fffc692a2 3.运行下面的终止这VM /opt/xensource/debug/destroy_domain -domid 上面获取的ID 例

weedfs getsockopt: connection timed out

启动master weed master -ip 10.191.197.133 -mdir /namenode -ip.bind 10.191.197.133 I0809 16:53:51 7721 file_util.go:20] Folder /namenode Permission: -rwxr-xr-x I0809 16:53:51 7721 master_server.go:59] Volume Size Limit is 30000 MB I0809 16:53:51 7721 ma

DUBBO功能使用说明

DUBBO功能使用说明 1 DUBBO概述 DUBBO是阿里巴巴公司的一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案. 相比于其他服务框架,DUBBO有如下优势: v 透明化的远程方法调用,就像调用本地方法一样调用远程方法,只需简单配置,没有任何API侵入: v 软负载均衡及容错机制,可在内网替代F5等硬件负载均衡器,降低成本,减少单点: v 服务自动注册与发现,注册中心基于接口名查询服务提供者的IP地址,并且能够平滑添加或删除服务提供者. 2

dubbo 配置 loadbalance 不生效？撸一把源码

背景很久之前我给业务方写了一个 dubbo loadbalance 的扩展(为了叙述方便,这个 loadbalance 扩展就叫它 XLB 吧),这两天业务方反馈说 XLB 不生效了我心想,不可能啊,都用了大半年了~ 排查于是我登上不生效的 consumer 机器进行排查,还好我留了一手,当 XLB 加载时,会打印一行日志看了下这个服务,并没有打印日志,说明 XLB 并没有加载成功于是,我就去问对应的开发,有按照我的文档配置 loadbalance 吗?答复:完全按照文档配置这下我就

机器CPU load过高问题排查

load average的概念系统平均负载定义:在特定时间间隔内运行队列中(在CPU上运行或者等待运行多少进程)的平均进程数.如果一个进程满足以下条件则其就会位于运行队列中: 它没有在等待I/O操作的结果它没有主动进入等待状态(也就是没有调用’wait’) 没有被停止(例如:等待终止) 在Linux中,进程分为三种状态,一种是阻塞的进程blocked process,一种是可运行的进程runnable process,另外就是正在运行的进程running process 进程可运行状态时,它

排查Linux机器是否已经被入侵

随着开源产品的越来越盛行,作为一个Linux运维工程师,能够清晰地鉴别异常机器是否已经被入侵了显得至关重要,个人结合自己的工作经历,整理了几种常见的机器被黑情况供参考背景信息:以下情况是在CentOS 6.9的系统中查看的,其它Linux发行版类似 1.入侵者可能会删除机器的日志信息,可以查看日志信息是否还存在或者是否被清空,相关命令示例: [root@hlmcen69n3 ~]# ll -h /var/log/* -rw-------. 1 root root 2.6K Jul 7 18:3

排查Linux机器是否已被入侵

来自--马哥Linux运维 1.入侵者可能会删除机器的日志信息 ,可以查看日志信息是否存在后者被清除 [root@zklf-server02 ~]# ll -h /var/log/ total 3.4M drwxr-xr-x. root root Nov : anaconda drwx------. root root Feb : audit -rw-------. root utmp Feb : btmp -rw-------. root utmp Jan : btmp- drwxr-xr-x

【转载】排查Linux机器是否已经被入侵

背景信息:以下情况是在CentOS 6.9的系统中查看的,其它Linux发行版类似 1.入侵者可能会删除机器的日志信息,可以查看日志信息是否还存在或者是否被清空,相关命令示例: [root@hlmcen69n3 ~]# ll -h /var/log/* -rw-------. 1 root root 2.6K Jul 7 18:31 /var/log/anaconda.ifcfg.log -rw-------. 1 root root 23K Jul 7 18:31 /var/log

如何排查 Linux 机器是否已经被入侵？

原文: https://mp.weixin.qq.com/s/XP0eD40zpwajdv11bsbKkw http://www.cnblogs.com/stonehe/p/7562374.html 随着开源产品的越来越盛行,作为一个Linux运维工程师,能够清晰地鉴别异常机器是否已经被入侵了显得至关重要,个人结合自己的工作经历,整理了几种常见的机器被黑情况供参考. 背景信息:以下情况是在CentOS 6.9的系统中查看的,其它Linux发行版类似. 1.入侵者可能会删除机器的日志信息,可以查看

开发机器上利用vs2013调试远程IIS上的c#程序

当远程IIS上的C#程序出现问题,怎么排错,一般我们通过看日志排查错误的方法,这种方法在程序异常日志都打印出来的情况下是可以解决的,但如果程序日志不详细,或者从日志看不出有用的内容的时候怎么排错? 本文介绍通过vs2013的msvsmon.exe来远程调试IIS上的C#程序,感谢刘慧锋提供的帮助. 环境: IIS:10.10.2.142,机器名:WEBAPIL2 开发机IP:10.10.0.60 ,机器名:LIURENYUAN-DEV 目的:通过10.10.0.60去调试10.10.2.142上

Flink on YARN（下）：常见问题与排查思路

Flink 支持 Standalone 独立部署和 YARN.Kubernetes.Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛.Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上.下两篇.上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路. 客户端常见问题与排查思路 ▼ 应用提交控制台异

004.OpenShift命令及故障排查

一 CLI访问OpenShift资源 1.1 资源操作 OCP将OpenShift集群中的为由主节点管理的对象统称为资源,如:node.service.pod.project.deployment.user. 即使针对的是不同的资源,OpenShift命令行工具也提供了一种统一的.一致的方法来更新.修改.删除和查询这些资源. oc命令行工具提供了在软件开发项目的整个交付生命周期中修改和管理资源的常见操作. 1.2 安装oc工具在OpenShift安装过程中,oc命令行工具安装在所有master

K8S线上集群排查，实测排查Node节点NotReady异常状态

一,文章简述大家好,本篇是个人的第 2 篇文章.是关于在之前项目中,k8s 线上集群中 Node 节点状态变成 NotReady 状态,导致整个 Node 节点中容器停止服务后的问题排查. 文章中所描述的是本人在项目中线上环境实际解决的,那除了如何解决该问题,更重要的是如何去排查这个问题的起因. 关于 Node 节点不可用的 NotReady 状态,当时也是花了挺久的时间去排查的. 二,Pod 状态在分析 NotReady 状态之前,我们首先需要了解在 k8s 中 Pod 的状态都有哪些.并

Kubernetes：故障排查(Trouble Shooting)方法总结

Blog:博客园个人本文部分内容源自网络,侵删. 概述为了跟踪和发现在Kubernetes集群中运行的容器应用出现的问题,我们常用如下排查方法: 查看Kubernetes对象的当前运行时信息,特别是与对象关联的Event事件.这些事件记录了相关主题.发生时间.最近发生时间.发生次数及事件原因等,对排查故障非常有价值.此外,通过查看对象的运行时数据,我们还可以发现参数错误.关联错误.状态异常等明显问题.由于在Kubernetes中多种对象相互关联,因此这一步可能会涉及多个相关对象的排查问题.

k8s pod故障分类与排查

一.Pod故障状态基本有几种Pod状态处于PendingPod状态处于WaitingPod状态处于ContainerCreatingPod状态 ImagePullBackOffPod状态 CrashLoopBackOffPod状态 ErrorPod状态 TerminatingPod状态 Unk

数据库实战案例—————记一次TempDB暴增的问题排查

前言很多时候数据库的TempDB.日志等文件的暴增可能导致磁盘空间被占满,如果日常配置不到位,往往会导致数据库故障,业务被迫中断. 这种文件暴增很难排查,经验不足的一些运维人员可能更是无法排查具体原因,导致问题不能彻底解决. 场景描述客户系统比较稳定,用了5台机器做了AlwaysOn高可用组,完全实现了读写分离.磁盘也做了规划,主库日常操作TempDB需求在20G以下,所以TempDB所在的磁盘只配置了100个G的空间. 本案例是客户突然接到监控报警,显示TempDB磁盘空间不足,可用空间不

Hadoop中的问题排查思路

一.概述: 在实际使用hadoop的过程中,由于涉及到多台服务器.每台机器上可能还有多个服务等.所以当集群环境出现问题时,快速定位到错误出现的地方尤为重要. 在排查错误的过程中,基本上就是通过既有的工具来检测集群的运行时环境.集群日志等来分析导致错误的原因. 二.Java heap: hadoop需要运行在Java运行时环境之上.因此jvm中的内存分配是否处于合理的状态,就是需要检测的一个因素.Java虚拟机中分为多个区域,最值得关注的区域是heap区.heap区的大体划分如下: 创建对象时,会

微信内嵌浏览器sessionid丢失问题，nginx ip_hash将所有请求转发到一台机器

现象微信中打开网页,图形验证码填写后,经常提示错误,即使填写正确也会提示错误,并且是间歇性出现. 系统前期,用户使用主要集中在pc浏览器中,一直没有出现这样的问题.近期有部分用户是在微信中访问的,才出现的这个问题. 抓包由于只有在手机微信中出现这种情况,并且手机连的无线与pc不在一个局域网中,所以,只能在pc上用360wifi创建热点(无线),然后手机连接热点,再用wireshark抓360wifi网卡,查看数据. 一个页面中的,多次请求,带着sessionid发送的,但是回来分别返回不同的se

SQLSERVER排查CPU占用高的情况

SQLSERVER排查CPU占用高的情况今天中午,有朋友叫我帮他看一下数据库,操作系统是Windows2008R2 ,数据库是SQL2008R2 64位 64G内存,16核CPU 硬件配置还是比较高的,他说服务器运行的是金蝶K3软件,数据库实例里有多个数据库他说是这几天才出现的,而且在每天的某一个时间段才会出现CPU占用高的情况内存占用也很高,占用了30个G -----------------------------------------------华丽的分割线-------------

一则线上MySql连接异常的排查过程

Mysql作为一个常用数据库,在互联网系统应用很多.有些故障是其自身的bug,有些则不是,这里以前段时间遇到的问题举例. 问题当时遇到的症状是这样的,我们的应用在线上测试环境,JMeter测试过程中,发现每次压力测试开始时访问低前几个http request请求会超时,而之后的请求持续测试中都不会.最后一点是Tomcat的log并没有报什么错误. 压测的内容就是起200线程不停的向这个http页面发送请求,这个页面逻辑也比较简单,会在后端向数据库插入一条数据,连接池采用阿里的Druid(这个坑

机器pending排查

热门专题