记一次OutOfMemory定位过程-续】的更多相关文章

在前文<记一次OutOfMemory定位过程>完成时最终也没有定位到ECS 中JVM Heap size无法控制的原因,今天再次尝试终于有了一些线索,翻查了ECS的部署脚本发现了memoryReservation参数,根据Amazon Elastic Container Service任务定义参数的定义,它对应的是docker run的--memory-reservation选项,该参数是一个软控制,实限上内存使用是可以超过该限制的,于是把它修改为memory,同时推送一个新的image并部署…
背景 最近有个项目部署到了AWS,部署方案是ECS+Docker+Java Launch type CPU Units Memory FARGATE 1024 4G 运行后发现程序表现不符合预期--每当任务繁忙时大量的task会被关闭并启动新的task,关闭原因都是OutOfMemory,甚至连2个线程的并发能力都没有. Details --- Status reason | OutOfMemoryError: Container killed due to memory usage Exit…
最近在项目中需要使用到jquery的cookie,按理说在html头中引入jquery-1.7.1.min.js和jquery.cookie.js,然后在js中就可以使用cookie函数了.像这样使用 alert($.cookie('test_cookie')); 单独使用没有问题,但是加入到我们的项目中就会提示“对象不支持此属性或方法”,定位过程如下: 单独提取出来,使用单独的一个html文件来测试,没有问题.说明jquery-1.7.1.min.js和jquery.cookie.js这两个j…
与PHP5.3.5的战斗----记php5.3.5安装过程 摘自:http://blog.csdn.net/lgg201/article/details/6125189这篇文章写的很是不错,,,也是我php的成长过程类似 author: selfimpr mail: lgg860911@yahoo.com.cn blog: http://blog.csdn.net/lgg201 最近想过一遍PHP的手册, 刚开始就遇到了困难, PHP5.3开始对于fpm的SAPI开始支持.user.ini样式的…
首先这个问题,我只是其中参与者之一.但这个问题很有参考意义,特记录下来. 还有我第一次用"彻底"这个词,不知道会不会有人喷?其实,还有一些问题,也不是特别清楚.比如说什么是CPU流水(我又不是硬件工程师). 问题现象 现网数据库切换到新的物理服务器时,出现了业务查询超时异常问题. 详细过程不再熬述了,总之对比新旧硬件环境的不同.初步怀疑是新服务器CPU的问题. 定位过程 现网肯定不能不停重试,于是在本地服务器用sysbench压测. 查看CPU占比,sys占比特别高.vmstat显示c…
[问题] 最近查看MySQL的error log文件时,发现有很多服务器的文件中有大量的如下日志,内容很长(大小在200K左右),从记录的内容看,并没有明显的异常信息. 有一台测试服务器也有类似的问题,为什么会记录这些信息,是谁记录的这些信息,分析的过程比较周折. Status information: Current dir: Running threads: 2452  Stack size: 262144 Current locks: lock: 0x7f783f5233f0: Key c…
[问题] 有同事反应最近有多台MongoDB的服务器CentOS 7.1系统会自动重启,分析了下问题原因. [排查过程] 1. 检查系统日志/var/log/message,并没有记录异常信息,journalctl相关日志只记录发生过重启 2. 系统默认配置了kdump,使用crash工具分析/var/crash下的转储文件vmcore,命令如下: crash /usr/lib/debug/lib/modules/3.10.0-327.36.3.el7.x86_64/vmlinux /tmp/v…
引子 正值周末,娃儿6:30又如闹铃般准时来叫醒了我们.年前离开美菜,又回到了杭州.原本是想有更多时间陪伴娃儿,然而新的工作节奏与工作地点,让我们每天都是早上见面:这不,为了周末可以多玩一会儿,早早就过来唤醒我们.因为前几天我们就约好了周末一起放风筝.有些事儿,我以为只是随口一说,小孩子确真真的记着. 吃过早饭,拉着媳妇儿,领着娃,带上风筝就出门了.其实我是忐忑的,因为我也从来没有把风筝放起来过.来到草坪上,娃就拉着风筝如脱缰之马跑了起来.小孩子的幸福就这么简单,无关乎风筝能飞多高. 迎着暖暖朝…
告警 正在开会,突然钉钉告警声响个不停,同时市场人员反馈客户在投诉系统登不进了,报504错误.查看钉钉上的告警信息,几台业务服务器节点全部报CPU超过告警阈值,达100%. 赶紧从会上下来,SSH登录服务器,使用 top 命令查看,几个Java进程CPU占用达到180%,190%,这几个Java进程对应同一个业务服务的几个Pod(或容器). 定位 使用 docker stats 命令查看本节点容器资源使用情况,对占用CPU很高的容器使用 docker exec -it <容器ID>bash 进…
问题现象现网物理机内存近几日内爆涨使用率超过了90%,可用内存从250G,降低到20G以下,报告警.服务器使用情况来看,并没有什么异常.除了QPS缓慢增长外. MySQL内存分配结构 定位这个问题,先了解一下MySQL的内存分配知识. MySQL的内存分配分为两部分,一部分是启动之初就分配的,主要是buffer_pool_size,key_buffer_size(本例256M)等.还有一部分是每个连接建立并执行查询等操作时分配的.https://dev.mysql.com/doc/refman/…
这几天在写一个存储过程,反复优化了几次,从最开始的7分钟左右,优化到最后的几秒,并且这个过程中我的导师帮我指点了很多问题,这些指点都是非常宝贵的,独乐乐不如众乐乐,一起来分享这次的优化过程吧. 这个存过程的需求是这样的,抓取某个时间段内的订单明细,然后计算并汇总到某表即可. 于是乎,我写出第一版的存储过程,代码如下: /******************************************/ /* 合并当前版本时间段内MO的维修换料需求 */ /* p_begin 起始时间 */…
前面记到了深度网络这一章.当时觉得练习应该挺简单的,用不了多少时间,结果训练时间真够长的...途中debug的时候还手贱的clear了一下,又得从头开始运行.不过最终还是调试成功了,sigh~ 前一篇博文讲了深度网络的一些基本知识,这次讲义中的练习还是针对MNIST手写库,主要步骤是训练两个自编码器,然后进行softmax回归,最后再整体进行一次微调. 训练自编码器以及softmax回归都是利用前面已经写好的代码.微调部分的代码其实就是一次反向传播. 以下就是代码: 主程序部分: stacked…
生产环境中有两台部署PowerCenter的ETL业务机,近期发现无法通过客户端连接到ETL服务. 初步怀疑是PowerCenter挂掉了,或者资料库出现了故障. 登陆设备后发现PowerCenter进程存在,但是资料库(Oracle)却挂掉了. 切换oracle账户进入,手动startup资料库,结果启动时报错:ORA-01157,ORA-01110.看报文说明是无法锁定或识别数据文件. 退出sqlplus,发现数据文件存在,猜测可能是故障造成的数据文件损坏,因为是NOARCHIVELOG(非…
在Android开发其中.常常须要用到定位功能,尤其是依赖于地理位置功能的应用.非常多人喜欢使用百度地图,高德地图提供的sdk.开放API,可是在只须要经纬度,或者城市,街道地址等信息.并不须要提供预览地图.地图界面的应用中.这时,不须要使用百度地图.高德地图.这样做只会添加apk的体积.怎么办呢? 事实上LocationManager,Geocoder这些Android API给我们提供的这些类就能够满足了. 以下笔者就来讲讲怎样利用LocationManager获取经纬度,并利用Geocod…
转自:https://www.jianshu.com/p/6e7d0359e4bb Selenium是浏览器自动化测试的工具之一,用过的人都懂他的好,也被他坑的不要不要的.今天就聊聊Selenium的iFrame定位和切换. 对于一个页面,正常浏览的时候,看到的一个完整正常的页面,但是,看似是整体的页面的背后,其中是可能会包含iFrame.正因为此,在编写自动化测试的时候,定位元素就出问题了. 如何定位iFrame 在页面区域右键,可以看到“This Frame”或者“Reload Frame”…
前言:2019年09月23日临下班,产品的一个变更需求临近尾声阶段.本地测试OK,兴致冲冲的想着发布到测试环境,验证一下没有问题,五分钟结束战斗,明天就开始下个需求了.随在CE(公司的devOps系统)上切换到hotfix/xxx分支,部署上线.部署没有问题,跑了一通单测,呃呃呃呃呃.莫名的一堆错误.怎么可能,再deploy ,再重启,还是这个错误,难道是公司的CE有问题(以前会莫名其妙的出问题),释放掉重新申请服务器部署.忙了一通还是不行.绝望,后悔.公司的什么烂逼环境.本地明明没有问题,怎么…
一.环境配置 操作系统:win10 64位 软件版本:AE16.11版 二.模板下载 可去 newcger 网站进行模板下载,常用都是免费的,很好用,很推荐 三.具体操作 1.模板素材替换 点击[文件--打开项目]打开下载的 .aep 模板文件(快捷键ctrl+o),另存为一份符合目前AE版本的项目文件 新建一个素材的文件夹,选中该素材文件夹后,使用快捷键 ctrl+I 打开导入窗口,选择素材后进行导入 根据模板中作者的提示,将图片素材和文字素材替换成我们想要的 2.背景音乐处理 找好我们想要的…
问题描述 在最近的后台服务中,新增将某个指令的请求数据落盘保存的功能.在具体实现时,采用成员变量来保存请求消息代理头,在接收响应以及消息管理类释放时进行销毁.测试反馈,该服务偶发崩溃. 问题分析 测试环境上运行的是rel版程序,由于在编译时去掉了调试信息(-g)以及开启O3级别优化,从崩溃dump的堆栈上,只看到程序崩溃的调用栈,函数入参等被优化掉,由于此处没有打日志,只能想其他办法来复现.猜测是重复释放指针导致的崩溃,接下来继续分析. 从rel版本的调用栈上看,只看见最后销毁的函数调用,而在实…
场景:把从客户端提交的任务放到线程池执行 异常:HibernateException: Could not obtain transaction-synchronized Session for current thread 猜测: 根据关键词猜测可能的原因:    transaction.synchronized.session.current thread 由于这个操作是在Service中做的,又提到了事物.会话.当前线程,所以定位代码,发现是执行ADD操作报错 这块代码之前没有问题,在加了…
又是新的一周过去了,时间到了,春天绿了,关于HTML5的学习进步了,今天博客更新一些CSS定位的内容,小的一些细节也要牢记,方便做一个更完美的项目. 如何让垂直方向居中,解决方式:在父元素添加overflow:hidden                              为父盒子添加border                              为父盒子添加border                              上下两个并排内容块的安排,最好只设置其中每个块上或…
一.项目架构 SpringCloud  Dalston.SR1 + SpringBoot 1.5.9 + Mysql +Redis + RabbitMQ 所有的业务模块的应用服务都部署在同一个服务器,且单实例部署,服务器配置4核32G, 二. 原因分析: 自己所负责的data模块这两天OOM较多,导致服务重启: data服务主要业务是报表相关,数仓对接的业务以及多个外部数据相关的小程序的后台,与数据库的交互比较多,业务逻辑相对其他模块较为简单, 第一次:2月25日OOM情况: 由于Redis反序…
前言 最近好久没更新博客和公众号了,有朋友问是不是在憋大招,但我不好意思说其实是因为最近一段时间太懒了,一直在当咸鱼- 意识到很久没更新这个问题,我是想写点什么的,但好像一直当咸鱼也没啥可分享的,最近刚参加了一个CTF比赛,来分享一些作为CTF小白的解题过程和思路~ 由于篇幅太长,所以本文第一篇就先只发MISC部分,相比较于固定类型的几种题目,MISC是最好玩的,比较考验知识广度和想象力(而且有签到题) 推荐渗透测试工具 比赛回顾 大概看下这次比赛有哪些题 MISC PDF 下载下来是个PDF,…
假设一个service服务出现异常,要如何定位…
ORA-00210: cannot open the specified control file ORA-00202: control file: '/u01/app/oracle/oradata/orcl/control01.ctl' ORA-27086: unable to lock file - already in use 思路: 1.看一下"lk" and "sgadef.dbf"这两个文件是不是存在着,如果存在将其删掉: 2.看是不是有后台进程存在:…
今天做Oracle DG  编写initorcl的时候,修改完以后,sqlplus就不能再登陆,一直报 ERROR: ORA-09925: Unable to createaudit trail file Linux Error: 2: No such file ordirectory Additional information:9925 ORA-01075: you are currentlylogged on 一直找不到原因,后来在网上偶然找到个帖子说了这样一个情况,试了下,果然有效 [o…
使用的gitlab是用docker启动的,数据目录的owner/group信息被意外全部更改成了root:root导致服务不可用.最终通过复原文件所有者的方式恢复了服务. 步骤如下: 1. 打包备份gitlab所有的数据目录(我们的是/data/gitlab/data;/data/gitlab/config;/data/gitlab/logs),并清空目录下的所有文件: 2.   删除gitlab-ce容器,重新从docker镜像启动一个新的gitlab-ce容器,让它生成新的文件,以备后续修正…
Q:无法建立目录wp-content/uploads/2017/03.有没有上级目录的写权限?A:执行chmod 777 wp-content/ 提升目录权限 Q:安装主题或安装插件的时候,用到FTP提示用户名密码不正确,使用XFTP也连接不上?A:这是由于根目录的权限过高(777),应该把根目录的权限设置为555,chmod 555 /var/www/html Q:无法将上传的文件移动至wp-content/uploads/2017/03?A:执行chmod -R 777 wp-content…
本文记录下部署sentry和其中遇到的问题 Sentry 是一款基于 Django实现的错误日志收集和聚合的平台,它是 Python 实现的,但是其日志监控功能却不局限于python,对诸如 Node.js, php,ruby, C#,java 等语言的项目都可以做到无缝集成,甚至可以用来对iOS, Android 移动客户端以及 Web前端异常进行跟踪.我们可以在程序中捕获异常,并发送到 Sentry服务端进行聚合统计.展示和报警. 环境安装 请先安装 Docker 1.10+ yum ins…
Angular什么时候不会自动为我们$apply呢? 这是Angular新手共同的痛处.为什么我的jQuery不会更新我绑定的东西呢?因为jQuery没有调用$apply,事件没有进入angular context,$digest循环永远没有执行. 我们来看一个有趣的例子: 假设我们有下面这个directive和controller app.js app.directive('clickable', function() { return { restrict: "E", scope:…
公众号做了新需求:菜单的click事件,支持多条客服消息. 上线后,只有一个功能不好使,是点击菜单,预期发一条文本类型的客服消息. 实际操作时,点这个菜单项后,什么也没有发生. elk上看日志,也没有什么报错.也不应该有报错,如果后端服务异常,公众号上会提示,“服务不可用”如果在后台打开 菜单管理 页面,什么也不做,再点个 保存 ,菜单 的功能就恢复正常了. ====================================================================…