事故背景 由于误操作在erlcron设置了一个超过3个月后的定时任务.然后第二天之后发现每天的daily reset没有被执行,一些定时任务也没有被执行.瞬间感觉整个人都不好了,怎么无端端就不执行了呢. 通过排查日志,发现了以下报错: 2016-03-22 16:54:32.014 [error] gen_server ecrn_control terminated with reason: no case clause matching {ok,[<0.14123.1577>,<0.1…
一:背景 1. 讲故事 年前有位朋友加微信求助,说他的程序出现了偶发性CPU爆高,寻求如何解决,截图如下: 我建议朋友用 procdump 在 cpu 高的时候连抓两个dump,这样分析起来比较稳健,朋友也如期的成功抓到,接下来就用 windbg 一起来分析下吧. 二:Windbg 分析 1. 查看CPU占用率 先用 !tp 查看两个 dump 的cpu 利用率 0:112> !tp CPU utilization: 100% Worker Thread: Total: 138 Running:…
一:背景 1.讲故事 前些天有位朋友微信找到我,说他的程序出现了CPU阶段性爆高,过了一会就下去了,咨询下这个爆高阶段程序内部到底发生了什么? 画个图大概是下面这样,你懂的. 按经验来说,这种情况一般是程序在做 CPU 密集型运算,所以让朋友在 CPU 高的时候间隔 5~10s 抓两个 dump 下来,然后就是用 WinDbg 分析. 二:WinDbg 分析 1. CPU 真的爆高吗 耳听为虚,眼见为实,我们用 !tp 观察下当前的CPU情况. 0:000> !tp CPU utilizatio…
最近一次线上更新,老项目挂了,遍地哀嚎,日活跃掉了好多,心痛... 这次维护时,SA为了缩减硬件资源,做了一次数据库迁移.给到开发手上的player db,只有一些索引数据,不带有任一玩家数据.玩家上线的时候,skynet自动从redis-persist服务中拉取(redis-persist是一个基于旁路监听的redis落地程序,相对独立,参见之前的博文).这也是RP服务的第一次高强度使用.按之前的策略,每次玩家下线都会在RP服务中存档,三个月不上线的玩家,会自动从redis数据库中移除,以节约…
一:背景 1. 前言 大概有2个月没写博客了,不是不想写哈…
一.事故分析 在生产项目中,频繁遇到iserver隔一段时间就会出现崩溃的情况. 将iserver错误日志发给技术客服后,说是内存溢出的问题. 查看服务器的配置是32g内存,按理说不该出现此类问题. 自己实际在业务系统中的地图模块点击地图测试,发现地图快速放大缩小时,服务器内存占用会急速上涨,并且关闭地图页面后内存不会释放,而是继续上涨,一直到占满服务器内存,导致内存溢出错误. 最后跟技术客服一起排查原因,最后发现 我们发布地图是通过工作空间发布的 工作空间中有一个地图中既有矢量数据,又有缓存数…
1.iOS-中app启动闪退的原因 2.iOS开发-闪退问题-解决之前上架的 App 在 iOS 9 会闪退问题 3.iOS-应用闪退总结 4.iOS开发-捕获程序崩溃日志 5.iOS开发-应用崩溃日志揭秘(一) 6.iOS开发--应用崩溃日志揭秘(二) 7.iOS-----Crash文件分析(一) 8.iOS-----dSYM 文件分析工具配合Xcode符号化 crash日志 9.iOS------苹果设备处理器指令集(iPhone初代到iPhone5s)规避偏僻的闪退原因,打包iPa包时正确…
背景:在客户现场,IIS有时会崩溃,开发环境没法重现这个bug,唯有抓取IIS的崩溃是的Dump文件分析. IIS崩溃时自动抓取Dump,需要满足下面几个条件 1.启动 Windows Error Reporting Service 服务 2.移除默认的调试器 如果你的机器装了VS开发工具,会在注册表里写入调试器地址,需要把它删除. 找到注册表删除以下2个项目HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\AeDeb…
事故经过: 1  15:18收到短信报警:国际酒店调用OMS queryGorderOrderList方法失败:成单接口调用OMS获取token失败. 2  查看checkList发现15:18开始发现调用OMS 订单列表接口响应时间明显变长. 3  业务反馈国际酒店MIS系统查询不到数据,也无法导出数据.怀疑是因为这个引起的. 登录ihotelMs系统 IhotelMis调用OMS返回errorCode 总共调用OMS出现问题3000多次,并且还在调用. 4  查看ihotelMs cpu使用…
http://blog.csdn.net/jason0539/article/details/45602655 应用发生crash之后要查看log,判断问题出在什么地方,可是一旦应用发布出去,就要想办法把用户的崩溃日志拿到分析. 所以要在发生crash之后抓取log,然后上传到服务器,方便开发者查看,现在都有很多第三方做这方面的服务,这里说下如何自己来实现. 其实原理很简单,应用出现异常后,会由默认的异常处理器来处理异常, 我们要做的就是把这个任务接管过来,自己处理异常,包括收集日志,保存到本地…
1.事故背景 上周三凌晨,我负责的某个模块在多台机器上连续发生coredump,幸好发生在业务低峰期,而且该模块提供的功能也不是核心流程功能,所以对线上业务影响比较小.发生coredump后,运维收到报警后立马拉起了服务,服务宕机时间为3分钟左右. 2.事故分析 第二天立即组织了事故分析小组,对事故发生原因进行了排查,coredump的时候JVM保存了coredump文件,运维帮忙转换成了问题分析结果文件,如下 ## There is insufficient memory for the Ja…
登陆友盟官网找到友盟统计,找到你iOS平台下你所属的APP(图1) 图1 点击进去会出现当日错误列表,选择你发生错误的日期(图2) 图2 我们可以看到,这一天中出现了两个错误,每个错误出现在不同的时间点,最多的,最严重的达到了18次,我们点击看一下这是个什么错误:(图3-图4) 图3 图4 在图4中我们可以得知 iPhone 6 的手机,iOS8.1.1的系统发生错误,然后我们主要看图3,图3是什么呢,一堆指针,完全看不懂啊,这会,我们就要借助工具帮我们翻译一下,到底那里出现了错误. 工具:dS…
简单使用SetUnhandledExceptionFilter()函数让程序优雅崩溃 虽然是大公司的产品,QQ它还是会在我们的折腾下崩溃的,但是它总是崩溃的很优雅,还要弹出自己的对话框来结束.并且发送报告,去掉了系统默认的发送报告的对话框. 所以一拍脑袋,想让自己的程序崩溃的体面一点. 自己想了大概的思路,觉得可以用一个进程来监控目标程序.的确也可以拿到了目标程序崩溃的信息,知道它什么时候崩溃的,也可以做额外的操作,但是这样是没办法把默认的发送错误的对话框去掉的. 然后又有人说是不是采用了类似钩…
简单使用SetUnhandledExceptionFilter()函数让程序优雅崩溃 虽然是大公司的产品,QQ它还是会在我们的折腾下崩溃的,但是它总是崩溃的很优雅,还要弹出自己的对话框来结束.并且发送报告,去掉了系统默认的发送报告的对话框. 所以一拍脑袋,想让自己的程序崩溃的体面一点. 自己想了大概的思路,觉得可以用一个进程来监控目标程序.的确也可以拿到了目标程序崩溃的信息,知道它什么时候崩溃的,也可以做额外的操作,但是这样是没办法把默认的发送错误的对话框去掉的. 然后又有人说是不是采用了类似钩…
最近在项目中遇到flash崩溃问题,经分析,都是在swfobject.embedSWF这一步卡死,页面及flash均无反应.   造成此问题的场景是,在同一根节点上频繁清空节点.调用swfobject.embedSWF嵌入flash.   解决办法:最终在每次嵌入swf之前加个延迟解决问题,给flash点时间清理自己:)   setTimeout(embed,200);…
这篇文章解释了如何使用驱动程序验证工具来分析崩溃转储文件. 使用Microsoft驱动程序验证工具 如果您曾经使用Windows的调试工具来分析崩溃转储,那么毫无疑问,您已经使用WinDbg打开了一个崩溃转储文件.WinDbg将对崩溃文件执行内部分析,并建议您从!analyze命令开始.该命令输出堆栈以及许多其他信息.执行此操作时,堆栈底部将显示转换为内核模式的线程,然后从那里开始,您向上遍历堆栈以查看是否存在罪魁祸首驱动程序.虽然这是一种可靠的调试技术,但有时崩溃转储或其中的一组将无法分析.内…
常见马虎导致崩溃 1 数组越界: 2 多线程问题,在子线程刷新UI: 3 主线程无响应,主线程超过系统规定的时间没有响应,就会被watchdog杀掉: 4 野指针: 崩溃信息的收集却并没有那么简单.因为,有些崩溃日志是可以通过信号捕获到的,而很多崩溃日志却是通过信号捕获不到的. 第三方崩溃监控工具: PLCrashReporter Fabric或者Bugly 这些都是通过信号捕获崩溃日志,还有写通过信号捕捉不到的场景: 1 backgroud Task模式,App退到后台,如果在后台执行时间太长…
分享一下调查gcc 8.0下,函数漏写返回值崩溃问题,调查记录. 现在新的硬件,基本操作系统都是redhat 8.0,升级后测试时,发现了一个崩溃问题,记录一下. =================================== 1.问题描述 下面的函数,用gcc4.8编译运行不会崩溃,但是gcc 8以上编译,运行时100%会崩溃. int xx(){ xxxx += 999;} ============== 2.比较gcc 8.0 漏写返回值对代码生成的影响 首先写2个函数,比较一下,g…
基于Redis使用分布式锁在当今已经不是什么新鲜事了. 本篇文章主要是基于我们实际项目中因为redis分布式锁造成的事故分析及解决方案.我们项目中的抢购订单采用的是分布式锁来解决的,有一次,运营做了一个飞天茅台的抢购活动,库存100瓶,但是却超卖了100瓶!要知道,这个地球上飞天茅台的稀缺性啊!!! 事故定为P0级重大事故...只能坦然接受.整个项目组被扣绩效了~~事故发生后,CTO指名点姓让我带头冲锋来处理. 好吧,冲~ 事故现场 经过一番了解后,得知这个抢购活动接口以前从来没有出现过这种情况…
Xcode 7有什么新的特性.Xcode中7包含你需要创建的iPhone,iPad,Mac和Apple关注惊人的应用程序的一切.Swift编程语言已更新,现在比以往任何时候都更快,具有强大的功能,使你的代码更易于读取和写入.而随着新的游乐场,你可以尝试使用新的API或使用嵌入的资源,更多的源代码,和丰富的文本注释创作华丽的交互式文档. Xcode的用户界面测试功能,甚至可以在行动中记录您的应用程序,并生成测试你的项目. 现在每个人都可以得到他们的苹果设备上的应用程序.Xcode7和Swift现在…
本文总结一下C++面试时常遇到的问题.C++面试中,主要涉及的考点有 关键字极其用法,常考的关键字有const, sizeof, typedef, inline, static, extern, new, delete等等语法问题类型转换指针以及指针和引用的区别面向对象的相关问题,如虚函数机制等泛型编程的相关问题,如模板和函数的区别等内存管理,如字节对齐(内存对齐).动态内存管理.内存泄漏等编译和链接实现函数和类本文不涉及STL的内容,有关STL的内容,会另有一篇文章专门总结.零.序章0.1 C…
随着现代科学技术的发展,人们正在不断建造更为快速的交通工具.更大规模的建筑物.更大跨度的桥梁.更大功率的发电机组和更为精密的机械设备.这一切都要求工程师在设计阶段就能精确地预测出产品和工程的技术性能,需要对结构的静.动力强度以及温度场.流场.电磁场和渗流等技术参数进行分析计算.例如分析计算高层建筑和大跨度桥梁在地震时所受到的影响,看看是否会发生破坏性事故;分析计算核反应堆的温度场,确定传热和冷却系统是否合理;分析涡轮机叶片内的流体动力学参数,以提高其运转效率.这些都可归结为求解物理问题的控制偏微…
LoadRunner测试结果分析之我见 LoadRunner生成测试结果并不代表着这次测试结果的结束,相反,这次测试结果的重头戏才刚刚开始.如何对测试结果进行分析,关系着这次测试的成功与否.网上关于LoadRunner测试结果如何分析的介绍相当匮乏,在总结他人的观点和自己的实验体会基础上来介绍如何进行LoadRunner测试结果分析. 1. LoadRunner测试结果分析的第一步应该是查看分析综述(Analysis Summary),其包括统计综述(Statistics Summary).事务…
自己用的测试 C:\Users\Star>adb shell monkey -p com.cmstop.android --monitor-native-crashes -- pct-touch 30 -s 1 -v -v -v --throttle 200 100000   (不容易停下来) C:\Users\Star>adb shell monkey -p com.cmstop.android -v 500 --ignore-crashes   开始—>运行—>cmd    …
对于n==100.1,1,2或者1,2,2大量重复的形状相同的数据,cmp函数最后一项如果表达式带等于,整个程序就会崩溃 还没有仔细分析std::sort的调用过程,所以这里不是很懂..,mark以后研究 因为题目让你挑一到两个平行六面体,然后去每个平行六面体长宽高的最小值,然后去求最小值中的最大值 我们很容易想到暴力的做法,如果两个平行六面体能够合并的话,那我们直接计算合并之后的最小值,因为我们知道此时 合并之后再求最小值,它是只增不减的 那么我们就要找到能合并某一个面的所有平行六面体的集合,…
Monkey是什么 Monkey是可以运行在模拟器里或实际设备中的程序.它向系统发送伪随机的用户事件流(如按键输入.触摸屏输入.手势输入等),实现对正在开发的应用程序进行压力测试.   Monkey简介 Monkey是一个命令行工具,可以运行在模拟器里或实际设备中.它向系统发送伪随机的用户事件流,实现对正在开发的应用程序进行压力测试.Monkey包括许多选项,它们大致分为四大类: · 基本配置选项,如设置尝试的事件数量. · 运行约束选项,如设置只对单独的一个包进行测试. · 事件类型和频率.…
Odoo 仓库调拨过程中,有时候会碰见一下错误内容: The roundings of your Unit of Measures on the move vs.  on the product don't allow to do these operations or you are not transferring the picking at once. 这个错误的提示莫名其妙,看起来好像是因为某个产品的单位设置的不对造成的,然而经过一番分析,才发现里面别有洞天.(在这里我忍不住还是要吐槽…
  虽然iOS 5.0版本之后加入了ARC机制,由于相互引用关系比较复杂时,内存泄露还是可能存在.所以了解原理很重要. 这里讲述在没有ARC的情况下,如何使用Instruments来查找程序中的内存泄露,以及NSZombieEnabled设置的使用. 本文假设你已经比较熟悉Obj-C的内存管理机制. 实验的开发环境:XCode 4.5.2 1.运行Demo 先下载一个实现准备好的内存泄露的Demo吧:leak app 下载下来,打开运行,程序是一个寿司的列表,列出各种寿司卷.试着选择里面的几行,…
利用Android Studio.MAT对Android进行内存泄漏检测 Android开发中难免会遇到各种内存泄漏,如果不及时发现处理,会导致出现内存越用越大,可能会因为内存泄漏导致出现各种奇怪的crash,甚至可能出现因内存不足而导致APP崩溃. 内存泄漏分析工具 Android的内存泄漏分析工具常用有Android Studio和基于eclipse的MAT(Memory Analyzer Tool).通过两者配合,可以发挥出奇妙的效果.Android Studio能够快速定位内存泄漏的Ac…
1.调用findContours()函数程序崩溃. 原因: >>分析opencv源代码,跟踪测试,进入工程:opencv_imgproc 发现findContours函数 是调用 _findContours函数来实现的,跟踪进去,发现contours.resize(total) 就会失败崩溃,应该是系统DLL调用配置问题,进一步不知道原因了… >>这是因为,resize的时候,vector申请的默认内存不够了,vector要重新申请内存,而vector默认内存是在DLL外申请的,D…