一次精疲力尽的改bug经历
一、介绍
最近一直在做有关JavaScriptCore的技术需求,上周发现一个问题,当在JavaScriptCore在垃圾回收时,项目会有一定几率发生崩溃。崩溃发生时调用堆栈如下:

先对上图中两个比较重要的堆栈过程做个说明:

1)、toJSValueInContext:方法是通过JSObjectMake 再生成一个JSValue。如上图中,最终返回的是一个JSValue,并且这个JSValue对self(PHOValue类型)做了一次强引用。

2)、PHOObject_finalizeCallback 是JSValue的析构函数,当通过JSObjectMake生成的JS对象在释放时会调用该函数。在这个函数中,我们释放了之前所强引用的self(PHOValue类型)。当self释放时,self所强持有的对象A会被释放。进一步执行A的dealloc方法中,在dealloc方法中,我们再次调用了JSObjectMake函数生成其他的对象,并再次强持有了A对象,并将JSValue传入到JS中进行其他方法调用(如果不理解这个问题,请参考JSPatch对重写dealloc方法的处理,但是不同的是JSPatch 并不依赖垃圾回收)。
为了说明问题,特地画了个内存流程简图辅助理解:

二、定位问题
为了定位问题,我们进行了很多猜想,在这里我们列举两个比较有代表性的猜想。
猜想1:在dealloc中不允许对正在执行dealloc的对象进行强引用
由于这个问题是有一定的概率出现,并且报出了Thread 1: EXC_BREAKPOINT (code=EXC_I386_BPT, subcode=0x0)这样的错误,因此我们最开始一直将精力集中在追查野指针上。崩溃发生在self进行dealloc的时机,但是在这个时机我们对self又做了一次强引用(见图2代码)。此时会对self的引用计数+1,因此猜测可能会重复触发self的dealloc。但是实际上当崩溃发生时,po操作查看self,context 等参数,发现所有的参数都是正常允许访问的。并且这与调用堆栈的现象并不相符,至少我们没有看到两次调用dealloc。因此这种猜想是不成立的。
猜想2:JavaScriptCore 在进行垃圾回收时不允许进行JSObjectMake
从调用堆栈来看,每次崩溃都发生在JSObjectMake之后,这是不是意味着垃圾回收时不能进行JSObjectMake操作呢?为了验证这个问题,我们在PHOObject_finalizeCallback函数中不做任何对象释放操作,仅仅执行一次JSObjectMake,

这样的改动就意味着,只要处于JavaScriptCore进行垃圾回收,就会立刻调用JSObjectMake。经过验证发现,果然在此处发生崩溃,并且是百分百复现,调用堆栈基本一致。因此可以说明我们的猜想是正确的。仔细想想这个问题,有经验的同学可能会感到细思极恐,因为垃圾回收机制并不受我们控制,我们在进行JSObjectMake无法保证一定不处于垃圾回收期间,那么理论上来说应该进行发生崩溃才对,为什么这个问题之前一直没有暴露出来呢?我们循环100000次创建对象并不断通过safari的调试功能人工触发垃圾回收,并没有发生崩溃。JavascriptCore存在两种垃圾回收方式,一种是同步回收,一种是异步回收,无论哪种方式,JavascriptCore对虚拟机有共有的堆(Heap,JavascriptCore的垃圾回收处理都在Heap.cpp中)都进行了加锁处理,换句话说就是在正常情况下JSObjectMake在垃圾回收时是无法访问堆的。

而我们之所以发生崩溃是由于我们在对象在垃圾回收的回调中访问了堆,这个问题的伪代码如下:

三、寻找解决方案
既然基本定位到了问题的原因,那么下一步就要找方法去解决这个问题。问题的根源在于我们想在JS变量释放的时候释放它所间接持有的OC对象,如果在垃圾回收期间我们无法进行释放,那么是不是意味着只要我们获取到JavascriptCore的垃圾回收开始和结束回调就能避免这个问题了呢?查找JavascriptCore后发现,还真的有这个回调状态,只不过接口并没有对我们开放,Heap.h中存在一个添加观察者的接口。

当即将进行垃圾回收和垃圾回收结束后会通知观察者:


那么现在问题来了,我们既然知道了回调方法,那么如何获得回调呢?在OC层面,我们可以通过runtime 进行hook,甚至在C语言层面我们也可以通过fb的fishhook来实现hook,在C++层面我们如何hook一个带命名空间的函数呢?(这个问题我们并没有实现思路,如果有人知道在iOS中如何hook一个C++函数,请及时留言指教)。在经历了一系列尝试后,我们放弃了hook C++函数的方法,转而寻求其他方法。回到最初的目的,实际上我们就是想保证垃圾回收之后再执行我们的JSObjectMake。因此GCD的延迟操作是一个很好的思路,但是到底延迟多长时间呢?这个方案似乎不是那么完美。那么还有什么操作是一个延迟释放的操作呢?__autoreleasing 应该是一个比较好的选择。当对象前被添加__autoreleasing修饰时,这个对象会被延迟到自动释放池释放时才被释放。当自动释放池释放时当前runloop一定是结束了,也就是说该垃圾回收一定是结束了(不可能一次垃圾回收分为两个runloop)。因此只需要将代码改为如下所图11示即可

四、总结
这个问题还是比较难定位的,首先是很难定位到垃圾回收导致问题,其次是很难找到比较好的回调,尤其是hook c++函数,我们做了很多次尝试都没有成功。如果有人有过在iOS系统中hook C++函数的实现方案,请不吝赐教,多谢多谢!
一次精疲力尽的改bug经历的更多相关文章
- 为什么程序员老在改 Bug,就不能一次改好吗?
程序员的日常三件事:写Bug.改Bug.背锅.连程序员都自我调侃道,为什么每天都在加班?因为我的眼里常含Bug. 但是真的有这么多Bug要改吗?就不能一次改完吗? 程序员听这问题后要拍键盘了,还!真! ...
- 改bug的乐趣
一直以来,我都不喜欢改bug,不管是自己的,还是别人的.因为我不相信自己的代码会出现问题,一旦出现问题我就会觉得很难堪,因为我觉得我的代码没什么问题.然后我就不知道该怎么来解决这些问题. 最近这一两次 ...
- 曹工改bug:cpu狂飙,old gc频繁,线程神秘死亡连环案件调查报告
曹工改bug:cpu狂飙,old gc频繁,线程神秘死亡连环案件调查报告 前言 前两天,访问开发环境上一个java服务,发现一直转圈圈,因为我开着fiddler,可以看到的现象是,接口一直没返回:本来 ...
- 乐动ld06激光雷达sdk改bug记录分享
前言: 工作中,有使用过乐动ld06款激光雷达,此款雷达将常规雷达的转动的电机部分内置于自己的保护罩内,减少了雷达本身转动积灰等其他外界影响,探测半径是12m,是一款不错的雷达. 不过今天的主要内容不 ...
- android软件简约记账app开发day08-时间对话框的书写+改bug,改bug
android软件简约记账app开发day08-时间对话框的书写+改bug,改bug 绘制对话跨页面 在添加记账信息功能中,我提供了用户添加备注添加事件的功能,设计是点击时间会弹出一个时间对话框供用户 ...
- 一次数组越界的bug经历
数组和指针都是C里面的好东西,但是一旦使用不当,真的会让人抓狂. 下面是写程序时遇到的一次数组越界的经历,感觉对以后写程序有点启发,所以记录下来. 起因: 我想用OLED动态显示一组浮点数,而且浮点数 ...
- git学习笔记09-bug分支-自己的分支改到一半了-要去改bug怎么办?
当你接到一个修复一个代号101的bug的任务时,很自然地,你想创建一个分支issue-101来修复它,但是,等等,当前正在dev上进行的工作还没有提交: 并不是你不想提交,而是工作只进行到一半,还没法 ...
- 改BUG方法
---恢复内容开始--- 今天改了半天参数,后来发现原来是表设置错了,于是决定总结出遇到BUG时的方法,等下次再遇到BUG时,过一遍每个方法就会减少解决BUG的时间,话不多说,写 ①检查表.数据库是否 ...
- 11号了,还有三天上线-改bug
+(NSDictionary *)replacedKeyFromPropertyName { return @{ @"doctorId": @"id" }; ...
随机推荐
- JDBC异常之数据库表不存在
JDBC异常之数据库表不存在 1.具体错误如下: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException:Table 'YHD.t_yhd_ ...
- Error Code: 1068. Multiple primary key defined
1.错误描述 10:10:38 alter table user add num int(8) primary key first Error Code: 1068. Multiple primary ...
- Linux显示只显示目录文件
Linux显示只显示目录文件 youhaidong@youhaidong-ThinkPad-Edge-E545:~$ ls -l -d */ drwxr-xr-x 2 root root 4096 1 ...
- Linux显示各栏位的标题信息列
Linux显示各栏位的标题信息列 youhaidong@youhaidong-ThinkPad-Edge-E545:~$ who -H 名称 线路 时间 备注 youhaidong :0 2015-0 ...
- Python机器学习:5.6 使用核PCA进行非线性映射
许多机器学习算法都有一个假设:输入数据要是线性可分的.感知机算法必须针对完全线性可分数据才能收敛.考虑到噪音,Adalien.逻辑斯蒂回归和SVM并不会要求数据完全线性可分. 但是现实生活中有大量的非 ...
- 洛谷P4180 [Beijing2010组队]次小生成树Tree(最小生成树,LCT,主席树,倍增LCA,倍增,树链剖分)
洛谷题目传送门 %%%TPLY巨佬和ysner巨佬%%% 他们的题解 思路分析 具体思路都在各位巨佬的题解中.这题做法挺多的,我就不对每个都详细讲了,泛泛而谈吧. 大多数算法都要用kruskal把最小 ...
- Codeforces Round #466 (Div. 2)
所有的题目都可以在CodeForces上查看 中间看起来有很多场比赛我没有写了 其实是因为有题目没改完 因为我不想改,所以就没有写了(大部分题目还是改完了的) 我还是觉得如果是打了的比赛就一场一场写比 ...
- [Lugu3380]【模板】二逼平衡树(树套树)
题面戳我 您需要写一种数据结构来维护一个有序数列,其中需要提供以下操作: 1.查询k在区间内的排名 2.查询区间内排名为k的值 3.修改某一位值上的数值 4.查询k在区间内的前驱(前驱定义为严格小于x ...
- [ZJOI2007]时态同步
题目描述 小Q在电子工艺实习课上学习焊接电路板.一块电路板由若干个元件组成,我们不妨称之为节点,并将其用数字1,2,3….进行标号.电路板的各个节点由若干不相交的导线相连接,且对于电路板的任何两个节点 ...
- CSS中的各种FC
什么是FC? Formatting Context,格式化上下文,指页面中一个渲染区域,拥有一套渲染规则,它决定了其子元素如何定位,以及与其他元素的相互关系和作用. BFC 什么是BFC Block ...