深入分析glibc内存释放时的死锁bug
通常我们认为一旦内存写溢出,程序就很容易崩溃。所以服务器上通常会对一些重要进程做脚本保护,一旦崩溃立即重新拉起。
最近发现我们一个公共服务内存写溢出时程序没有崩溃,而是卡死了。
为了深入分析原因,我们仔细review了glibc的代码,并发现一个较为隐蔽的bug。
先来看这个卡死的程序堆栈(64位环境,下同):
可以看到在free函数中使用了锁。
这段代码相当简单,不用过多解释。
这应该属于glibc的bug了,虽然这个bug首先要由程序员的bug来触发。
首先,为什么内存写越界会导致free出错?解答这个问题前我们先简单说说一些相关的malloc分配内存原理。
跟一些人想象不同的是,并不是每次malloc调用一定导致内存分配,因为当内存释放时glibc会将内存先保留到空闲队列当中,下次有malloc调用时可以找一个合适的内存块直接返回,这样就避免了真正从系统分配内存的系统调用开销。glibc需要管理这些空闲内存块,那么就需要一个相应的数据结构,这个数据结构定义如下:
映射到内存示意图上如下图所示:
可以看到,我们每次malloc返回的指针并不是内存块的首指针,前面还有两个size_t大小的参数,对于非空闲内存而言size参数最为重要。size参数存放着整个chunk的大小,由于物理内存的分配是要做字节对齐的,所以size参数的低位用不上,便作为flag使用。
size被写坏,有两种结果。一种是free函数能检查出这个错误,程序就会先输出一些错误信息然后abort;一种是free函数无法检查出这个错误,程序便往往会直接crash。
根据最上面的堆栈推测,诱发bug的是前一种情况。我们的测试程序将会直接分配两块内存,并对第二块内存chunk的size参数做简单修改,以触发情况一。
顺便说一句,windows内存分配跟linux比较类似,也是将内存块大小存放在malloc返回的指针位置之前。DEBUG模式下,编译器还会在实际分配内存的两端放两个特殊值,这样在内存回收时就可以检测到内存写溢出的问题。
其次,当free函数检查到size异常以后,会调用malloc_printerr输出一些错误信息,但它并不一定会写syslog。
查看__libc_message的代码可以发现,出现错误以后,glibc会先尝试将错误信息写入到stderr或tty,如果写入失败,才会去写syslog(代码有点啰嗦就不贴了)。
要模拟这个情况,只需将环境变量"LIBC_FATAL_STDERR_"设为1迫使出错时写stderr,然后将stderr关闭即可。通常daemon程序很容易处在这样的状态。
再次,查看tzset_internal的代码,我们发现导致free操作的原因是静态变量static char* old_tz释放导致的。
old_tz存放了上一次调用tzset_internal时使用的时区字符串。如果再次调用tzset_internal时,时区不变就复用;如果不同,则free掉旧的字符串,strdup新的字符串,而strdup里面malloc了新字符串所需的内存块。
要模拟这个情况只需先设法给old_tz一个初值,然后再做内存释放触发free(old_tz)即可。要给old_tz设初值只需先调用相关的时间函数即可,例如localtime这个函数经常就被用到,old_tz会初始化为默认值"/etc/localtime"。当malloc_printerr一步步调用到tzset_internal时,glibc会从环境变量"TZ"读取新的时区字符串,通常大多数服务器是没设置这个环境变量的,所以新tz就是空,从而导致"free(old_tz); old_tz = NULL;"这样的操作。
所以我们的简单演示代码如下:
g++ -pg -g test.cpp编译得到可执行程序a.out。
查看堆栈如下:
程序堆栈跟文首的完全相同。至此问题得到确认。
我简单查看了一下glibc的历史版本代码,这个bug在2.4到2.8的版本上都存在。当然这个bug首先需要程序员犯了内存写溢出错误才会诱发,所以这并不是严重bug,大家只要知道了自然也可结合实际情况做防范。比如检查进程是否正常不能光看进程是否存在,还需用工具做收发包检测,或者查看定时日志是否一直有输出之类。
就这个问题本身来看,glibc确实还可以做得更好,例如应该进一步缩小锁的作用域,既提升并发性能,又可降低作用域内其他函数交叉调用引发的死锁风险;另外,个人认为tzset_internal中完全没必要动态分配内存,给old_tz一个固定大小的内存比如256byte应该基本上就可以了。
深入分析glibc内存释放时的死锁bug的更多相关文章
- SetProcessWorkingSetSize 和内存释放
http://hi.baidu.com/taobaoshoping/item/07410c4b6d6d9d0d6dc2f084 在应用程序中,往往为了释放内存等,使用一些函数,其实,对于内存操作函数要 ...
- glibc 内存申请和释放及堆连续检查
C语言有两种内存申请方式: 1.静态申请:当你声明全局或静态变量的时候,会用到静态申请内存.静态申请的内存有固定的空间大小.空间只在程序开始的时候申请一次,并且不再释放(除非程序结束). 2.自动申请 ...
- glibc内存管理那些事儿
本文转载自glibc内存管理那些事儿 Linux内存空间简介 32位Linux平台下进程虚拟地址空间分布如下图: 进程虚拟地址空间分布 图中,0xC0000000开始的最高1G空间是内核地址空间,剩下 ...
- FreeOnTerminate 的线程在线程管理类的Destroy释放时手工释放的问题
这个问题折腾了我整整一天. 有一个线程管理类,集中管理所有新建的线程, 线程统一在创建时标识 FreeOnTerminate 为 True. 因为有的线程是不限次循环的,所以在管理类最后 Destro ...
- glibc内存泄露以及TCmalloc 简单分析
最近开发一个私人程序时碰到了严重的内存问题,具体表现为:进程占用的内存会随着访问高峰不断上升,直到发生OOM被kill为止.我们使用valgrind等工具进行检查发现程序并无内存泄露,经过仔细调查我们 ...
- 关于ie的内存泄漏与javascript内存释放
最近做一个公司的业务系统,公司要求能尽可能的与c/s近似,也就是如c/s一样,点击文本框可以弹出此项目的相关内容,进行选择输入. 我使用了弹出窗口,然后在子窗口双击选中项目,把选中的值返回给父 ...
- Javascript IE 内存释放
一个内存释放的实例 <SCRIPT LANGUAGE="JavaScript"><!--strTest = "1";for ( var i = ...
- 《Glibc内存管理》笔记DAY5
目录 分箱式内存管理 Unsorted bin Fast bins 核心结构体分析 malloc_state 内容来源 分箱式内存管理 Unsorted bin Unsorted bin 可以看作 ...
- 《Glibc内存管理》笔记DAY2
目录 Ptmalloc内存管理设计 Main_arena 与 non_main_arena chunk 的组织 空闲 chunk 容器 sbrk 与 mmap 内存分配概述 内存回收概述 边界标记法 ...
随机推荐
- PTA 04-树6 Complete Binary Search Tree (30分)
题目地址 https://pta.patest.cn/pta/test/16/exam/4/question/669 5-7 Complete Binary Search Tree (30分) A ...
- [POJ1984]Navigation Nightmare
[POJ1984]Navigation Nightmare 试题描述 Farmer John's pastoral neighborhood has N farms (2 <= N <= ...
- Poj1704:staircase nim【博弈】
题目大意:有一个无限长的一维的棋盘,棋盘上N个格子放置着棋子.两个人轮流操作,每次操作能选择其中一个棋子向左移动,但不能越过其它棋子或者两枚棋子放在同一格中,最后不能操作的人算输,问先手是否必胜? 思 ...
- C#.net获取存储过程的Return返回值和Output输出参数值
原文发布时间为:2008-10-25 -- 来源于本人的百度文章 [由搬家工具导入] 1.获取Return返回值 程序代码//存储过程//Create PROCEDURE MYSQL// @a ...
- ibatis中的xml配置文件
<?xml version="1.0" encoding="UTF-8" ?><!DOCTYPE sqlMap PUBLIC "-/ ...
- php 压缩数据存储
php 压缩数据存储 当接收到大量的数据时,存储到数据库和从数据库读取时,时间都比较慢,所以压缩一下入库可能会好一点. 仅供参考!!! 封装的压缩数据函数: /** * 压缩数据 * @param s ...
- 删除字符串中的"\U0000fffc"数据 textView添加图片 以及添加后属性失效的解决
背景:在实现textView的富文本时,如果添加一张图片后,如果直接发送textView的内容时,图片会被字符串“\U0000fffc”替换. 问题:如何删除“\U0000fffc”字符串:如何替换t ...
- POJ 1328 Radar Installation【贪心 区间问题】
题目链接: http://poj.org/problem?id=1328 题意: 在x轴上有若干雷达,可以覆盖距离d以内的岛屿. 给定岛屿坐标,问至少需要多少个雷达才能将岛屿全部包含. 分析: 对于每 ...
- ArrayList和LinkedList区别(蚂蚁金服面试题)
1. 是否保证线程安全: ArrayList 和 LinkedList 都是不同步的,也就是不保证线程安全: 2. 底层数据结构: Arraylist 底层使用的是Object数组:LinkedLis ...
- 2018 11.2 PION模拟赛
期望:100 + 50 + 30 = 180 实际:0 + 50 + 30 =80 期望:100 实际:0 数值有负数,边界应该设为-0x7f 此处 gg /* 期望的分:50+ */ ...