我们都知道,在编写多线程程序时,我们应该记住很多细节,比如锁,使用线程安全库等。这里有一个不太明显的bug的列表,特定于多线程程序。其中许多都没有在初学者的文档或教程中提到,但我认为每个使用线程的人最终都会中枪。

  • 使用thead safe系统函数

    并非所有的系统函数或者库函数都能被安全地使用。最明显的例子之一是strtok(3),它执行字符串符号化。它在每次调用中返回下一个token,并使用全局状态来保持源字符串中的当前位置。当您阅读此函数的手册页时,

  您将看到有thread-safe版本:strtok_r(3)带有附加参数:使用状态变量的指针,而不是全局变量的指针。有这种功能的其他例子还有:

  1. mbstowcs(3) 用 mbsrtowcs(3) 替代
  2. localtime(3) 用 localtime_r(3)替代
  3. gethostbyname(3) 用 gethostbyname_r(3) 或更好的 getaddrinfo(3)替代
  4. rand(3) 用 random_r(3)替代
  • 使用不受互斥锁保护的变量,volatile关键字误解

    你可能认为你只是在使用一个共享的“简单”变量,比如它是一个没有mutex的布尔变量。

 bool stop = false;

 while (!stop) {
sleep ();
}

  上述代码在开启编译优化的情况下是不可能被其他线程通过设置stop变量为true来中断的。这是因为编译器可以自由应用优化:一种原因是当编译器发现该变量在循环中没有被修改时,它可以省略while条件。另一种原因是,根据系统的架构,

  这种内存上的变化可能没有被其他处理器注意到。第一种情况,当时在调试一个数据库应用时有遇到过,当时情况是:在一个过程中,初始化一个局部变量后,balabala进行了一大堆操作,然后才使用该变量。最后测试发现结果不对,在我多

  次调试后才发现该变量一直处于未初始化状态的默认值。这还一度让我认为该不会是给该变量的赋值操作没起作用造成的,最后没招,我尝试提前了该变量的使用位置,结果就好了。。。这时我才突然意识到很可能是编译优化的问题造成的。

  这种由于编译优化造成的bug排查还是很费劲的。

    volatile关键字有时被视为是一种解决方案,但它与线程无关。此关键字旨在用于底层代码(如设备驱动程序),只是为了确保写入设备的内存等。在多线程进程中它并不能做到我们需要的:它不能使内存中的内容的变化被其他处理器可见。

  在一些架构上它可能可以,但不应该这样使用。

    正确的解决方案恰恰是在访问stop变量时使用mutex,即使它是如此“简单”的内存访问。

  • 二次关闭以及对无效文件描述符的使用

    考虑如下代码片段:  

 fd = open ("file", O_RDONLY);
if (fd < ) exit (); while ((res = read (fd, buf, sizeof(buf)))) {
if (res < ) {
close(fd);
fprintf (stderr, "Read error!\n");
break;
}
else {
printf ("Read %zd bytes\n", res);
}
} close(fd);

  哪有问题?在单线程程序中,它能正常工作,即使有bug存在:在第4行发生读取错误的情况下,文件描述符将被关闭两次 - 第15行的close(2)将只返回一个将被忽略的错误。然而在多线程程序中使用这段代码会让你陷入麻烦,

  通常很讨厌。为什么?因为第15行的第二次close(3)可能不会失败。这里存在race condition:如果其他线程在第一次与第二次close(3)之间打开了一个file或者创建了一个socket并且获得了相同的fd,那么上述线程会关闭它。

  要知道,文件描述符在同一进程的线程之间是共享的。关闭其他线程的fd可能不是最糟糕的可能发生的情况,试想:如果上述代码的第二个close()之前尝试进行了写操作,这将导致会向其他线程的文件或者TCP连接进行写操作!

  二次关闭是多线程中可能发生的最难发现的bug之一。因为这种race condition很少复现并且结果通常是很奇怪的错误。作为一种解决方法:建议经常检查每一个close(3)的返回值。但是通常在程序中不会去检查,特别是当fd只是用于

  读文件的情况,当然,这要首先看读文件会不会失败了。如果用日志记录每次close(3)失败的情况,我们就可以在race condition发生之前发现这种bug。在大多数情况下,第二个close(3)更有可能失败而不是会去关闭其他线程的fd。

  • 未捕获异常

    未捕获的异常将导致进程退出并显示错误消息。当编写多进程网络daemon程序时,这样的错误将终止一个进程,并且正确编写的程序将重新产生该错误。当这样的守护进程被转换为多线程设计时,未捕获的异常更危险:

  因为它将kill整个程序,而不只是一个线程。所以必须记住这一点并且在最顶层代码的某处捕获一切异常,即使是通过下面这种方式:

 try
...
catch(...)
{ log(“unknown exception”) }

  catch(...)而不是重新抛出异常是虽然是一个不太好的做法,但至少程序仍然可以处理其余的客户端请求。这可能是唯一catch(...)的情况。

  • 使用fork()系统调用

    关于多线程的进程与fork()的东西,后面的文章我会进行总结,也可以先看open(2)以及dup3(2)的O_CLOEXEC标记的使用说明。但基本上:在多线程进程中没有安全的方式使用fork(),

  并且在子进程中做不止是执行execve()的事情。因为你不能知道fork()调用时其他线程在做什么,一些mutex可能已经被一些线程持有了,一些线程可能正在修改一些复杂数据的过程中等等。

  • 在mutex处于锁定状态下执行IO操作

    这里是一个性能提示:避免在持有互斥量的同时进行I/O操作。至少要避免I/O操作,最好是在mutex被锁定的情况下避免任何系统调用或甚至库调用。

  相信我:你不会希望在一个非常繁忙的网络daemon进程中每秒至少处理数千个请求的线程等待一些恰巧在持有mutex的情况下通过syslog(3)系统调用写一些错误消息的线程。使用互斥体只是为了同步对内存的访问,

  并尽快解锁它们。看下面这个例子:

 pthread_mutex_lock (&mutex);
if (freeSlots == ) {
syslog (LOG_ERR, "No slots available, rejecting request");
} else {
freeSlots--;
}
pthread_mutex_unlock (&mutex);

  在syslog(3)调用时,mutex已经处于被持有状态。根据syslog守护程序的配置和机器的负载,当在每个日志行之后执行fsync()时,这甚至可能需要几十或几百毫秒来完成。所以在进行日志记录之前,只需解锁互斥,

  这样其他线程就可以运行而不需要等待I/O完成。

  • 建议:包装一个Mutex类

    如果你使用的是C ++语言,不要直接使用POSIX mutexes函数。创建一个Mutex类会容易很多,这样就可以在构造函数中获得锁,而在析构函数中释放锁。这种方式只是创建该类的自动变量,但它会在构造函数中获得锁,

  并在代码的作用域结束时因析构函数而自动解锁。这种类的一个示例是Boost库中的scoped_lock

不明显的多线程编程的具体Bugs的更多相关文章

  1. Linux多线程编程的条件变量

    在stackoverflow上看到一关于多线程条件变量的问题,题主问道:什么时候会用到条件变量,mutex还不够吗?有个叫slowjelj的人做了很好的回答,我再看这个哥们其他话题的一些回答,感觉水平 ...

  2. Web Worker javascript多线程编程(一)

    什么是Web Worker? web worker 是运行在后台的 JavaScript,不占用浏览器自身线程,独立于其他脚本,可以提高应用的总体性能,并且提升用户体验. 一般来说Javascript ...

  3. Web Worker javascript多线程编程(二)

    Web Worker javascript多线程编程(一)中提到有两种Web Worker:专用线程dedicated web worker,以及共享线程shared web worker.不过主要讲 ...

  4. windows多线程编程实现 简单(1)

    内容:实现win32下的最基本多线程编程 使用函数: #CreateThread# 创建线程 HANDLE WINAPI CreateThread( LPSECURITY_ATTRIBUTES lpT ...

  5. Rust语言的多线程编程

    我写这篇短文的时候,正值Rust1.0发布不久,严格来说这是一门兼具C语言的执行效率和Java的开发效率的强大语言,它的所有权机制竟然让你无法写出线程不安全的代码,它是一门可以用来写操作系统的系统级语 ...

  6. windows多线程编程星球(一)

    以前在学校的时候,多线程这一部分是属于那种充满好奇但是又感觉很难掌握的部分.原因嘛我觉得是这玩意儿和编程语言无关,主要和操作系统的有关,所以这部分内容主要出现在讲原理的操作系统书的某一章,看完原理是懂 ...

  7. Java多线程编程核心技术---学习分享

    继承Thread类实现多线程 public class MyThread extends Thread { @Override public void run() { super.run(); Sys ...

  8. python多线程编程

    Python多线程编程中常用方法: 1.join()方法:如果一个线程或者在函数执行的过程中调用另一个线程,并且希望待其完成操作后才能执行,那么在调用线程的时就可以使用被调线程的join方法join( ...

  9. 浅述WinForm多线程编程与Control.Invoke的应用

    VS2008.C#3.0在WinForm开发中,我们通常不希望当窗体上点了某个按钮执行某个业务的时候,窗体就被卡死了,直到该业务执行完毕后才缓过来.一个最直接的方法便是使用多线程.多线程编程的方式在W ...

随机推荐

  1. Redis初级介绍

    1 什么是Redis Redis(REmote DIctionary Server,远程数据字典服务器)是开源的内存数据库,常用作缓存或者消息队列. Redis的特点: Redis存在于内存,使用硬盘 ...

  2. Github团队开发集成以及eclipse集成

    温馨提示:本篇是用于团队开发协作的github,如果是单人的可以移步本系列另外一篇 集成eclipse较为简单 团队仓库目录结构 TestOrgName xxxsystem configs dbscr ...

  3. 实战MEF(3):只导出类的成员

    通过前面两篇文章的介绍,相信各位会明白MEF中有不少实用价值.上一文中我们也讨论了导入与导出,对于导出导入,今天我们再深入一点点,嗯,只是深入一点点而已,不会很难的,请大家务必放心,如果大家觉得看文章 ...

  4. 【原创】数据挖掘案例——ReliefF和K-means算法的医学应用

    数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识.数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的.事先未知 ...

  5. 掌握 Cinder 的设计思想 - 每天5分钟玩转 OpenStack(46)

    上一节介绍了 Cinder 的架构,这节讨论 Cinder 个组件如何协同工作及其设计思想. 从 volume 创建流程看 cinder-* 子服务如何协同工作 对于 Cinder 学习来说,Volu ...

  6. Web APi之控制器选择Action方法过程(九)

    前言 前面我们叙述了关于控制器创建的详细过程,在前面完成了对控制器的激活之后,就是根据控制器信息来查找匹配的Action方法,这就是本节要讲的内容.当请求过来时首先经过宿主处理管道然后进入Web AP ...

  7. 亚马逊云架设WordPress博客

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 这篇文章介绍如何在亚马逊云架设WordPress博客.最强的云,加上最流行的建站工 ...

  8. 有意思的Python:开发和部署一览

    我觉得在有时间的条件下,学习不同的开发语言,对于保持对技术的理解是有帮助的. Python是一门这样简单而且有趣的语言.网上资料已经比较多了.我这里主要对开发和部署环境所涉及的几个工具做些介绍. 1. ...

  9. 利用private font改变PDF文件的字体

    利用private font改变PDF文件的字体 前几天做项目,需要使用未安装的字体来改变PDF的文件.以前并没有实现过类似的功能,幸运的是我在网上找到了类似的教程,并成功实现了这个功能. 下面就跟大 ...

  10. android 通过访问 php 接受 or 传送数据

    先说传送数据,可以在 利用 php 代替传送,直接把 访问的url加上 xxx.php?informatin=xxxxxx 就行了 接收的看代码吧,详细注释. 首先是 我自己定义的php 文件 < ...