http://shmilyaw-hotmail-com.iteye.com/blog/1897636

问题来源

记得很早以前自己学习算法的时候,听说过一种divide and conquer的策略,从某种角度来说,它和递归是有着很紧密的联系。比如说我们经常想到的一些排序的算法像快速排序、归并排序等,他们都是本质上将原有的问题集合拆分成两个子问题,然后再针对这些子问题进行进一步的处理,直到子问题已经得到解决。在这些子问题解决后上面的部分再将这些问题合并起来就得到了我们想要的答案。这个问题主要是针对单线程的运行场景。在把并行的一些思想考虑进来的时候,我发现他们可以碰撞出美丽的火花。我们仔细再来看一下前面的这一类型的问题,他们的本质上是将一个问题划分成多个子问题,然后再逐个的去解决子问题。在很多情况下,他们这些子问题是互不相干的。也就是说,我们针对他们每个执行的子问题,可以让他们采用独立的线程来运行。这样的话我们可以充分的发挥现在并行处理器的优势。

在进一步的讨论之前,我们先看一下divide and conquer策略的处理问题方式,如下图:

这里,我们每一个小的task表示我们划分出来的一个子问题。当一个问题处理完毕后,他们的结果可以返回给原来调用他们的部分。如果我们用伪代码来描述一下divide and conquer策略的算法,则其基本的形式应该如下:

  1. // PSEUDOCODE
  2. Result solve(Problem problem) {
  3. if (problem.size < SEQUENTIAL_THRESHOLD)
  4. return solveSequentially(problem);
  5. else {
  6. Result left, right;
  7. left = solve(extractLeftHalf(problem));
  8. right = solve(extractRightHalf(problem));
  9. return combine(left, right);
  10. }
  11. }

结合我们具体的一些算法,如归并排序或者快速排序,他们的实现代码结构是不是和这个很像呢?实际上,我们期望程序能够带有某种并行性的效果,其执行的过程更应该如以下的过程:

  1. // PSEUDOCODE
  2. Result solve(Problem problem) {
  3. if (problem.size < SEQUENTIAL_THRESHOLD)
  4. return solveSequentially(problem);
  5. else {
  6. Result left, right;
  7. INVOKE-IN-PARALLEL {
  8. left = solve(extractLeftHalf(problem));
  9. right = solve(extractRightHalf(problem));
  10. }
  11. return combine(left, right);
  12. }
  13. }

这种我们所期望的理想方式,在java 7的fork-join pool里已经得到了解决。

fork-join pool的引入

在正式使用fork-join pool之前,我们可能会有点好奇。我们已经有了一些现有的线程池了,如ThreadPoolExecutor,在大部分的情况下他们已经能用的很好。我们引入fork-join框架的意义在哪里呢?他有哪些优点呢?

我们先针对fork-join pool本身要解决的问题本身来看。如果我们用传统的threadpool方式来解决这些问题,该采取什么样的手段呢?我们假设一个问题就是一个执行的线程,当一个问题被拆分成两个或者多个子问题的时候,我们需要启动多个子线程去执行,在必要的情况下会迭代的依次启动下去。这里就产生了一些线程之间的以来,我们这个大的问题需要等待它的子问题线程返回,因此我们需要某些机制来保证他们的同步。这样,当我们手工来实现这个过程的时候会有些麻烦。我们默认使用的线程池是期望他们所有执行的任务都是不相关的,可以尽可能的并行执行。

另外,fork-join pool还有一个特点就是work stealing。每个工作线程都有自己的工作队列,这是使用deque来实现的。当一个任务划分一个新线程时,它将自己推到 deque 的头部。当一个任务执行与另一个未完成任务的合并操作时,它会将另一个任务推到队列头部并执行,而不会休眠以等待另一任务完成(像 Thread.join() 的操作一样)。当线程的任务队列为空,它将尝试从另一个线程的 deque 的尾部 窃取另一个任务。如果我们用传统的ThreadPoolExecutor则比较难用上work stealing的技术。关于work stealing的细节可以参考文章后面的参考材料。

fork-join pool和ThreadPoolExecutor之间也是有很紧密的关系的,下图是他们相关的一个类图:

我们可以看到,他们共同的继承了AbstractExecutorService,在一定的程度上,他们是可以互相替换使用的。在图中我们还可以看到,ForkjoinPool使用到了RecursiveAction和RecursiveTask。他们两个中RecursiveAction应用于执行的任务不需要返回结果的场景,而RecursiveTask应用于需要返回执行结果的场景。这点类似于ThreadPoolExecutor使用Runnable和Callable的参数来分别表示不需要返回值和需要返回值的线程执行对象。

示例应用

OK,前面花了很多时间讨论了fork/join pool的特点,这里我们就来看几个具体的应用示例。

求最大值

假定我们有一组数字,我们需要求里面的最大值。用我们传统的方法来求的话,其代码实现如下:

  1. public int solveSequentially() {
  2. int max = Integer.MIN_VALUE;
  3. for (int i=start; i<end; i++) {
  4. int n = numbers[i];
  5. if (n > max)
  6. max = n;
  7. }
  8. return max;
  9. }

这里,我们假定numbers这个数组保存着所有需要比较的数字。

如果我们应用ForkJoinPool的方式,则其实现如下:

  1. public class MaxWithFJ extends RecursiveAction {
  2. private final int threshold;
  3. private final SelectMaxProblem problem;
  4. public int result;
  5. public MaxWithFJ(SelectMaxProblem problem, int threshold) {
  6. this.problem = problem;
  7. this.threshold = threshold;
  8. }
  9. protected void compute() {
  10. if (problem.size < threshold)
  11. result = problem.solveSequentially();
  12. else {
  13. int midpoint = problem.size / 2;
  14. MaxWithFJ left = new MaxWithFJ(problem.subproblem(0, midpoint), threshold);
  15. MaxWithFJ right = new MaxWithFJ(problem.subproblem(midpoint +
  16. 1, problem.size), threshold);
  17. left.fork();
  18. right.fork();
  19. result = Math.max(left.join(), right.join());
  20. }
  21. }
  22. }

我们可以看到,如果当我们在将任务拆分成更小的任务时,我们可以通过ForkJoinTask的fork()方法让子问题异步的执行。然后我们再使用join方法得到异步方法执行的结果。

计算文件目录大小

我们再来看一个示例。这里是我们假定要遍历一个文件目录。因为文件的目录它可以包含嵌套若干层的目录或者文件。从某种角度来说它构成了一个树形结构。 我们再遍历到每个文件的时候,可以将文件目录作为一个子task来处理,这里就可以形成一个完整的fork/join pool应用。

  1. import java.util.concurrent.ForkJoinPool;
  2. import java.util.concurrent.ForkJoinTask;
  3. import java.util.concurrent.RecursiveTask;
  4. import java.util.List;
  5. import java.util.ArrayList;
  6. import java.io.File;
  7. public class FileSize
  8. {
  9. private final static ForkJoinPool forkJoinPool = new ForkJoinPool();
  10. private static class FileSizeFinder extends RecursiveTask<Long>
  11. {
  12. final File file;
  13. public FileSizeFinder(final File theFile)
  14. {
  15. file = theFile;
  16. }
  17. @Override
  18. public Long compute()
  19. {
  20. long size = 0;
  21. if(file.isFile())
  22. {
  23. size = file.length();
  24. }
  25. else
  26. {
  27. final File[] children = file.listFiles();
  28. if(children != null)
  29. {
  30. List<ForkJoinTask<Long>> tasks =
  31. new ArrayList<ForkJoinTask<Long>>();
  32. for(final File child : children)
  33. {
  34. if(child.isFile())
  35. {
  36. size += child.length();
  37. }
  38. else
  39. {
  40. tasks.add(new FileSizeFinder(child));
  41. }
  42. }
  43. for(final ForkJoinTask<Long> task : invokeAll(tasks))
  44. {
  45. size += task.join();
  46. }
  47. }
  48. }
  49. return size;
  50. }
  51. }
  52. }

这里代码看起来比较长,最关键的部分在compute方法里。我们用了一个ArrayList tasks来保存所有出现目录的情形。当遍历出来的元素是文件时,我们直接取文件的长度size += child.length();而当为目录时则tasks.add(new FileSizeFinder(child));这样当我们遍历某个目录的时候,它下面一级的子目录就全部被封装到tasks里了。然后我们再通过invokeAll(tasks)这个方法去并行的执行所有遍历子目录的线程。

调用这部分代码的程序如下:

  1. public static void main(String[] args)
  2. {
  3. final long start = System.nanoTime();
  4. final long total = forkJoinPool.invoke(
  5. new FileSizeFinder(new File(args[0])));
  6. final long end = System.nanoTime();
  7. System.out.println("Total Size: " + total);
  8. System.out.println("Time taken: " + (end - start)/1.0e9);
  9. }

我们可以运行一下比较具体的执行结果。

总结

从分治的算法思想到fork/join框架,这种并行性的的融入可以更加高效率的解决一大批的问题。和我们一些传统的多线程应用方式如ThreadPoolExecutor比起来,它有一些自己的特点。一个典型的地方就是work-stealing,它的一个优点是在传统的线程池应用里,我们分配的每个线程执行的任务并不能够保证他们执行时间或者任务量是同样的多,这样就可能出现有的线程完成的早,有的完成的晚。在这里,一个先完成的线程可以从其他正在执行任务的线程那里拿一些任务过来执行。我们可以说这是人家学习雷锋好榜样。这样发挥主观能动性的线程框架肯定办起事来就效率高了。

参考材料

A Java Fork/Join framework

Programming concurrency on the jvm

http://www.javaworld.com/javaworld/jw-10-2011/111004-jtip-recursion-in-java-7.html?page=1

http://www.ibm.com/developerworks/cn/java/j-jtp11137.html

http://docs.oracle.com/javase/7/docs/api/java/util/concurrent/ForkJoinPool.html

java fork-join框架应用和分析的更多相关文章

  1. Java Fork/Join 框架

    简介 从JDK1.7开始,Java提供Fork/Join框架用于并行执行任务,它的思想就是讲一个大任务分割成若干小任务,最终汇总每个小任务的结果得到这个大任务的结果. 这种思想和MapReduce很像 ...

  2. java Fork/Join框架

    应用程序并行计算遇到的问题 当硬件处理能力不能按摩尔定律垂直发展的时候,选择了水平发展.多核处理器已广泛应用,未来处理器的核心数将进一步发布,甚至达到上百上千的数量.而现在很多的应用程序在运行在多核心 ...

  3. 《java.util.concurrent 包源码阅读》22 Fork/Join框架的初体验

    JDK7引入了Fork/Join框架,所谓Fork/Join框架,个人解释:Fork分解任务成独立的子任务,用多线程去执行这些子任务,Join合并子任务的结果.这样就能使用多线程的方式来执行一个任务. ...

  4. Fork/Join 框架-设计与实现(翻译自论文《A Java Fork/Join Framework》原作者 Doug Lea)

    作者简介 Dong Lea任职于纽约州立大学奥斯威戈分校(State University of New York at Oswego),他发布了第一个广泛使用的java collections框架实 ...

  5. Java并发编程(07):Fork/Join框架机制详解

    本文源码:GitHub·点这里 || GitEE·点这里 一.Fork/Join框架 Java提供Fork/Join框架用于并行执行任务,核心的思想就是将一个大任务切分成多个小任务,然后汇总每个小任务 ...

  6. ☕【Java技术指南】「并发编程专题」Fork/Join框架基本使用和原理探究(基础篇)

    前提概述 Java 7开始引入了一种新的Fork/Join线程池,它可以执行一种特殊的任务:把一个大任务拆成多个小任务并行执行. 我们举个例子:如果要计算一个超大数组的和,最简单的做法是用一个循环在一 ...

  7. JAVA中的Fork/Join框架

    看了下Java Tutorials中的fork/join章节,整理下. 什么是fork/join框架 fork/join框架是ExecutorService接口的一个实现,可以帮助开发人员充分利用多核 ...

  8. Java并发——Fork/Join框架

    为了防止无良网站的爬虫抓取文章,特此标识,转载请注明文章出处.LaplaceDemon/ShiJiaqi. http://www.cnblogs.com/shijiaqi1066/p/4631466. ...

  9. Java并发编程--Fork/Join框架使用

    上篇博客我们介绍了通过CyclicBarrier使线程同步,可是上述方法存在一个问题,那就是假设一个大任务跑了2个线程去完毕.假设线程2耗时比线程1多2倍.线程1完毕后必须等待线程2完毕.等待的过程线 ...

  10. Java 7 Fork/Join 框架

    在 Java7引入的诸多新特性中,Fork/Join 框架无疑是重要的一项.JSR166旨在标准化一个实质上可扩展的框架,以将并行计算的通用工具类组织成一个类似java.util中Collection ...

随机推荐

  1. yii2.0 面包屑的使用

    yii2中面包屑是yii2自带的小部件,类似本网站的导航栏应该就是采用面包屑来完成的 例子如下,需要引入 yii\widgets\Breadcrumbs echo Breadcrumbs::widge ...

  2. ios 点击放大图片,保存至手机相册

    直接贴.m文件代码 #import "UIImageView+Scale.h" static CGRect oldframe; @implementation UIImageVie ...

  3. Android: Failure [INSTALL_FAILED_DEXOPT] and Failure [INSTALL_FAILED_UID_CHANGED] 解决方案

    1. 错误:  Failure [INSTALL_FAILED_DEXOPT]  Android安装App时 D:\WorkSpace\Administrator\workspace\svn\soot ...

  4. php+mysql 内联接 和 子查询

    INNER JOIN(内连接):取得两个表中存在连接匹配关系的记录 $sql="SELECT * FROM subject as a INNER JOIN e_user as b ON a. ...

  5. PHP使用正则表达式验证电话号码(手机和固定电话)

    这个还不错,很有用. tel='验证的电话号码'; $isMob="/^1[3-8]{1}[0-9]{9}$/";  $isTel="/^([0-9]{3,4}-)?[0 ...

  6. 【MySQL】使用 Optimizer Trace 观察SQL执行过程

    Optimizer Trace 是MySQL 5.6.3里新加的一个特性,可以把MySQL Optimizer的决策和执行过程输出成文本.输出使用JSON格式,便于程序分析和人类阅读. 使用方法 1) ...

  7. 详解Bootstrap 定义按钮的样式(CSS)

    以下样式可用于<a>, <button>, 或 <input> 元素上: 更多关于Bootstrap 定义CSS样式的可查看:http://v2.bootcss.c ...

  8. LINUX nfs服务

    1.什么是NFS(Network FileSystem)  NFS 就是 Network FileSystem 的缩写,最早之前是由 Sun 所发展出来的.他最大的功能就是可以透过网络,让不同的机器. ...

  9. POJ 2599 A funny game#树形SG(DFS实现)

    http://poj.org/problem?id=2599 #include<iostream> #include<cstdio> #include<cstring&g ...

  10. php的实参和形参

    1.实参是调用函数时候的参数; 2.形参是声明函数时侯的参数, 例如 public function demo($a,$b) {         return ; } 如果声明的函数如上,调用时dem ...