今天领导给我们发了一篇文章文章,让我们学习一下。

文章链接:TAM - Threaded Array Manipulator

这是codeproject上的一篇文章,花了一番时间阅读了一下。文章主要是介绍当单线程处理大量数组遇到性能瓶颈时,使用多线程的方式进行处理,可以缩短数组的处理时间。

看了这篇文章后,感觉似曾相识,很多次,当我想要处理大数组时,我就会进行构思,然后想出的解决方案,与此文章中介绍的方案非常的相似。但是说来惭愧,此文章的作者有了构思后便动手写出了实现代码,然后还进行了性能测试,而我每次只是构思,觉得我能想出来就可以了,等到真正用的时候再把它写出来就行了。事实上,我大概已经构思过很多次了,但是还从来没有写过,直到看到这篇文章,我才下定决心,一定要将这个思路整理一遍。

当单线程处理大数组遇到性能瓶颈时应该怎样处理

虽然科技一直在进步,CPU的处理能力也一直在提高,但是当我们进入大数据时代后,CPU每秒钟都会面临着大量的数据需要处理,这个时候CPU的处理能力可能就会成为性能瓶颈。这是我们就要选择多核多CPU了,编程中也就是使用多线程进行处理。

首先看下单线程处理的例子

static void Main(string[] args)
{
int count = 100000000;
double[] arrayForTest = new double[count];
Stopwatch watch = new Stopwatch();
watch.Start();
for (int i = 0; i < arrayForTest.Length; i++)
{
arrayForTest[i] = MathOperationFunc(arrayForTest[i]);
}
watch.Stop();
Console.WriteLine("经过 " + arrayForTest.Length + " 次循环共消耗时间 " + (watch.ElapsedMilliseconds / 1000.0) + " s");
} static double MathOperationFunc(double value)
{
return Math.Sin(Math.Sqrt(Math.Sqrt((double)value * Math.PI)) * 1.01);
}

单线程处理的耗时

这个单线程的例子中对一个有10000000个元素的数组中的每个元素进行了数学计算,执行完毕共计耗时5.95秒。

然后看两个线程处理的例子

static void Main(string[] args)
{
//四线程测试
int threadCount = 2;
Thread[] threads = new Thread[threadCount];
for (int i = 0; i < threadCount; i++)
{
threads[i] = new Thread(ForTestInThread);
threads[i].Name = threadCount + "线程测试" + (i + 1);
threads[i].Start();
}
}
//工作线程
static void ForTestInThread()
{
int count = 50000000;
double[] arrayForTest = new double[count];
Stopwatch watch = new Stopwatch();
watch.Start();
for (int i = 0; i < arrayForTest.Length; i++)
{
arrayForTest[i] = MathOperationFunc(arrayForTest[i]);
}
watch.Stop();
Console.WriteLine("线程:" + Thread.CurrentThread.Name + ",经过 " + arrayForTest.Length + " 次循环共消耗时间 " + (watch.ElapsedMilliseconds / 1000.0) + " s");
} //数据计算
static double MathOperationFunc(double value)
{
return Math.Sin(Math.Sqrt(Math.Sqrt((double)value * Math.PI)) * 1.01);
}

两个线程测试耗时

我们再来看一下四个线程的例子

static void Main(string[] args)
{
//四线程测试
int threadCount = 4;
Thread[] threads = new Thread[threadCount];
for (int i = 0; i < threadCount; i++)
{
threads[i] = new Thread(ForTestInThread);
threads[i].Name = threadCount + "线程测试" + (i + 1);
threads[i].Start();
}
}
//工作线程
static void ForTestInThread()
{
int count = 25000000;
double[] arrayForTest = new double[count];
Stopwatch watch = new Stopwatch();
watch.Start();
for (int i = 0; i < arrayForTest.Length; i++)
{
arrayForTest[i] = MathOperationFunc(arrayForTest[i]);
}
watch.Stop();
Console.WriteLine("线程:" + Thread.CurrentThread.Name + ",经过 " + arrayForTest.Length + " 次循环共消耗时间 " + (watch.ElapsedMilliseconds / 1000.0) + " s");
} //数据计算
static double MathOperationFunc(double value)
{
return Math.Sin(Math.Sqrt(Math.Sqrt((double)value * Math.PI)) * 1.01);
}

四个线程测试耗时

由上面的测试中可以看到,随着线程数的增多,任务被分解后每个线程执行的任务耗时由原来的 6秒 逐渐降到 2秒 左右,由此我们可以猜想当所有线程同时执行的时候,那么总任务的耗时就会下降,接下来让我们来进行更精确的测试。

Thread.Join方法简介

进行多线程测试时,经常会遇到这样的问题:主线程中如何等待所有线程执行结束后,再执行后续任务。

错误的做法

Thread[] threads = new Thread[threadCount];
for (int i = 0; i < threadCount; i++)
{
int beginIndex = i*arrayForTest.Length/threadCount;
int length = arrayForTest.Length/threadCount;
threads[i] = new Thread(WorkerThread);
var arg = new Tuple<double[], int, int>(arrayForTest, beginIndex, length);
threads[i].Name = threadCount + "线程测试" + (i + 1).ToString();
threads[i].Start(arg);
//等待所有线程结束
    threads[i].Join();
}

这么做实际上所有的子线程均是串行执行的,并没有达到并行的效果。

正确的做法

Thread[] threads = new Thread[threadCount];
for (int i = 0; i < threadCount; i++)
{
int beginIndex = i*arrayForTest.Length/threadCount;
int length = arrayForTest.Length/threadCount;
threads[i] = new Thread(WorkerThread);
var arg = new Tuple<double[], int, int>(arrayForTest, beginIndex, length);
threads[i].Name = threadCount + "线程测试" + (i + 1).ToString();
threads[i].Start(arg);
}
//等待所有线程结束
foreach (var thread in threads)
{
thread.Join();
}

多线程处理大数组的实现

了解了Thread.Join后,就可以进行多线程处理大数组的代码编写了:

class Program
{
static void Main(string[] args)
{
int count = 100000000;
double[] arrayForTest = new double[count];
Stopwatch totalWatch = new Stopwatch();
totalWatch.Start();
ThreadTest(arrayForTest, 2);
totalWatch.Stop();
Console.WriteLine("总任务,经过 " + arrayForTest.Length + " 次循环共消耗时间 " + (totalWatch.ElapsedMilliseconds / 1000.0) + " s");
} //大循环测试
static void ForTest(double[] arrayForTest, int beingIndex, int offset, Func<double, double> func)
{
for (int i = beingIndex; i < beingIndex + offset; i++)
{
arrayForTest[i] = func(arrayForTest[i]);
}
} //数学计算
static double MathOperationFunc(double value)
{
return Math.Sin(Math.Sqrt(Math.Sqrt((double)value * Math.PI)) * 1.01);
} static void ThreadTest(double[] arrayForTest, int threadCount)
{
//启动线程
Thread[] threads = new Thread[threadCount];
for (int i = 0; i < threadCount; i++)
{
//为每个线程分配任务
int beginIndex = i*arrayForTest.Length/threadCount;
int length = arrayForTest.Length/threadCount;
threads[i] = new Thread(WorkerThread);
var arg = new Tuple<double[], int, int>(arrayForTest, beginIndex, length);
threads[i].Name = threadCount + "线程测试" + (i + 1).ToString();
threads[i].Start(arg);
threads[i].Join();
}
//等待所有线程结束
foreach (var thread in threads)
{
thread.Join();
}
} //工作线程
static void WorkerThread(object arg)
{
Stopwatch watch = new Stopwatch();
watch.Start();
var argArray = arg as Tuple<double[], int, int>;
if (argArray == null)
return;
ForTest(argArray.Item1, argArray.Item2, argArray.Item3, MathOperationFunc);
watch.Stop();
Console.WriteLine("线程:" + Thread.CurrentThread.Name + ",经过 " + argArray.Item3 + " 次循环共消耗时间 " + (watch.ElapsedMilliseconds/1000.0) + " s");
}
}

这样多线程处理大数组的功能代码就编写完成了,那么性能是如何呢,用事实说话,效果如下:

由图可以看出,将一个大任务分解到两个线程中去执行后,大任务总体的执行时间会缩短,但是与两个线程中耗时最长的线程的执行时间有关。

同时执行耗时由原来的6秒逐渐降到2秒左右。可见在多核的机器上,多线程是可以提高性能的。

所以当单线程处理大数组遇到性能瓶颈时可以考虑通过多线程来处理。

既然这个多线程处理大数组的功能效果非常好,那么何不把它封装为一个类,添加到自己的类库中,这样就可以随时使用了:

class BigArrayFor
{
/// <summary>
/// 执行任务时,使用的线程数
/// </summary>
public int ThreadCount { get; set; } /// <summary>
/// 处理大数组中每个元素的方法
/// </summary>
public Func<double, double> ForFunc { get; private set; } /// <summary>
/// 需要处理的大数组
/// </summary>
public double[] ArrayForTest { get; private set; } /// <summary>
/// 实例化处理大数组的类
/// </summary>
/// <param name="arrayForTest">需要处理的大数组</param>
/// <param name="forFunc">处理大数组中每个元素的方法</param>
public BigArrayFor(double[] arrayForTest, Func<double, double> forFunc)
{
if (arrayForTest == null || forFunc == null)
{
throw new ArgumentNullException();
}
ThreadCount = 4;
ForFunc = forFunc;
ArrayForTest = arrayForTest;
} /// <summary>
/// 开始处理大数组
/// </summary>
public void Run()
{
//启动线程
Thread[] threads = new Thread[ThreadCount];
for (int i = 0; i < ThreadCount; i++)
{
//为每个线程分配任务
int beginIndex = i * (ArrayForTest.Length / ThreadCount);
int length = ArrayForTest.Length / ThreadCount;
threads[i] = new Thread(WorkerThread);
var arg = new Tuple<double[], int, int>(ArrayForTest, beginIndex, length);
threads[i].Name = ThreadCount + "线程测试" + (i + 1);
threads[i].Start(arg);
}
//等待所有线程结束
foreach (var thread in threads)
{
thread.Join();
}
} private void WorkerThread(object arg)
{
var argArray = arg as Tuple<double[], int, int>;
if (argArray == null)
return;
ForTest(argArray.Item1, argArray.Item2, argArray.Item3, ForFunc);
}
//大循环测试
private void ForTest(double[] arrayForTest, int beingIndex, int offset, Func<double, double> func)
{
for (int i = beingIndex; i < beingIndex + offset; i++)
{
arrayForTest[i] = func(arrayForTest[i]);
}
} }

好了,大数组循环类完成了,到目前为止,最多也只测试过4个线程同时处理大数组的效果,那么线程数继续增多,是不是执行时间会随之缩短呢,万事俱备,让我们开始更详细的测试吧

static void Main(string[] args)
{ //多线程操作大数组
int count = 100000000;
double[] arrayForTest = new double[count];
//一个线程
ThreadTest(arrayForTest, 1);
//两个线程
ThreadTest(arrayForTest, 2);
//四个线程
ThreadTest(arrayForTest, 4);
//八个线程
ThreadTest(arrayForTest, 8);
//十六个线程
ThreadTest(arrayForTest, 16);
//二十五个线程
ThreadTest(arrayForTest, 25);
//三十二个线程
ThreadTest(arrayForTest, 32);
} static void ThreadTest(double[] arrayForTest, int threadCount)
{
BigArrayFor bigArrayFor = new BigArrayFor(arrayForTest, MathOperationFunc);
bigArrayFor.ThreadCount = threadCount;
Stopwatch totalWatch = new Stopwatch();
totalWatch.Start();
bigArrayFor.Run();
totalWatch.Stop();
Console.WriteLine(bigArrayFor.ThreadCount + " 个线程,经过 " + arrayForTest.Length + " 次循环,共消耗时间 " + (totalWatch.ElapsedMilliseconds / 1000.0) + " s");
Console.WriteLine();
}

然后看测试效果

我们可以看到,随着线程数量的增多,处理数组所需的总体时间并不是随着线性的缩短,这是因为当线程数量超过CPU的核数后,会增加很多的线程调度的时间,当线程超过一定数量后,性能反而会下降。

总结

在多核机器上,当单线程处理大数组遇到性能瓶颈时,可以考虑使用多线程进行处理,但是线程数量要适量,否则会因为线程调度导致性能下降。

由一篇文章引发的思考——多线程处理大数组的更多相关文章

  1. 一篇文章看懂TPCx-BB(大数据基准测试工具)源码

    TPCx-BB是大数据基准测试工具,它通过模拟零售商的30个应用场景,执行30个查询来衡量基于Hadoop的大数据系统的包括硬件和软件的性能.其中一些场景还用到了机器学习算法(聚类.线性回归等).为了 ...

  2. What number should I guess next ?——由《鹰蛋》一题引发的思考

    What number should I guess next ? 这篇文章的灵感来源于最近技术部的团建与著名的DP优化<鹰蛋>.记得在一个月前,查到鹰蛋的题解前,我在与同学讨论时,一直试 ...

  3. Android:学习AIDL,这一篇文章就够了(下)

    前言 上一篇博文介绍了关于AIDL是什么,为什么我们需要AIDL,AIDL的语法以及如何使用AIDL等方面的知识,这一篇博文将顺着上一篇的思路往下走,接着介绍关于AIDL的一些更加深入的知识.强烈建议 ...

  4. Android:学习AIDL,这一篇文章就够了(上)

    前言 在决定用这个标题之前甚是忐忑,主要是担心自己对AIDL的理解不够深入,到时候大家看了之后说——你这是什么玩意儿,就这么点东西就敢说够了?简直是坐井观天不知所谓——那样就很尴尬了.不过又转念一想, ...

  5. 一个ScheduledExecutorService启动的Java线程无故挂掉引发的思考

    2018年12月12日18:44:53 一个ScheduledExecutorService启动的Java线程无故挂掉引发的思考 案件现场 不久前,在开发改造公司一个端到端监控日志系统的时候,出现了一 ...

  6. (转载)Android:学习AIDL,这一篇文章就够了(下)

    前言 上一篇博文介绍了关于AIDL是什么,为什么我们需要AIDL,AIDL的语法以及如何使用AIDL等方面的知识,这一篇博文将顺着上一篇的思路往下走,接着介绍关于AIDL的一些更加深入的知识.强烈建议 ...

  7. (转载)Android:学习AIDL,这一篇文章就够了(上)

    前言 在决定用这个标题之前甚是忐忑,主要是担心自己对AIDL的理解不够深入,到时候大家看了之后说——你这是什么玩意儿,就这么点东西就敢说够了?简直是坐井观天不知所谓——那样就很尴尬了.不过又转念一想, ...

  8. [转帖]很遗憾,没有一篇文章能讲清楚ZooKeeper

    很遗憾,没有一篇文章能讲清楚ZooKeeper https://os.51cto.com/art/201911/606571.htm [51CTO.com原创稿件]互联网时代是信息爆发的时代,信息的高 ...

  9. 一篇文章让Oracle程序猿学会MySql【未完待续】

    一篇文章让Oracle DB学会MySql[未完待续] 随笔前言: 本篇文章是针对已经能够熟练使用Oracle数据库的DB所写的快速学会MySql,为什么敢这么说,是因为本人认为Oracle在功能性方 ...

随机推荐

  1. My English Dictionary

    A axis 坐标轴 architecture 结构 B C consider 考虑 closure  闭包 clip  修剪 convert 改变 D default 默认的 valid 有效的 d ...

  2. javascript总结

    javascript:它是一种script脚本语言           脚本语言:就是可以和HTML混合在一起使用的语言,可以用来在IE的客                    户端进行程序编制,从 ...

  3. JS获得URL超链接的参数值

    /** * 获取指定URL的参数值 * @param url  指定的URL地址 * @param name 参数名称 * @return 参数值 */ function getUrlParam(ur ...

  4. python核心编程(第二版)习题

    重新再看一遍python核心编程,把后面的习题都做一下.

  5. input输入内容时放大问题

    最近做的微信网站有一个关于input输入框页面放大的问题.比如登录页面刚打开时正常,但用户输入信息登录时,页面就会放大.解决这个问题,首先需要在头部加一个 <meta name="vi ...

  6. webkit浏览器css设置滚动条

    主要有下面7个属性: ::-webkit-scrollbar 滚动条整体部分,可以设置宽度啥的 ::-webkit-scrollbar-button 滚动条两端的按钮 ::-webkit-scroll ...

  7. 谁动了我的特征?——sklearn特征转换行为全记录

    目录 1 为什么要记录特征转换行为?2 有哪些特征转换的方式?3 特征转换的组合4 sklearn源码分析 4.1 一对一映射 4.2 一对多映射 4.3 多对多映射5 实践6 总结7 参考资料 1 ...

  8. winRT Com组件开发流程总结

    winRT Com组件开发: 1.编辑idl文件,winRT COM的idl文件与win32的idl文件有差异,如下: interface ItestWinRTClass; runtimeclass ...

  9. mysql 函数(二)

    1.space(N) 输出空格 SELECT SPACE(5); -> '     ' 2.replace(str,from_str,to_str) 讲str中的from_str 替换成to_s ...

  10. video标签无法使用的问题

    原因:IIS的MIME中未注册MP4.ogg.webm相关类型,导致IIS无法识别 解决方法:在IIS中注册MP4.ogg.webm类型,以下以MP4为例,ogg和webm以此类推: windows ...