OpenMP并行程序设计——for循环并行化详解

在C/C++中使用OpenMP优化代码方便又简单，代码中需要并行处理的往往是一些比较耗时的for循环，所以重点介绍一下OpenMP中for循环的应用。个人感觉只要掌握了文中讲的这些就足够了，如果想要学习OpenMP可以到网上查查资料。

工欲善其事，必先利其器。如果还没有搭建好omp开发环境的可以看一下OpenMP并行程序设计——Eclipse开发环境的搭建

首先，如何使一段代码并行处理呢？omp中使用parallel制导指令标识代码中的并行段，形式为：

#pragma omp parallel

{

每个线程都会执行大括号里的代码

}

比如下面这段代码：

#include <iostream>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
//设置线程数，一般设置的线程数不超过CPU核心数，这里开4个线程执行并行代码段
omp_set_num_threads(4);
#pragma omp parallel
{
cout << "Hello" << ", I am Thread " << omp_get_thread_num() << endl;
}
}
omp_get_thread_num()是获取当前线程id号
以上代码执行结果为：

Hello, I am Thread 1
Hello, I am Thread 0
Hello, I am Thread 2
Hello, I am Thread 3
可以看到，四个线程都执行了大括号里的代码，先后顺序不确定，这就是一个并行块。

带有for的制导指令：

for制导语句是将for循环分配给各个线程执行，这里要求数据不存在依赖。

使用形式为：

（1）#pragma omp parallel for

for()

（2）#pragma omp parallel

{//注意：大括号必须要另起一行

#pragma omp for

for()

}

注意：第二种形式中并行块里面不要再出现parallel制导指令，比如写成这样就不可以：

#pragma omp parallel

{

#pragma omp parallel for

for()

}

第一种形式作用域只是紧跟着的那个for循环，而第二种形式在整个并行块中可以出现多个for制导指令。下面结合例子程序讲解for循环并行化需要注意的地方。

假如不使用for制导语句，而直接在for循环前使用parallel语句：（为了使输出不出现混乱，这里使用printf代替cout）

#include <iostream>
#include <stdio.h>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
//设置线程数，一般设置的线程数不超过CPU核心数，这里开4个线程执行并行代码段
omp_set_num_threads(4);
#pragma omp parallel
for (int i = 0; i < 2; i++)
//cout << "i = " << i << ", I am Thread " << omp_get_thread_num() << endl;
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
输出结果为：

i = 0, I am Thread 0
i = 0, I am Thread 1
i = 1, I am Thread 0
i = 1, I am Thread 1
i = 0, I am Thread 2
i = 1, I am Thread 2
i = 0, I am Thread 3
i = 1, I am Thread 3
从输出结果可以看到，如果不使用for制导语句，则每个线程都执行整个for循环。所以，使用for制导语句将for循环拆分开来尽可能平均地分配到各个线程执行。将并行代码改成这样之后：

#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
输出结果为：
i = 4, I am Thread 2
i = 2, I am Thread 1
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 3, I am Thread 1
i = 5, I am Thread 3
可以看到线程0执行i=0和1，线程1执行i=2和3，线程2执行i=4，线程3执行i=5。线程0就是主线程
这样整个for循环被拆分并行执行了。上面的代码中parallel和for连在一块使用的，其只能作用到紧跟着的for循环，循环结束了并行块就退出了。

上面的代码可以改成这样：

#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
这写法和上面效果是一样的。需要注意的问题来了：如果在parallel并行块里再出现parallel会怎么样呢？回答这个问题最好的方法就是跑一遍代码看看，所以把代码改成这样：
#pragma omp parallel
{
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
输出结果：
i = 0, I am Thread 0
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 1, I am Thread 0
i = 2, I am Thread 0
i = 2, I am Thread 0
i = 3, I am Thread 0
i = 3, I am Thread 0
i = 4, I am Thread 0
i = 4, I am Thread 0
i = 5, I am Thread 0
i = 5, I am Thread 0
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 0, I am Thread 0
i = 2, I am Thread 0
i = 1, I am Thread 0
i = 3, I am Thread 0
i = 2, I am Thread 0
i = 4, I am Thread 0
i = 3, I am Thread 0
i = 5, I am Thread 0
i = 4, I am Thread 0
i = 5, I am Thread 0
可以看到，只有一个线程0，也就是只有主线程执行for循环，而且总共执行4次，每次都执行整个for循环！所以，这样写是不对的。

当然，上面说的for制导语句的两种写法是有区别的，比如两个for循环之间有一些代码只能有一个线程执行，那么用第一种写法只需要这样就可以了：

#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
//这里是两个for循环之间的代码，将会由线程0即主线程执行
printf("I am Thread %d\n", omp_get_thread_num());
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
离开了for循环就剩主线程了，所以两个循环间的代码是由线程0执行的，输出结果如下：
i = 0, I am Thread 0
i = 2, I am Thread 1
i = 1, I am Thread 0
i = 3, I am Thread 1
i = 4, I am Thread 2
i = 5, I am Thread 3
I am Thread 0
i = 4, I am Thread 2
i = 2, I am Thread 1
i = 5, I am Thread 3
i = 0, I am Thread 0
i = 3, I am Thread 1
i = 1, I am Thread 0
但是如果用第二种写法把for循环写进parallel并行块中就需要注意了！
由于用parallel标识的并行块中每一行代码都会被多个线程处理，所以如果想让两个for循环之间的代码由一个线程执行的话就需要在代码前用single或master制导语句标识，master由是主线程执行，single是选一个线程执行，这个到底选哪个线程不确定。所以上面代码可以写成这样：

#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
#pragma omp master
{
//这里的代码由主线程执行
printf("I am Thread %d\n", omp_get_thread_num());
}
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
效果和上面的是一样的，如果不指定让主线程执行，那么将master改成single即可。
到这里，parallel和for的用法都讲清楚了。接下来就开始讲并行处理时数据的同步问题，这是多线程编程里都会遇到的一个问题。

为了讲解数据同步问题，先由一个例子开始：

#include <iostream>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
int n = 100000;
int sum = 0;
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
sum += 1;
}
}
}
cout << " sum = " << sum << endl;
}
期望的正确结果是100000，但是这样写是错误的。看代码，由于默认情况下sum变量是每个线程共享的，所以多个线程同时对sum操作时就会因为数据同步问题导致结果不对，显然，输出结果每次都不同，这是无法预知的，如下：
第一次输出sum = 58544
第二次输出sum = 77015
第三次输出sum = 78423

那么，怎么去解决这个数据同步问题呢？解决方法如下：
方法一：对操作共享变量的代码段做同步标识

代码修改如下：

#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
#pragma omp critical
sum += 1;
}
}
}
cout << " sum = " << sum << endl;
critical制导语句标识的下一行代码，也可以是跟着一个大括号括起来的代码段做了同步处理。输出结果100000

方法二：每个线程拷贝一份sum变量，退出并行块时再把各个线程的sum相加

并行代码修改如下：

#pragma omp parallel
{
#pragma omp for reduction(+:sum)
for (int i = 0; i < n; i++) {
{
sum += 1;
}
}
}
reduction制导语句，操作是退出时将各自的sum相加存到外面的那个sum中，所以输出结果就是100000啦~~

方法三：这种方法貌似不那么优雅
代码修改如下：

int n = 100000;
int sum[4] = { 0 };
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
sum[omp_get_thread_num()] += 1;
}
}
}
cout << " sum = " << sum[0] + sum[1] + sum[2] + sum[3] << endl;
每个线程操作的都是以各自线程id标识的数组位置，所以结果当然正确。

数据同步就讲完了，上面的代码中for循环是一个一个i平均分配给各个线程，如果想把循环一块一块分配给线程要怎么做呢？这时候用到了schedule制导语句。下面的代码演示了schedule的用法：

#include <iostream>
#include "omp.h"
#include <stdio.h>
using namespace std;
int main(int argc, char **argv) {
int n = 12;
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for schedule(static, 3)
for (int i = 0; i < n; i++) {
{
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
}
}
}
上面代码中for循环并行化时将循环很多很多块，每一块大小为3，然后再平均分配给各个线程执行。
输出结果如下：

i = 6, I am Thread 2
i = 3, I am Thread 1
i = 7, I am Thread 2
i = 4, I am Thread 1
i = 8, I am Thread 2
i = 5, I am Thread 1
i = 0, I am Thread 0
i = 9, I am Thread 3
i = 1, I am Thread 0
i = 10, I am Thread 3
i = 2, I am Thread 0
i = 11, I am Thread 3
从输出结果可以看到：线程0执行i=0 1 2，线程1执行i=3 4 5，线程2执行i=6 7 8，线程3执行i=9 10 11，如果后面还有则又从线程0开始分配。

OK，for循环并行化的知识基本讲完了，还有一个有用的制导语句barrier，用它可以在并行块中设置一个路障，必须等待所有线程到达时才能通过，这个一般在并行处理循环前后存在依赖的任务时使用到。

是不是很简单？

---------------------
作者：陈靖_
来源：CSDN
原文：https://blog.csdn.net/zhongkejingwang/article/details/40350027
版权声明：本文为博主原创文章，转载请附上博文链接！

OpenMP并行程序设计——for循环并行化详解的更多相关文章

OpenMP并行构造的schedule子句详解 (转载)
原文:http://blog.csdn.net/gengshenghong/article/details/7000979 schedule的语法为: schedule(kind, [chunk_si ...
批处理命令 For循环命令详解!
批处理for命令详解FOR这条命令基本上都被用来处理文本,但还有其他一些好用的功能!看看他的基本格式(这里我引用的是批处理中的格式,直接在命令行只需要一个%号)FOR 参数 %%变量名 IN (相关文 ...
【转】批处理命令 For循环命令详解!
批处理for命令详解FOR这条命令基本上都被用来处理文本,但还有其他一些好用的功能!看看他的基本格式(这里我引用的是批处理中的格式,直接在命令行只需要一个%号)FOR 参数 %%变量名 IN (相关文 ...
OpenMP并行程序设计
1.fork/join并行执行模式的概念 2.OpenMP指令和库函数介绍 3.parallel 指令的用法 4.for指令的使用方法 5 sections和section指令的用法 1.fork/j ...
OpenMP 并行程序设计入门
OpenMP 是一个编译器指令和库函数的集合,主要是为共享式存储计算机上的并行程序设计使用的. 0. 一段使用 OpenMP 的并行程序 #include <stdio.h> #inclu ...
DOS 批处理命令For循环命令详解
for命令是一种对一系列对象依次循环执行同一个或多个命令的在命令行或批处理中运行的命令,结合一些Windows管理中的程序后,其处理功能强大.应用灵活方便程度令人刮目相看 for命令是一种对一系列 ...
for循环使用详解(c语言版)
说明:c语言的很多语法部分都和JAVA,AS等相同特别是for的用法. c语言中的for循环语句使用最为灵活,不仅可以用于循环次数已经确定的情况,而且可以用于循环次数不确定而只给出循环结束条件的情况 ...
Javascript中while和do-while循环用法详解
while循环 while 语句与 if 语句相似,都有条件来控制语句(或语句块)的执行,其语言结构基本相同:while(conditions){ statements;} while 语句与 ...
SQL循环语句详解
SQL循环语句 declare @i int set @i=1 while @i<30 begin insert into test (userid) values(@i) set @i=@i+ ...

随机推荐

基于 Nginx 的 HTTPS 性能优化实践
前言分享一个卓见云的较多客户遇到HTTPS优化案例. 随着相关浏览器对HTTP协议的“不安全”.红色页面警告等严格措施的出台,以及向 iOS 应用的 ATS 要求和微信.支付宝小程序强制 HTTPS ...
磊哥测评之数据库SaaS篇：腾讯云控制台、DMC和小程序
本文由云+社区发表作者:腾讯云数据库随着云计算和数据库技术的发展,数据库正在变得越来越强大.数据库的性能如处理速度.对高并发的支持在节节攀升,同时分布式.实时的数据分析.兼容主流数据库等强大的性能 ...
Refit在ASP.NET Core中的实践
前言声名式服务调用,己经不算是一个新鲜的话题了,毕竟都出来好些年了. 下面谈谈,最近项目中用到一个这样的组件的简单实践. 目前部分项目用到的是Refit这个组件,都是配合HttpClientFact ...
webpack4.0各个击破（6）—— Loader篇
webpack作为前端最火的构建工具,是前端自动化工具链最重要的部分,使用门槛较高.本系列是笔者自己的学习记录,比较基础,希望通过问题 + 解决方式的模式,以前端构建中遇到的具体需求为出发点,学习we ...
(摘)sql-索引的作用(超详细)
(一)深入浅出理解索引结构实际上,您可以把索引理解为一种特殊的目录.微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引.簇集索引)和非聚集索引(nonc ...
c# 扩展方法初见理解
个人理解扩展方法是对某些类在不改变源码的基础上添加其他的方法.扩展方法必须是在非泛型的静态类里定义,且第一个参数是要使用this 指定需要扩展的类型. class Program { static v ...
局域网内通讯APP
局域网内通讯APP [应用描述] 局域网内通讯是一款Android平台的实时通讯软件.提供基于无线局域网(WIFI)的实时通讯功能,支持发送文字.语音消息,支持实时语音及视频聊天.无需接入运营商网络, ...
Vue中父组件传子组件
父组件代码: <template> <section :class="menuMode === 'vertical' ? 'vertical-sub-nav' : 'sub ...
vue init初始化项目后 npm run dev报错 10% building modules 1/1 modules 0 activeevents.js:182 throw er; // Unhandled 'error' event
报错信息: 10% building modules 1/1 modules 0 activeevents.js:182 throw er; // Unhandled 'error' ev ...
JavaScript 函数闭包
在函数中定义函数,这些定义的内部函数可以访问它们所在的外部函数中所有局部变量.参数以及声明的其它内部函数.当这样的内部函数在包含它们的外部函数之外被调用时就会形成闭包. 在没有class机制只有函数的 ...

OpenMP并行程序设计——for循环并行化详解

OpenMP并行程序设计——for循环并行化详解的更多相关文章

随机推荐

热门专题