OpenMP笔记(二)
原文:https://www.bearoom.xyz/2019/02/18/openmp2/
OpenMP是由三部分组成的:指令、库函数和环境变量。
一、指令
在C/C++中使用OpenMP需要用到的指令一般是:
#pragma omp 指令 [子句[子句]…]
指令有以下常见的11种:
- atomic 内存位置将会原子更新(Specifies that a memory location that will be updated atomically.)
- barrier 线程在此等待,直到所有的线程都运行到此barrier。用来同步所有线程。
- critical 其后的代码块为临界区,任意时刻只能被一个线程运行。
- flush 所有线程对所有共享对象具有相同的内存视图(view of memory)
- for 用在for循环之前,把for循环并行化由多个线程执行。循环变量只能是整型
- parallel for, parallel 和 for语句的结合,也是用在一个for循环之前,表示for循环的代码将被多个线程并行执行。
- master 指定由主线程来运行接下来的程序。
- ordered 指定在接下来的代码块中,被并行化的 for循环将依序运行(sequential loop)
- parallel 代表接下来的代码块将被多个线程并行各执行一遍。
- sections 将接下来的代码块包含将被并行执行的section块。
- parallel sections,parallel和sections两个语句的结合
- single 之后的程序将只会在一个线程(未必是主线程)中被执行,不会被并行执行。
- threadprivate 指定一个全局或者静态变量是线程局部存储(thread local storage),也就是不同并行块中的同个线程里,这个变量是全局的。
子句有以下常见的几种:
- copyin 让threadprivate的变量的值和主线程的值相同。
- copyprivate 不同线程中的变量在所有线程中共享。
- default 用来指定并行处理区域内的变量的使用方式,缺省是shared。
- firstprivate 对于线程局部存储的变量,其初值是进入并行区之前的值。
- if 判断条件,可用来决定是否要并行化。
- lastprivate 在一个循环并行执行结束后,指定变量的值为循环体在顺序最后一次执行时获取的值,或者#pragma sections在中,按文本顺序最后一个section中执行获取的值。
- nowait 忽略barrier的同步等待。
- num_threads 设置线程数量的数量。默认值为当前计算机硬件支持的最大并发数。一般就是CPU的内核数目。超线程被操作系统视为独立的CPU内核。
- ordered 使用于 for,可以在将循环并行化的时候,将程序中有标记 directive ordered 的部分依序运行。
- private 指定变量为线程局部存储。
- reduction Specifies that one or more variables that are private to each thread are the subject of a reduction operation at the end of the parallel region.
- schedule 设置for循环的并行化方法;有 dynamic、guided、runtime、static 四种方法。shared 指定变量为所有线程共享。
- (1)、schedule(static, chunk_size) 把chunk_size数目的循环体的执行,静态依序指定给各线程。
- (2)、 schedule(dynamic, chunk_size) 把循环体的执行按照chunk_size(缺省值为1)分为若干组(即chunk),每个等待的线程获得当前一组去执行,执行完后重新等待分配新的组。
- (3)、schedule(guided, chunk_size) 把循环体的执行分组,分配给等待执行的线程。最初的组中的循环体执行数目较大,然后逐渐按指数方式下降到chunk_size。
- (4)、schedule(runtime) 循环的并行化方式不在编译时静态确定,而是推迟到程序执行时动态地根据环境变量OMP_SCHEDULE 来决定要使用的方法。
- shared 指定变量为所有线程共享。
二、库函数
库函数(Run-Time Library Routines)在头文件omp.h中有声明:

1.void omp_set_num_threads(int _Num_threads):在后续并行区域设置线程数,此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域。说明:此函数只能在串行代码部分调用。
2.int omp_get_num_threads(void):返回当前线程数目。说明:如果在串行代码中调用此函数,返回值为1。
3.int omp_get_max_threads(void):如果在程序中此处遇到未使用 num_threads() 子句指定的活动并行区域,则返回程序的最大可用线程数量。说明:可以在串行或并行区域调用,通常这个最大数量由omp_set_num_threads()或OMP_NUM_THREADS环境变量决定。
4.int omp_get_thread_num(void):返回当前线程id.id从1开始顺序编号,主线程id是0。
5.int omp_get_num_procs(void):返回程序可用的处理器数。
6.void omp_set_dynamic(int _Dynamic_threads):启用或禁用可用线程数的动态调整.(缺省情况下启用动态调整.)此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域。如果 _Dynamic_threads 的值为非零值,启用动态调整;否则,禁用动态调整。
7.int omp_get_dynamic(void):确定在程序中此处是否启用了动态线程调整。启用了动态线程调整时返回非零值;否则,返回零值。
8.int omp_in_parallel(void):确定线程是否在并行区域的动态范围内执行。如果在活动并行区域的动态范围内调用,则返回非零值;否则,返回零值.活动并行区域是指 IF 子句求值为 TRUE 的并行区域。
9.void omp_set_nested(int _Nested):启用或禁用嵌套并行操作。此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域。_Nested 的值为非零值时启用嵌套并行操作;否则,禁用嵌套并行操作。缺省情况下,禁用嵌套并行操作。
10.int omp_get_nested(void):确定在程序中此处是否启用了嵌套并行操作.启用嵌套并行操作时返回非零值;否则,返回零值,互斥锁操作嵌套锁操作功能。
11.void omp_init_lock(omp_lock_t * _Lock):
12.void omp_init_nest_lock(omp_nest_lock_t * _Lock):初始化一个(嵌套)互斥锁。
13.void omp_destroy_lock(omp_lock_t * _Lock):
14.void omp_destroy_nest_lock(omp_nest_lock_t * _Lock):结束一个(嵌套)互斥锁的使用并释放内存。
15.void omp_set_lock(omp_lock_t * _Lock);
16.void omp_set_nest_lock(omp_nest_lock_t * _Lock);获得一个(嵌套)互斥锁.
17.void omp_unset_lock(omp_lock_t * _Lock):
18.void omp_unset_nest_lock(omp_nest_lock_t * _Lock):释放一个(嵌套)互斥锁。
19.int omp_test_lock(omp_lock_t * _Lock):
20.int omp_test_nest_lock(omp_nest_lock_t * _Lock):试图获得一个(嵌套)互斥锁,并在成功时放回真(true),失败是返回假(false)。
21.double omp_get_wtime(void):获取wall clock time,返回一个double的数,表示从过去的某一时刻经历的时间,一般用于成对出现,进行时间比较。 此函数得到的时间是相对于线程的,也就是每一个线程都有自己的时间。
22.double omp_get_wtick(void):得到clock ticks的秒数。
三、环境变量
OpenMP的第三部分是环境变量,如下
1、OMP_SCHEDULE
仅适用于DO,PARALLEL DO(Fortran)和
(C / C ++)指令并行,它们的schedule子句设置为RUNTIME。此变量的值确定如何在处理器上调度循环的迭代。例如:
export OMP_SCHEDULE="guided, 4"
export OMP_SCHEDULE="dynamic"
2、OMP_NUM_THREADS
设置执行期间要使用的最大线程数。例如:
```
export OMP_NUM_THREADS=8
```
3、OMP_DYNAMIC
启用或禁用动态调整可用于执行并行区域的线程数。有效值为TRUE或FALSE。例如
export OMP_DYNAMIC=TRUE
4、OMP_PROC_BIND
启用或禁用绑定到处理器的线程。有效值为TRUE或FALSE。例如:
export OMP_PROC_BIND=TRUE
5、OMP_NESTED
启用或禁用嵌套并行性。有效值为TRUE或FALSE。例如:
export OMP_NESTED=TRUE
6、OMP_STACKSIZE
控制创建(非主)线程的堆栈大小。例如
export OMP_STACKSIZE=2000500B
export OMP_STACKSIZE="3000 k "
export OMP_STACKSIZE=10M
export OMP_STACKSIZE=" 10 M "
export OMP_STACKSIZE="20 m "
export OMP_STACKSIZE=" 1G"
export OMP_STACKSIZE=20000
7、OMP_WAIT_POLICY
提供有关等待线程的所需行为的OpenMP实现的提示。兼容的OpenMP实现可能会也可能不会遵守环境变量的设置。有效值为ACTIVE和PASSIVE。ACTIVE指定等待线程应该主动处于活动状态,即在等待时消耗处理器周期。PASSIVE指定等待线程应该主要是被动的,即在等待时不消耗处理器周期。ACTIVE和PASSIVE行为的细节是实现定义的。例子:
export OMP_WAIT_POLICY=ACTIVE
export OMP_WAIT_POLICY=active
export OMP_WAIT_POLICY=PASSIVE
export OMP_WAIT_POLICY=passive
8、OMP_MAX_ACTIVE_LEVELS
控制嵌套活动并行区域的最大数量。此环境变量的值必须是非负整数。如果请求的OMP_MAX_ACTIVE_LEVELS值大于实现可以支持的嵌套活动并行级别的最大数量,或者该值不是非负整数,则程序的行为是实现定义的。例:
export OMP_MAX_ACTIVE_LEVELS=2
9、OMP_THREAD_LIMIT
设置要用于整个OpenMP程序的OpenMP线程数。此环境变量的值必须是正整数。如果请求的OMP_THREAD_LIMIT值大于实现可以支持的线程数,或者该值不是正整数,则程序的行为是实现定义的。例:
export OMP_THREAD_LIMIT=8
> 袅袅城边柳, 青青陌上桑。 提笼忘采叶, 昨夜梦渔阳。
> *--张仲素 《春闺思》*
OpenMP笔记(二)的更多相关文章
- 《CMake实践》笔记二:INSTALL/CMAKE_INSTALL_PREFIX
<CMake实践>笔记一:PROJECT/MESSAGE/ADD_EXECUTABLE <CMake实践>笔记二:INSTALL/CMAKE_INSTALL_PREFIX &l ...
- jQuery源码笔记(二):定义了一些变量和函数 jQuery = function(){}
笔记(二)也分为三部分: 一. 介绍: 注释说明:v2.0.3版本.Sizzle选择器.MIT软件许可注释中的#的信息索引.查询地址(英文版)匿名函数自执行:window参数及undefined参数意 ...
- Mastering Web Application Development with AngularJS 读书笔记(二)
第一章笔记 (二) 一.scopes的层级和事件系统(the eventing system) 在层级中管理的scopes可以被用做事件总线.AngularJS 允许我们去传播已经命名的事件用一种有效 ...
- Python 学习笔记二
笔记二 :print 以及基本文件操作 笔记一已取消置顶链接地址 http://www.cnblogs.com/dzzy/p/5140899.html 暑假只是快速过了一遍python ,现在起开始仔 ...
- WPF的Binding学习笔记(二)
原文: http://www.cnblogs.com/pasoraku/archive/2012/10/25/2738428.htmlWPF的Binding学习笔记(二) 上次学了点点Binding的 ...
- webpy使用笔记(二) session/sessionid的使用
webpy使用笔记(二) session的使用 webpy使用系列之session的使用,虽然工作中使用的是django,但是自己并不喜欢那种大而全的东西~什么都给你准备好了,自己好像一个机器人一样赶 ...
- AJax 学习笔记二(onreadystatechange的作用)
AJax 学习笔记二(onreadystatechange的作用) 当发送一个请求后,客户端无法确定什么时候会完成这个请求,所以需要用事件机制来捕获请求的状态XMLHttpRequest对象提供了on ...
- 《MFC游戏开发》笔记二 建立工程、调整窗口
本系列文章由七十一雾央编写,转载请注明出处. http://blog.csdn.net/u011371356/article/details/9300383 作者:七十一雾央 新浪微博:http:/ ...
- JavaScript基础笔记二
一.函数返回值1.什么是函数返回值 函数的执行结果2. 可以没有return // 没有return或者return后面为空则会返回undefined3.一个函数应该只返回一种类型的值 二.可变 ...
随机推荐
- Spring入门之四-------SpringIoC之其他知识点
一.懒加载 public class Bean1 { public Bean1() { System.out.println(this.getClass().getSimpleName() + &qu ...
- Java8系列 (四) 静态方法和默认方法(转载)
静态方法和默认方法 我们可以在 Comparator 接口的源码中, 看到大量类似下面这样的方法声明 //default关键字修饰的默认方法 default Comparator<T> t ...
- cf749 D. Leaving Auction
#include<bits/stdc++.h> #define lowbit(x) x&(-x) #define LL long long #define N 200005 #de ...
- CharacterEncodingFilter这个spring的过滤器
org.springframework.web.filter.CharacterEncodingFilter 对请求于响应的编码进行过滤,半路出家的和尚总是对什么都感觉到好奇,都想记录下来(
- 一百零三、SAP中常量的定义CONSTANTS
一.代码如下 二.运行效果如下
- (转) Spring 3 报org.aopalliance.intercept.MethodInterceptor问题解决方法
http://blog.csdn.net/henuhaigang/article/details/13678023 转自CSDN博客,因为一个jar包没引入困扰我好长时间 ,当时正在做spring A ...
- ROS2学习日志:TurtleSim测试日志(基于ROS2 Eloquent Elusor)
TurtleSim测试日志(基于ROS2 Eloquent Elusor) 1.ros2 run 1.1 ros2 run turtlesim turtlesim_node --ros-args -- ...
- UVA - 1643 Angle and Squares (角度和正方形)(几何)
题意:第一象限里有一个角,把n(n <= 10)个给定边长的正方形摆在这个角里(角度任意),使得阴影部分面积尽量大. 分析:当n个正方形的对角线在一条直线上时,阴影部分面积最大. 1.通过给定的 ...
- 洛谷 P1043 数字游戏
题目传送门 解题思路: 跟石子合并差不多,区间DP(环形),用f[i][j][s]表示从i到j分成s段所能获得的最大答案,枚举断点k,则f[i][j][s] = min(f[i][j][s],f[i] ...
- jq监听
$(window).resize(function () {//风电月表格自适应高度 var handHeight =$(".tree-handler").height() $(& ...