MPI编程简介[转]
原文地址http://blog.csdn.net/qinggebuyao/article/details/8059300
3.1 MPI简介
多线程是一种便捷的模型,其中每个线程都可以访问其它线程的存储空间。因此,这种模型只能在共享存储系统之间移植。一般来讲,并行机不一定在各处理器之间共享存储,当面向非共享存储系统开发并行程序时,程序的各部分之间通过来回传递消息的方式通信。要使得消息传递方式可移植,就需要采用标准的消息传递库。这就促成的消息传递接口(Message Passing Interface, MPI)的面世,MPI是一种被广泛采用的消息传递标准[1]。
与OpenMP并行程序不同,MPI是一种基于消息传递的并行编程技术。消息传递接口是一种编程接口标准,而不是一种具体的编程语言。简而言之,MPI标准定义了一组具有可移植性的编程接口。各个厂商或组织遵循这些标准实现自己的MPI软件包,典型的实现包括开放源代码的MPICH、LAM MPI以及不开放源代码的Intel MPI。由于MPI提供了统一的编程接口,程序员只需要设计好并行算法,使用相应的MPI库就可以实现基于消息传递的并行计算。MPI支持多种操作系统,包括大多数的类UNIX和Windows系统。
3.1.1如何实现MPI
MPI是一个标准。它不属于任何一个厂商,不依赖于某个操作系统,也不是一种并行编程语言。不同的厂商和组织遵循着这个标准推出各自的实现,而不同的实现也会有其不同的特点。MPICH是影响最大、用户最多的MPI实现。目前可下载的最新的MPICH软件包为MPICH1.2.7pl和2008年2月15日发布的MPICH 2-1.0.7测试版(我使用的是MPICH 2-1.0.6pl),在http://www.mcs.anl.gov/research/projects/mpich2/index.php可以下载到,分别有支持UNIX和Windows的32位和64位版本。
3.1.2 MPI程序的特点
MPI程序是基于消息传递的并行程序。消息传递指的是并行执行的各个进程具有自己独立的堆栈和代码段,作为互不相关的多个程序独立执行,进程之间的信息交互完全通过显示地调用通信函数来完成。
3.2 MPICH的安装和配置
我使用的MPICH2安装文件是mpich2-1.0.6p1-win32-ia32.msi,在Windows下安装MPICH2比较简单,但是要有Microsoft .NET Framework 2.0的支持。安装基本上只要单击“Next”即可。在安装过程中会提示输入进程管理器的密码,这个密码被用来访问所有的程序,这里使用的密码为admin。
安装完成后,安装目录下的include子目录包含了编程所需要的所有头文件,lib子目录包含了相应的程序库,而子目录bin则包含了MPI在Windows下面必须的运行程序。运行时需要的动态链接库被安装在了Windows系统目录中。在Windows平台下可以使用Microsoft Visual Studio来开发MPI程序,下面举例说明。
首先,新建一个Win32控制台项目,然后将MPICH2安装目录下的include
图3-1 配置头文件目录
子目录加入到头文件目录中。在VS 2005的菜单 工具->选项->项目解决方案->VC++目录对话框中添加include子目录,如图3-1所示。再用相同的方法将MPICH2\lib加入到库文件目录中,如图3-2。
图3-2 配置库文件目录
为了避免名字冲突,需要在预编译头文件stdafx.h中加入#inlcude mpi.h语句。现在就可以在主程序文件中编写MPI程序了,MPI的开发环境配置完毕。
3.3 在Windows下如何运行MPI程序
我所进行的MPI程序的开发均是在Windows平台下,使用Visual Studio 2005 + MPIEXEC wrapper 进行的,首先用一个简单的Hello World 程序说明运行环境的配置。
按照上一小节介绍配置好开发环境之后,在VS 2005中新建立一个Win32 控制台项目,并取名MPI1,在MPI1.CPP文件中输入下面的程序。在项目属性的“配置属性”->“常规”项中的“字符集”设置为“未设置”,如图3-3所示。
例3_1
int _tmain(int argc, _TCHAR* argv[])
{ int rank, size;
MPI_Init(&argc, &argv);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
MPI_Comm_size(MPI_COMM_WORLD, &size);
printf("Hello World from thread %d of %d\n", rank, size);
MPI_Finalize();
return 0;
}
这个程序比较简单,在函数MPI_Init()和MPI_Finalize()之间是程序并行执行的地方,MPI_Init()、MPI_Comm_rank()、MPI_Comm_size()和MPI_Finalize(),这四个函数是MPI中最重要和最常用的函数。下面分别说明:
图3-3 配置项目属性
(1) MPI_Init和MPI_Finalize
MPI_Init用来初始化MPI执行环境,建立多个MPI进程之间的联系,为后续通信做准备。而MPI_Finalize则是结束MPI执行环境。这两个函数就是定义MPI程序的并行区的,除了检测是否初始化的函数之外,不应该在这两个函数定义的区域外调用其它MPI函数。这两个函数都返回整型值,标识函数是否调用成功。
(2) MPI_Comm_rank
MPI_Comm_rank函数就是用来标识各个MPI进程的,给出调用该函数的进程的进程号。MPI_Comm_rank返回整型的错误值,需要提供两个参数:
l MPI_Comm类型的通信域,标识参与计算的MPI进程组。上面例子中使用的是MPI_COMM_WORLD,这个进程组是MPI实现预先定义好的进程组,指的是所有MPI进程所在的进程组。如果想要申请自己的特殊的进程组,则需要通过MPI_Comm定义并通过其它MPI函数生成。
l &rank返回调用进程中的标识号。
MPI还定义了另一个进程组MPI_COMM_SELF,只包含各个进程自己的进程组。
(3) MPI_Comm_size
这个函数则用来标识相应进程组中有多少个进程,它也有两个参数:
l MPI_Comm类型的通信域,标识参与计算的MPI进程组。上面的例子中用的是MPI_COMM_WORLD。
l &size返回相应进程组中的进程数。
运行这个程序,运行结果如图3-4,按照并行执行的方式,上面程序运行结果应该打印两行文字信息,为:
Hello World from thread 0 of 2
Hello World from thread 1 of 2
图 3-4 例3_1在windows上的运行结果
(本机系统环境变量OMP_NUM_THREADS值是2),但是运行结果确只打印了一行,显然函数MPI_Init和MPI_Finalize之间的代码仅被一个线程串行执行了。经过查询资料知道,MPI程序若要被正确运行需要使用MPICH2安装目录下的运行工具MPIEXEC wrapper运行用VS 2005生成的exe文件。启动这个程序,程序的界面如图3-5
图 3-5 MPIEXEC wrapper程序界面
由于该程序只有操作系统的管理员才有权使用,所以在第一次运行时需要输入计算机用户名和口令,并且不允许口令为空,如图3-6。输入完毕后,单击“Register”按钮完成注册,之后就可以使用该工具运行MPI程序了。
在“Application”栏中选择要运行的exe程序,在“Number of process”栏中选择要运行程序的线程数,然后单击“Execute”按钮运行程序。如用4线程运行上面的示例程序,输出结果如图3-7所示。
图 3-6 输入系统用户名和口令
图 3-7 使用MPIEXEC wrapper运行例3_1的结果
4线程分别执行MPI_Init和MPI_Finalize之间的代码,打印4行信息,程序执行结果正确。
3.4 MPI的点对点通信
点对点通信是MPI程序的基础,MPI_Send和MPI_Recv是两个最重要的函数。这两个函数的标准形式是:
l int MPI_Send(buf, counter, datatype, dest, tag, comm)
参数作用如下:
buf:发送缓冲区的起始地址,可以是数组或结构指针
count:非负整数,发送的数据个数
datatype:发送数据的数据类型
dest:整型,目的的进程号
tag:整型,消息标志
comm:MPI进程组所在的通信域
这个函数返回整型的错误码,它的含义是向通信域中的dest进程发送数据,数据存放在buf中,类型是datatype,个数是count,这个消息的标志是tag,用以和本进程向同一目的进程发送的其它消息区别开来。
l int MPI_Recv(buf, count, datatype, source, tag, comm, status)
参数作用如下:
buf:接收缓冲区的起始地址,可以是数组或结构指针
count:非负整数,最多可接收的数据个数
datatype:接收数据的数据类型
source:整型,接收数据的来源,即发送数据进程的进程号
tag:整型,消息标识,应与发送操作的消息标识相同
comm:消息接收进程所在的通信域
status:MPI_Status结构指针,返回状态信息
这个函数返回整型的错误码,它的含义是进程从comm域中source进程接收标签号为tag的数据,并保存到buf中。接收缓冲区buf的大小不能小于发送过来的消息的长度。否则会由于数组越界导致程序出错。参数status是MPI_Status类型的,status主要显示接收函数的各种错误状态。通过访问status.MPI_SOURCE、status.MPI_TAG和status.MPI_ERROR就可以得到发送数据的进程号、使用的标签以及接收操作的错误代码。另外,还可以使用函数MPI_Get_count来获得实际接收到的数据项数。MPI_Get_count的标准定义为:int MPI_Get_count(MPI_Status *status, MPI_Datatype datatype, int *count);将实际接收到数据项数存放到count中。下面用一个程序说明上面提到的函数的使用方法。
示例程序见例3_2
程序的运行结果如图3-8(4个进程)
函数MPI_Get_processor_name用于获得计算机名,并存放在processor_name中,长度为namelen,宏定义MPI_MAX_PROCESSOR_NAME是机器名的最大长度。这个程序的完成的任务是使进程i发送数据给进程i+1,并等待由进程i-1发送来的数据。最后一个进程则发送数据给进程0。
3.5统计时间函数
为了验证程序并行化后的效果,MPI提供了两个用于统计时间的函数 MPI_Wtime和MPI_Wtick。其中MPI_Wtime返回一个双精度数,表示从过去某点的时刻到当前时刻所消耗的时间秒数。而函数MPI_Wtick则返回MPI_Wtime结果的精度。修改例3_2程序,在并行代码两端加入统计时间的函数,如例3_3:
例 3_3(完整程序见示例程序4_3)
begin = MPI_Wtime();
end = MPI_Wtime();
diff = end - begin;
printf("%d process time is %9.7f\n", myid, diff);
printf("%d process tick is %9.7f\n", myid, MPI_Wtick());
}
运行结果如图3-9:
图 3-8 例3_2的运行结果
图 3-9 例3_3的运行结果
3.6负载均衡对程序性能的影响
在并行计算中,如果各个处理器上的工作所需要的完成时间不同,则会使先完成工作的处理器等待未完成工作的处理器,浪费了计算资源。这时应该使各个处理器的负载尽量均衡。一般采用的策略有两种:静态负载平衡和动态负载平衡。前者适用于计算前可以准确知道负载,而且这些负载容易平均划分给各个进程的情况。而对于事先不知道负载情况,或者总负载不易划分的情况,则需要采用动态负载划分来解决。在动态负载平衡模式中存在一个管理结点负责给各个进程分配任务,当一个进程完成当前的计算任务后,它就向管理结点申请新的任务,如果还有未分配的任务,管理结点就将任务分配给那个进程,这有点类似于计算机硬件向CPU发中断请求服务的方式。
3.7 开发实例
下面将在Windows平台上使用MPI编写一个用数值积分法计算圆周率的程序。利用公式PI=
的近似值计算圆周率[7],定积分的计算可以转化为求一个曲边梯形的面积问题。将积分区间等分成n个小的子区间,可将每个小的子区间上的曲边梯形近似地看成矩形,这些矩形面积的和就近似地等于原来曲边梯形的面积。这样最终将求圆周率的问题转化成了一个面积迭加的计算。每个小矩形的宽为
(n为将积分区间等分的份数),高可以将x值带入函数
求得。用循环将每个小矩形的面积累加起来便是PI的近似值。具体的算法实现见附加中的程序“mpi_pi”。图3-10、3-11分别是用一个进程和两个进程运行的结果。
图3-10 使用一个进程的运行结果
图3-11 使用两个进程的运行结果
从运行结果可以看到使用两个进程时的计算速度反而不如用一个进程运行时的速度,这时由于本程序的计算规模不大,另外引入一个进程的开销大于程序并行所带来的益处,所以进程数越多反而程序的运行速度越慢。看下面一组数据[8](表3-1)
计算机数 |
计算时间 |
1 |
1.63643 |
2 |
0.83180 |
3 |
0.55622 |
这组数据是在不同的硬件平台下实现本开发实例程序的计算时间。运行环境为3 台计算机组成的集群, 配置均为CPU : Intel PentiumIII 733MHz,相同的算法,随着参与计算的机器数增加,计算时间减少。
MPI是针对分布式计算机系统提出的,它采用非共
表3-1 享内存的方式利用多进程完成并行任务,当计算规模不大或处理器数量不多时,更多进程的维护会增加系统的开销,而且进程之间的通信存在延时。它比较适合集群计算机系统。
3.8 小结
本章对MPI编程进行了初步研究,介绍了MPI程序的特点、软件包的安装、MPI程序的运行方式。
MPI是一种基于消息传递的并行编程技术,而不是一种具体的编程语言。MPI程序与OpenMP程序的最大不同就是MPI程序不仅可以适用多线程的方式并行运算还可以让程序以多进程的方式执行,以这种方式执行的程序并不共享内存,各个进程是通过消息传递来进行通信的。这样做的好处是完成某一计算任务的不同进程可以运行在不同处理器上(不只是处理器的不同核上),甚至是不同的结点计算机上,方便分布式计算系统的构建。在多核上使用MPI可以采用两种方式,一种是在多核平台上开发传统的多进程MPI并行程序,一个核执行一个MPI进程。另外一种方式是采用MPI + OpenMP的方法,在结点内采用多线程方式,结点间采用MPI多进程方式。
转自:http://blog.csdn.net/gexplore/article/details/7078832
MPI编程简介[转]的更多相关文章
- MPI编程简单介绍
第三章MPI编程 3.1 MPI简单介绍 多线程是一种便捷的模型,当中每一个线程都能够訪问其他线程的存储空间.因此,这样的模型仅仅能在共享存储系统之间移植.一般来讲,并行机不一定在各处理器之间共享存储 ...
- MPI编程的常用接口速查
获取当前时间 在插入MPI提供的头文件后,可以获得获取时间的函数. double MPI_Wtime(void) 取得当前时间, 计时的精度由 double MPI_Wtick(void) 取得作为对 ...
- UNIX网络编程---简介
UNIX网络编程---简介 一. 概述 a) 在编写与计算机通信的程序时,首先要确定的就是和计算机通信的协议,从高层次来确定通信由哪个程序发起以及响应在合适产生.大多数 ...
- 《编程简介(Java) ·10.3递归思想》
<编程简介(Java) ·10.3递归思想> 10.3.1 递归的概念 以两种方式的人:男人和女人:算法是两种:递归迭代/通知: 递归方法用自己的较简单的情形定义自己. 在数学和计算机科学 ...
- MPI编程简述
第三章MPI计划 3.1 MPI简单介绍 多线程是一种便捷的模型,当中每一个线程都能够訪问其他线程的存储空间.因此,这样的模型仅仅能在共享存储系统之间移植. 一般来讲,并行机不一定在各处理器之间共享存 ...
- win32编程简介
win32编程简介 复习Win32整理下知识. 为什么学习win32? 我们要编写windos程序.都离不开API. 也就是我们所说的win32程序. 所以学好win32是你能不能再windows下编 ...
- 【Unix网络编程】chapter3套接字编程简介
chapter3套接字编程简介3.1 概述 地址转换函数在地址的文本表达和他们存放在套接字地址结构中的二进制值之间进行转换.多数现存的IPv4代码使用inet_addr和inet_ntoa这两个函数, ...
- 【Unix网络编程】chapter3 套接字编程简介
chapter3套接字编程简介3.1 概述 地址转换函数在地址的文本表达和他们存放在套接字地址结构中的二进制值之间进行转换.多数现存的IPv4代码使用inet_addr和inet_ntoa这两个函数, ...
- 黑客编程教程(二)Win API编程简介
第二节 Win API编程简介 下面介绍一下WIN API. 我们需要自己编写一个工具时,必然会用到很多操作windows和控制windows的函数,这些函数就是windows API. API是Ap ...
随机推荐
- Linux 中 sudo、su命令
sudo : 暂时切换到超级用户模式以执行超级用户权限,提示输入密码时该密码为当前用户的密码,而不是超级账户的密码.不过有时间限制,Ubuntu默认为一次时长15分钟.su : 切换到某某用户模式,提 ...
- Erlang虚拟机的启动
Erlang虚拟机的启动 erl实际上是一个shell脚本,设置几个环境变量之后,调用执行erlexec.erlexec的入口点在 otp_src_R15B01/erts/etc/common/erl ...
- 算法系列——huffman编码
哈夫曼编码,旨在对信息实现一种高效的编码,这种编码中任何一个都不是其他编码的前缀码.因此,在实际接收时,一旦匹配,就可以立即解码. 具体算法过程可以参加网上的很多教程. 给出一个自己的实现,一方面加强 ...
- CodeForces 711D Directed Roads
计数,模拟. 首先观察一下给出的图的特点: $1.$一定存在环. $2.$可能存在多个环. 我们对每个环计算方案数,假设环$C$上包含$x$条边,那么把环$C$破坏掉的方案数有${2^x} - 2$种 ...
- 跑github上的Symfony项目遇到的问题2
最近学习symfony框架,下载了大量的github上的别人的项目,要想跑起别人的项目,总结了以下几个步骤: 第一, 克隆一份代码; 第二,安装依赖,前提是安装了composer, 1:在你下载的项目 ...
- js作用域详解
// 作用域:(1)域:空间.范围.区域…… (2) 作用:读.写 script 全局变量.全局函数 自上而下 函数 由里到外 浏览器: “JS解析器” 1)“找一些东西” :var func ...
- 浙大pat 1012题解
1012. The Best Rank (25) 时间限制 400 ms 内存限制 32000 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue To eval ...
- [SOJ] 无路可逃?
Description 唐僧被妖怪关在迷宫中.孙悟空好不容易找到一张迷宫地图,并通过一个魔法门来到来到迷宫某个位置.假设迷宫是一个n*m的矩阵,它有两种地形,1表示平地,0表示沼泽,孙悟空只能停留在平 ...
- 大数据揭示的10个常见JAVA编程错误
初学者最常犯的编程错误是什么呢?有可能他们总是混淆等值(==)与赋值(=),或者 & 和 &&:也有可能是他们在循环中使用错误的分隔符(for (int i = 0, i &l ...
- 从excel读数据到informix的Found a quote for which there is no matching quote错误
我从excel读取数据,然后存储到Informix数据库里.偶尔会发现出现Found a quote for which there is no matching quote这个错误.调试后发现,是因 ...