MPI学习笔记(二):矩阵相乘的两种实现方法
mpi矩阵乘法(C=αAB+βC)
最近领导让把之前安装的软件lapack、blas里的dgemm运算提取出来独立作为一套程序,然后把这段程序改为并行的,并测试一下进程规模扩展到128时的并行效率。
我发现这个是dgemm.f文件,里面主要是对C=αAB+βC的实现,因此在此总结一下MPI的矩阵乘法使用。
其主要思想:是把相乘的矩阵按行分解(任务分解),分别分给不同的进程,然后在汇总到一个进程上,在程序上实现则用到了主从模式,人为的把进程分为主进程和从进程,主进程负责对原始矩阵初始化赋值,并把数据均匀分发(为了负载均衡)到从进程上进行相乘运算,主要用到的知识是MPI点对点通信和组通信的机制。
一、使用简单的MPI_Send和MPI_Recv实现
#include <stdio.h>
#include "mpi.h"
#include <stdlib.h>
#include "functions.h" #define M 1000 // 矩阵维度
#define N 1100
#define K 900 int main(int argc, char **argv)
{
int my_rank,comm_sz,line;
double start, stop; //计时时间
MPI_Status status;
char Processorname[20]; double *Matrix_A,*Matrix_B,*Matrix_C,*ans,*buffer_A,*buffer_C;
double alpha=2,beta=2; // 系数C=aA*B+bC MPI_Init(&argc,&argv);
MPI_Comm_size(MPI_COMM_WORLD, &comm_sz);
MPI_Comm_rank(MPI_COMM_WORLD,&my_rank); line=M/comm_sz; // 每个进程分多少行数据
Matrix_A=(double*)malloc(M*N*sizeof(double));
Matrix_B=(double*)malloc(N*K*sizeof(double));
Matrix_C=(double*)malloc(M*K*sizeof(double));
buffer_A=(double*)malloc(line*N*sizeof(double)); // A的均分行的数据
buffer_C=(double*)malloc(line*K*sizeof(double)); // C的均分行的数据
ans=(double*)malloc(line*K*sizeof(double)); // 临时保存部分数据计算结果 // 给矩阵A B,C赋值
if(my_rank==0){
start=MPI_Wtime();
for(int i=0;i<M;i++){
for(int j=0;j<N;j++)
Matrix_A[i*N+j]=i+1;
}
for(int i=0;i<N;i++){
for(int j=0;j<K;j++)
Matrix_B[i*K+j]=j+1;
}
for(int i=0;i<M;i++){
for(int j=0;j<K;j++)
Matrix_C[i*K+j]=1;
} // 输出A,B,C
/*Matrix_print(Matrix_A,M,N);
Matrix_print(Matrix_B,N,K);
Matrix_print(Matrix_C,M,K);
*/
/*将矩阵广播出去*/
for(int i=1;i<comm_sz;i++){
MPI_Send(Matrix_A+(i-1)*line*N,line*N,MPI_DOUBLE,i,66,MPI_COMM_WORLD);
MPI_Send(Matrix_C+(i-1)*line*K,line*K,MPI_DOUBLE,i,99,MPI_COMM_WORLD);
}
MPI_Bcast(Matrix_B,N*K,MPI_DOUBLE,0,MPI_COMM_WORLD); // 接收从进程的计算结果
for(int p=1;p<comm_sz;p++){
MPI_Recv(ans,line*K,MPI_DOUBLE,p,33,MPI_COMM_WORLD,&status);
for(int i=0;i<line;i+=comm_sz)
for(int j=0;j<K;j++)
Matrix_C[((p-1)*line+i)*K+j]=ans[i*K+j];
} // 计算A剩下的行数据
for(int i=(comm_sz-1)*line;i<M;i++){
for(int j=0;j<K;j++){
double temp=0;
for(int p=0;p<N;p++)
temp+=Matrix_A[i*N+p]*Matrix_B[p*K+j];
Matrix_C[i*K+j]=alpha*temp+beta*Matrix_C[i*K+j];
}
} //Matrix_print(Matrix_C,M,K);
stop=MPI_Wtime(); printf("rank:%d time:%lfs\n",my_rank,stop-start); free(Matrix_A);
free(Matrix_B);
free(Matrix_C);
free(buffer_A);
free(buffer_C);
free(ans);
}
else{
//接收广播的数据
MPI_Recv(buffer_A,line*N,MPI_DOUBLE,0,66,MPI_COMM_WORLD,&status);
MPI_Recv(buffer_C,line*K,MPI_DOUBLE,0,99,MPI_COMM_WORLD,&status);
MPI_Bcast(Matrix_B,N*K,MPI_DOUBLE,0,MPI_COMM_WORLD); //计算乘积结果,并将结果发送给主进程
for(int i=0;i<line;i++){
for(int j=0;j<K;j++){
double temp=0;
for(int p=0;p<N;p++){
temp+=buffer_A[i*N+p]*Matrix_B[p*K+j];
}
ans[i*line+j]=alpha*temp+beta*buffer_C[i*K+j];
}
}
MPI_Send(ans,line*K,MPI_DOUBLE,0,33,MPI_COMM_WORLD);
} MPI_Finalize();
return 0;
}
二、使用较高级的MPI_Scatter和MPI_Gather实现
#include <stdio.h>
#include "mpi.h"
#include <stdlib.h>
#include "functions.h" #define M 1200 // 矩阵维度
#define N 1000
#define K 1100 int main(int argc, char **argv)
{
int my_rank,comm_sz,line;
double start, stop; //计时时间
MPI_Status status; double *Matrix_A,*Matrix_B,*Matrix_C,*ans,*buffer_A,*buffer_C,*result_Matrix;
double alpha=2,beta=2; // 系数C=aA*B+bC MPI_Init(&argc,&argv);
MPI_Comm_size(MPI_COMM_WORLD, &comm_sz);
MPI_Comm_rank(MPI_COMM_WORLD,&my_rank); line=M/comm_sz; // 每个进程分多少行数据
Matrix_A=(double*)malloc(M*N*sizeof(double));
Matrix_B=(double*)malloc(N*K*sizeof(double));
Matrix_C=(double*)malloc(M*K*sizeof(double));
buffer_A=(double*)malloc(line*N*sizeof(double)); // A的均分行的数据
buffer_C=(double*)malloc(line*K*sizeof(double)); // C的均分行的数据
ans=(double*)malloc(line*K*sizeof(double)); // 保存部分数据计算结果
result_Matrix=(double*)malloc(M*K*sizeof(double)); // 保存数据计算结果 // 给矩阵A B,C赋值
if(my_rank==0){
start=MPI_Wtime();
for(int i=0;i<M;i++){
for(int j=0;j<N;j++)
Matrix_A[i*N+j]=i+1;
for(int p=0;p<K;p++)
Matrix_C[i*K+p]=1;
}
for(int i=0;i<N;i++){
for(int j=0;j<K;j++)
Matrix_B[i*K+j]=j+1;
} // 输出A,B,C
//Matrix_print(Matrix_A,M,N);
//Matrix_print(Matrix_B,N,K);
//Matrix_print(Matrix_C,M,K);
} // 数据分发
MPI_Scatter(Matrix_A,line*N,MPI_DOUBLE,buffer_A,line*N,MPI_DOUBLE,0,MPI_COMM_WORLD);
MPI_Scatter(Matrix_C,line*K,MPI_DOUBLE,buffer_C,line*K,MPI_DOUBLE,0,MPI_COMM_WORLD);
// 数据广播
MPI_Bcast(Matrix_B,N*K,MPI_DOUBLE,0,MPI_COMM_WORLD); // 计算 结果
for(int i=0;i<line;i++){
for(int j=0;j<K;j++){
double temp=0;
for(int p=0;p<N;p++)
temp+=buffer_A[i*N+p]*Matrix_B[p*K+j];
ans[i*K+j]=alpha*temp+beta*buffer_C[i*K+j];
}
}
// 结果聚集
MPI_Gather(ans,line*K,MPI_DOUBLE,result_Matrix,line*K,MPI_DOUBLE,0,MPI_COMM_WORLD); // 计算A剩下的行数据
if(my_rank==0){
int rest=M%comm_sz;
if(rest!=0){
for(int i=M-rest-1;i<M;i++)
for(int j=0;j<K;j++){
double temp=0;
for(int p=0;p<N;p++)
temp+=Matrix_A[i*N+p]*Matrix_B[p*K+j];
result_Matrix[i*K+j]=alpha*temp+beta*Matrix_C[i*K+j];
}
} //Matrix_print(result_Matrix,M,K);
stop=MPI_Wtime(); printf("rank:%d time:%lfs\n",my_rank,stop-start);
} free(Matrix_A);
free(Matrix_B);
free(Matrix_C);
free(ans);
free(buffer_A);
free(buffer_C);
free(result_Marix); MPI_Finalize();
return 0;
}
三、结果分析
下图为上面两种方法的耗时:
1、 执行时间分析:
并行时,随着进程数目的增多,并行计算的时间越来越短;当达到一定的进程数时,执行时间小到最小值;然后再随着进程数的增多,执行时间反而越来越长。
2、加速比分析:
随着进程数的增大,加速比也是逐渐增大到最大值;再随着进程数的增大,加速比逐渐减小。
3、执行效率分析:
随着进程数的增大,程序执行效率不断降低
由于消息传递需要成本,而且不是每个进程都同时开始和结束,所以随着进程数的上升,平均每进程的效率下降
四、头文件functions.h内容
/********** 输出函数 **********/
void Matrix_print(double *A,int M,int N)
{
for(int i=0;i<M;i++){
for(int j=0;j<N;j++)
printf("%.1f ",A[i*N+j]);
printf("\n");
}
printf("\n");
}
结束。
MPI学习笔记(二):矩阵相乘的两种实现方法的更多相关文章
- javaweb学习总结(二十一)——JavaWeb的两种开发模式
SUN公司推出JSP技术后,同时也推荐了两种web应用程序的开发模式,一种是JSP+JavaBean模式,一种是Servlet+JSP+JavaBean模式. 一.JSP+JavaBean开发模式 1 ...
- Linux学习笔记21——线程同步的两种方式
一 用信号量同步 1 信号量函数的名字都以sem_开头,线程中使用的基本信号量函数有4个 2 创建信号量 #include<semaphore.h> int sem_init(sem_t ...
- python学习笔记30(全局变量的两种解决办法)
先看程序: >>> count = 0 >>> def fuc(count): print count count +=1 >>> for i i ...
- LINUX编程学习笔记(十三) 遍历目录的两种方法
1 默认情况下 实际用户和有效用户是一样的 实际用户:执行用户 有效用户:权限用户 getuid() 实际用户 geteuid() 有效用户 chmod u+s 之后 ,其他人执行文件时,实际 ...
- TensorFlow+实战Google深度学习框架学习笔记(10)-----神经网络几种优化方法
神经网络的优化方法: 1.学习率的设置(指数衰减) 2.过拟合问题(Dropout) 3.滑动平均模型(参数更新,使模型在测试数据上更鲁棒) 4.批标准化(解决网络层数加深而产生的问题---如梯度弥散 ...
- Spring学习笔记:spring与mybatis四种整合方法
1.采用数据映射器(MapperFactoryBean)的方式,不用写mybatis映射文件,采用注解方式提供相应的sql语句和输入参数. (1)Spring配置文件: <!-- 引入jdbc ...
- tensorflow学习笔记二:入门基础 好教程 可用
http://www.cnblogs.com/denny402/p/5852083.html tensorflow学习笔记二:入门基础 TensorFlow用张量这种数据结构来表示所有的数据.用一 ...
- [Firefly引擎][学习笔记二][已完结]卡牌游戏开发模型的设计
源地址:http://bbs.9miao.com/thread-44603-1-1.html 在此补充一下Socket的验证机制:socket登陆验证.会采用session会话超时的机制做心跳接口验证 ...
- java之jvm学习笔记二(类装载器的体系结构)
java的class只在需要的时候才内转载入内存,并由java虚拟机的执行引擎来执行,而执行引擎从总的来说主要的执行方式分为四种, 第一种,一次性解释代码,也就是当字节码转载到内存后,每次需要都会重新 ...
随机推荐
- 使用 HDFS 协议访问对象存储服务
背景介绍 原生对象存储服务的索引是扁平化的组织形式,在传统文件语义下的 List 和 Rename 操作性能表现上存在短板.腾讯云对象存储服务 COS 通过元数据加速功能,为上层计算业务提供了等效于 ...
- arthas学习图文记录
Arthas 是阿里开源的 Java 诊断工具.在线排查问题,无需重启:动态跟踪 Java 代码:实时监控 JVM 状态.Arthas 支持 JDK 6+,支持 Linux/Mac/Windows,采 ...
- 嵌入:CAN
说下我的学习过程.刚到公司的时候我根本不知道什么是CAN,甚至连以太网和串口通讯都不懂.领导把USBCAN分析仪拿给我,把铜线短接上,用软件在CAN1窗口点下发送,CAN2窗口马上接收到了发送出来的数 ...
- 771. Jewels and Stones - LeetCode
Question 771. Jewels and Stones Solution 题目大意:两个字符串J和S,其中J中每个字符不同,求S中包含有J中字符的个数,重复的也算 思路:Set记录字符串J中的 ...
- 133_Power BI 报表服务器2020年1月版本更新亮点
博客:www.jiaopengzi.com 焦棚子的文章目录 请点击下载附件 一个很长的春节假期后,居家办公. 升级了Power BI 报表服务器(2020年1月版本). 具体的升级内容见官网博客: ...
- 安装Python到Linux(Pyenv)
pyenv是一个多Python版本的托管工具,我们可以使用它安装Python和随意的切换系统环境中默认使用的Python版本. 运行环境 系统版本:CentOS Linux release 7.6.1 ...
- 利用 Onekey Theater 改善屏幕显示效果
介绍 Onekey Theater(一键影音),它是联想笔记本带的一键影音功能,使用它能够更改笔记本的显示效果和音效,以此模仿电影院的效果,为用户带来更好是视听效果及享受. 作用 之前的联想笔记本自带 ...
- vue新手入门之使用vue框架搭建用户登录注册案例,手动搭建webpack+Vue项目(附源码,图文详解,亲测有效)
前言 本篇随笔主要写了手动搭建一个webpack+Vue项目,掌握相关loader的安装与使用,包括css-loader.style-loader.vue-loader.url-loader.sass ...
- Microsoft Office 代码执行漏洞临时防范方法
一.删除ms-msdt URI 注册表 1.按下键盘上的快捷组合键:win键 和 R键,打开运行(也可以在开始菜单打开运行). 2.在运行窗口中输入命令:regedit,点击确定或敲回车键就可以快速打 ...
- 【原创】项目一GoldenEye
实战流程 1,通过nmap查找本段IP中存活的机器 ┌──(root㉿whoami)-[/home/whoami/Desktop] └─# nmap -sP 192.168.186.0/24 排查网关 ...