MPI中的cannon算法
Cannon算法
- 算法过程
假设矩阵\(A,B\)和\(C\)都可以分成\(m\times m\)块矩阵,即\(A = (A_{(ij)})_{m\times m},B = (B_{(ij)})_{m\times m}\)和\(C = (C_{(ij)})_{m\times m}\),其中\(A_{ij},B_{ij}\)和\(C_{ij}\)是\(n \times n\)矩阵,进一步假设有\(p = m \times m\)个处理器。为了讨论Cannon算法,引入块置换矩阵\(Q = (Q_{ij})\)。即
\begin{matrix}
0 & 1 &0 & \cdots & 0\\
0 & 0 &1 & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
0 & 0 &0 & \cdots & 1 \\
1 & 0 &0 & \cdots & 0
\end{matrix}
\right ]
,\quad Q_{ij} =
\begin{cases}
1,j \equiv (i+1)mod m\\
0,other
\end{cases}
\]
\(QA\)就是将\(A\)的所有行向上移动一个位置,\(AQ\)则是将\(A\)的所有列向右移动一个位置。
定义块对角矩阵\(D_A^{(l)} = diag(D_i^{(l)}) = diag(A_{i,i+1mod m})\),容易证明\(A = \sum_{l=0}^{m-1}D_A^{(l)}Q^l\),于是
C &=AB=\sum_{l=0}^{m-1}D_A^{(l)}Q^lB\\
&=D_{A}^{(0)}B^{(0)}+D_{A}^{(1)}B^{(1)}+...+D_{A}^{(m-1)}B^{(m-1)}
\end{aligned}
\]
其中\(B^{(l)} = Q^lB = QB^{l-1},l = 0,1,...,m-1\)
假如:\(A\)是\(3\times 3\)的矩阵,则
\begin{matrix}
A_{0,0} & 0 &0 \\
0 & A_{1,1} &0 \\
0 & 0 & A_{2,2} \\
\end{matrix}
\right ] ,
D^{(1)}_A = \left [
\begin{matrix}
A_{0,1} & 0 &0 \\
0 & A_{1,2} &0 \\
0 & 0 & A_{2,0} \\
\end{matrix}
\right ] ,
D^{(2)}_A = \left [
\begin{matrix}
A_{0,2} & 0 &0 \\
0 & A_{1,0} &0 \\
0 & 0 & A_{2,1} \\
\end{matrix}
\right ]
\]
\begin{matrix}
1 & 0 &0 \\
0 & 1 &0 \\
0 & 0 & 1 \\
\end{matrix}
\right ] ,
Q^1 = \left [
\begin{matrix}
0 & 1 &0 \\
0 & 0 &1 \\
1 & 0 &0 \\
\end{matrix}
\right ] ,
Q^2 = QQ = \left [
\begin{matrix}
0 & 0 &1 \\
1 & 0 &0 \\
0 & 1 & 0 \\
\end{matrix}
\right ]
\]
经过计算\(A = \sum_{l=0}^{m-1}D_A^{(l)}Q^l\)
Cannon算法是为了更加便于并行,可以把矩阵乘转化为若干个小的计算单元,分别用不同的进程去进行计算,而互不干扰。
Cannon算法采用了主从模式的同时也采用了分而治之的模式。一方面,0号线程作为Master,负责矩阵A和矩阵B以及矩阵C的I/O,也负责小矩阵的分发和结果的聚集。而其他节点作为Worker进行本地的小矩阵串行乘法计算。另一方面,Cannon算法将两个大矩阵的乘法运算分解为若干各小矩阵的乘法运算,最终计算结束后,将计算结果聚集回来,也采用了分而治之的思想。cannon算法不仅实现了矩阵乘法运算的并行化,也减少了分块矩阵乘法的局部存储量,节省了节点的内存开销。
MPI中的cannon算法的更多相关文章
- Parallel Computing–Cannon算法 (MPI 实现)
原理不解释,直接上代码 代码中被注释的源程序可用于打印中间结果,检查运算是否正确. #include "mpi.h" #include <math.h> #includ ...
- Java中的经典算法之冒泡排序(Bubble Sort)
Java中的经典算法之冒泡排序(Bubble Sort) 神话丿小王子的博客主页 原理:比较两个相邻的元素,将值大的元素交换至右端. 思路:依次比较相邻的两个数,将小数放在前面,大数放在后面.即在第一 ...
- 分布式数据库中的Paxos 算法
分布式数据库中的Paxos 算法 http://baike.baidu.com/link?url=ChmfvtXRZQl7X1VmRU6ypsmZ4b4MbQX1pelw_VenRLnFpq7rMvY ...
- Java中的查找算法之顺序查找(Sequential Search)
Java中的查找算法之顺序查找(Sequential Search) 神话丿小王子的博客主页 a) 原理:顺序查找就是按顺序从头到尾依次往下查找,找到数据,则提前结束查找,找不到便一直查找下去,直到数 ...
- Java中的经典算法之选择排序(SelectionSort)
Java中的经典算法之选择排序(SelectionSort) 神话丿小王子的博客主页 a) 原理:每一趟从待排序的记录中选出最小的元素,顺序放在已排好序的序列最后,直到全部记录排序完毕.也就是:每一趟 ...
- STL中的查找算法
STL中有很多算法,这些算法可以用到一个或多个STL容器(因为STL的一个设计思想是将算法和容器进行分离),也可以用到非容器序列比如数组中.众多算法中,查找算法是应用最为普遍的一类. 单个元素查找 1 ...
- opencv3中的机器学习算法之:EM算法
不同于其它的机器学习模型,EM算法是一种非监督的学习算法,它的输入数据事先不需要进行标注.相反,该算法从给定的样本集中,能计算出高斯混和参数的最大似然估计.也能得到每个样本对应的标注值,类似于kmea ...
- 在opencv3中的机器学习算法
在opencv3.0中,提供了一个ml.cpp的文件,这里面全是机器学习的算法,共提供了这么几种: 1.正态贝叶斯:normal Bayessian classifier 我已在另外一篇博文中介 ...
- Java中的排序算法(2)
Java中的排序算法(2) * 快速排序 * 快速排序使用分治法(Divide and conquer)策略来把一个序列(list)分为两个子序列(sub-lists). * 步骤为: * 1. 从数 ...
随机推荐
- 学习JavaScript数据结构与算法 2/15
第一章 JavaScript简介 js不同于C/C++,C#,JAVA,不是强类型语言. 通常,代码质量可以用全局变量和函数的数量来考量(数量越多越糟).因此,尽可能避免使用全局变量. JS数据类型 ...
- python基础全部知识点整理,超级全(20万字+)
目录 Python编程语言简介 https://www.cnblogs.com/hany-postq473111315/p/12256134.html Python环境搭建及中文编码 https:// ...
- Python os.symlink() 方法
概述 os.symlink() 方法用于创建一个软链接.高佣联盟 www.cgewang.com 语法 symlink()方法语法格式如下: os.symlink(src, dst) 参数 src - ...
- P2569 [SCOI2010]股票交易 dp 单调队列优化
LINK:股票交易 题目确实不算难 但是坑点挺多 关于初值的处理问题我就wa了两次. 所以来谢罪. 由于在手中的邮票的数量存在限制 且每次买入卖出也有限制. 必然要多开一维来存每天的邮票数量. 那么容 ...
- Spring学习总结(8)-接口多个实现类的动态调用
需求描述:当一个接口有2个以上的实现类时,调用方需要根据参数选择只其中一个实现类 Spring版本:5.1.8.RELEASE 1. 接口和实现类 /** * 接口 */ public interfa ...
- 浅谈js数组中的length属性
前言 一位正在学习前端的菜鸟,虽菜,但还未放弃. 内容 首先,我们都知道每个数组都有一个length属性 这个length属性一般我们用来循环遍历的约束,一般我们都会把他认为是该数组里面有几个元素这个 ...
- Chrome自动格式化Json输出
对JSON格式的内容进行浏览和编辑,以树形图样式展现JSON文档,并可实时编辑 安装 Chrome商店 https://chrome.google.com/webstore/detail/json-h ...
- 都2020年了,你还不知道怎么学习Python吗?
众所周知,Python应用广泛,涵盖后端开发.游戏开发.网络爬虫.网站开发.数据挖掘.科学运算.大数据分析.云计算.人工智能等领域,感觉像神一样的存在.Python这么火,那么从入门到精通学习Pyth ...
- 001_centos7配置网络动态获取IP地址
笔者今天刚装完centos7的虚拟机,发现无法获取IP地址,经过网上查询资料,发现centos7是默认没有网络配置的,需要手工配置. 而centos7与centos6不同,没有了config命令,所以 ...
- Weblogic 连接 RMI 服务报错 Connection refused
WebLogic 连接 RMI 服务报错 Connection refused 访问 WebLogic RMI 服务报错,连接被拒绝,连接超时. 奇怪的是,报错的 host 根本不是我要访问的. 报错 ...