MPI中的cannon算法

Cannon算法

算法过程

假设矩阵$A，B$和$C$都可以分成$m\times m$块矩阵，即$A = (A_{(ij)})_{m\times m}，B = (B_{(ij)})_{m\times m}$和$C = (C_{(ij)})_{m\times m}$，其中$A_{ij}，B_{ij}$和$C_{ij}$是$n \times n$矩阵，进一步假设有$p = m \times m$个处理器。为了讨论Cannon算法，引入块置换矩阵$Q = (Q_{ij})$。即

\[Q = \left [
\begin{matrix}
0 & 1 &0 & \cdots & 0\\
0 & 0 &1 & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
0 & 0 &0 & \cdots & 1 \\
1 & 0 &0 & \cdots & 0
\end{matrix}
\right ]
,\quad Q_{ij} =
\begin{cases}
1,j \equiv (i+1)mod m\\
0,other
\end{cases}
\]

$QA$就是将$A$的所有行向上移动一个位置，$AQ$则是将$A$的所有列向右移动一个位置。

定义块对角矩阵$D_A^{(l)} = diag(D_i^{(l)}) = diag(A_{i,i+1mod m})$，容易证明$A = \sum_{l=0}^{m-1}D_A^{(l)}Q^l$，于是

\[\begin{aligned}
C &=AB=\sum_{l=0}^{m-1}D_A^{(l)}Q^lB\\
&=D_{A}^{(0)}B^{(0)}+D_{A}^{(1)}B^{(1)}+...+D_{A}^{(m-1)}B^{(m-1)}
\end{aligned}
\]

其中$B^{(l)} = Q^lB = QB^{l-1}，l = 0,1,...,m-1$

假如：$A$是$3\times 3$的矩阵，则

\[D^{(0)}_A = \left [
\begin{matrix}
A_{0,0} & 0 &0 \\
0 & A_{1,1} &0 \\
0 & 0 & A_{2,2} \\
\end{matrix}
\right ] ，

D^{(1)}_A = \left [
\begin{matrix}
A_{0,1} & 0 &0 \\
0 & A_{1,2} &0 \\
0 & 0 & A_{2,0} \\
\end{matrix}
\right ] ，

D^{(2)}_A = \left [
\begin{matrix}
A_{0,2} & 0 &0 \\
0 & A_{1,0} &0 \\
0 & 0 & A_{2,1} \\
\end{matrix}
\right ]
\]

\[Q^0 = \left [
\begin{matrix}
1 & 0 &0 \\
0 & 1 &0 \\
0 & 0 & 1 \\
\end{matrix}
\right ] ，

Q^1 = \left [
\begin{matrix}
0 & 1 &0 \\
0 & 0 &1 \\
1 & 0 &0 \\
\end{matrix}
\right ] ，

Q^2 = QQ = \left [
\begin{matrix}
0 & 0 &1 \\
1 & 0 &0 \\
0 & 1 & 0 \\
\end{matrix}
\right ]
\]

经过计算$A = \sum_{l=0}^{m-1}D_A^{(l)}Q^l$

Cannon算法是为了更加便于并行，可以把矩阵乘转化为若干个小的计算单元，分别用不同的进程去进行计算，而互不干扰。

Cannon算法采用了主从模式的同时也采用了分而治之的模式。一方面，0号线程作为Master，负责矩阵A和矩阵B以及矩阵C的I/O，也负责小矩阵的分发和结果的聚集。而其他节点作为Worker进行本地的小矩阵串行乘法计算。另一方面，Cannon算法将两个大矩阵的乘法运算分解为若干各小矩阵的乘法运算，最终计算结束后，将计算结果聚集回来，也采用了分而治之的思想。cannon算法不仅实现了矩阵乘法运算的并行化，也减少了分块矩阵乘法的局部存储量，节省了节点的内存开销。

MPI中的cannon算法的更多相关文章

Parallel Computing–Cannon算法 (MPI 实现)
原理不解释,直接上代码代码中被注释的源程序可用于打印中间结果,检查运算是否正确. #include "mpi.h" #include <math.h> #includ ...
Java中的经典算法之冒泡排序(Bubble Sort)
Java中的经典算法之冒泡排序(Bubble Sort) 神话丿小王子的博客主页原理:比较两个相邻的元素,将值大的元素交换至右端. 思路:依次比较相邻的两个数,将小数放在前面,大数放在后面.即在第一 ...
分布式数据库中的Paxos 算法
分布式数据库中的Paxos 算法 http://baike.baidu.com/link?url=ChmfvtXRZQl7X1VmRU6ypsmZ4b4MbQX1pelw_VenRLnFpq7rMvY ...
Java中的查找算法之顺序查找(Sequential Search)
Java中的查找算法之顺序查找(Sequential Search) 神话丿小王子的博客主页 a) 原理:顺序查找就是按顺序从头到尾依次往下查找,找到数据,则提前结束查找,找不到便一直查找下去,直到数 ...
Java中的经典算法之选择排序（SelectionSort）
Java中的经典算法之选择排序(SelectionSort) 神话丿小王子的博客主页 a) 原理:每一趟从待排序的记录中选出最小的元素,顺序放在已排好序的序列最后,直到全部记录排序完毕.也就是:每一趟 ...
STL中的查找算法
STL中有很多算法,这些算法可以用到一个或多个STL容器(因为STL的一个设计思想是将算法和容器进行分离),也可以用到非容器序列比如数组中.众多算法中,查找算法是应用最为普遍的一类. 单个元素查找 1 ...
opencv3中的机器学习算法之：EM算法
不同于其它的机器学习模型,EM算法是一种非监督的学习算法,它的输入数据事先不需要进行标注.相反,该算法从给定的样本集中,能计算出高斯混和参数的最大似然估计.也能得到每个样本对应的标注值,类似于kmea ...
在opencv3中的机器学习算法
在opencv3.0中,提供了一个ml.cpp的文件,这里面全是机器学习的算法,共提供了这么几种: 1.正态贝叶斯:normal Bayessian classifier 我已在另外一篇博文中介 ...
Java中的排序算法（2）
Java中的排序算法(2) * 快速排序 * 快速排序使用分治法(Divide and conquer)策略来把一个序列(list)分为两个子序列(sub-lists). * 步骤为: * 1. 从数 ...

随机推荐

Day01_WebCrawler(网络爬虫)
学于黑马和传智播客联合做的教学项目感谢黑马官网传智播客官网微信搜索"艺术行者",关注并回复关键词"webcrawler"获取视频和教程资料! b站在线视 ...
matplotlib颜色线条及绘制直线
plt.axhline(y=0,ls=":",c="yellow")#添加水平直线 plt.axvline(x=4,ls="-",c=&qu ...
实现了__iter__和__next__的对象是迭代器
class MyList(object): """自定义的一个可迭代对象""" def __init__(self): self.items ...
Linux系统的基本操作
20200727 Linux目录结构基本介绍 Linux的文件系统是采用层级式的树状结构,在此结构中的最上层是/根目录 tip1:在Linux世界里,一切皆是文件示例 /bin: bin是Bina ...
PHP shuffle() 函数
实例把数组中的元素按随机顺序重新排列: <?php$my_array = array("red","green","blue",&q ...
PDOStatement::getAttribute
PDOStatement::getAttribute — 检索一个语句属性(PHP 5 >= 5.1.0, PECL pdo >= 0.2.0)高佣联盟 www.cgewang.com 说 ...
pagehelper的使用和一些坑！
[toc] ##1.1 pagehelper介绍和使用 PageHelper是一款好用的开源免费的Mybatis第三方物理分页插件. 原本以为分页插件,应该是很简单的,然而PageHelper比我想象 ...
charles抓取HTTPS设置，详细踩坑版
写这篇文章的背景就是,每次我在一台新电脑上用charles抓包时,总是因为各种原因无法抓到https请求,每个百度出来的回答又不是那么详细,需要通过几篇回答才能解决过程中的各种问题,所以把自己的安装经 ...
windows：shellcode 远程线程hook/注入(二)
https://www.cnblogs.com/theseventhson/p/13218651.html 上次分享了基本的远程注入方法,遗留了一个问题:shellcode执行完后怎么回到线程su ...
SpringBoot+Dynamic多数据源动态切换
最近做了个小模块,需求就是项目同时读取三个数据库,操作数据.并不是分库分表,只用定时跑,不需要对外提供接口. 技术选型:SpringBoot + Mybatis Plus(Mybatis) + Dyn ...

MPI中的cannon算法

Cannon算法

MPI中的cannon算法的更多相关文章

随机推荐

热门专题