技术背景

在前面的几篇博客中我们介绍了在Python中使用Numba来写CUDA程序的一些基本操作和方法，并且展示了GPU加速的实际效果。在可并行化的算法中，比如计算两个矢量的加和，或者是在分子动力学模拟领域中的查找近邻表等等，都是可以直接并行的算法，而且实现起来难度不大。而有一种情况是，如果我们要计算的内容的线程之间互相存在依赖，比方说最常见的，计算一个矩阵所有元素的和。

CUDA的atomic运算

正如前面所提到的问题，如何去计算一个矩阵所有元素之和呢？具体问题可以表述为：

\[S=\sum_{i,j}A_{i,j}
\]

对于此类的问题，如果我们像普通的CUDA并行操作一样，直接创建一个S变量，然后直接在线程和分块上直接把每一个矩阵元素加到这个S变量中，那么会出现一种情况：在线程同步时，存在冲突的线程是无法同时加和成功的，也就是说，这种情况下虽然程序不会报错，但是得到的结果是完全错误的。对于此类情况，CUDA官方给出了atomic运算这样的方案，可以保障线程之间不被干扰：

import numpy as np

from numba import cuda

from numba import vectorize

cuda.select_device(1)

@cuda.jit

def ReducedSum(arr, result):

    i, j = cuda.grid(2)

    cuda.atomic.add(result, 0, arr[i][j])

if __name__ == '__main__':

    import time

    np.random.seed(2)

    data_length = 2**10

    arr = np.random.random((data_length,data_length)).astype(np.float32)

    print (arr)

    arr_cuda = cuda.to_device(arr)

    np_time = 0.0

    nb_time = 0.0

    for i in range(100):

        res = np.array([0],dtype=np.float32)

        res_cuda = cuda.to_device(res)

        time0 = time.time()

        ReducedSum[(data_length,data_length),(1,1)](arr_cuda,res_cuda)

        time1 = time.time()

        res = res_cuda.copy_to_host()[0]

        time2 = time.time()

        np_res = np.sum(arr)

        time3 = time.time()

        if i == 0:

            print ('The error rate is: ', abs(np_res-res)/res)

            continue

        np_time += time3 - time2

        nb_time += time1 - time0

    print ('The time cost of numpy is: {}s'.format(np_time))

    print ('The time cost of numba is: {}s'.format(nb_time))

这里需要重点关注的就是用CUDA实现的简单函数ReducedSum，这个函数中调用了CUDA的atomic.add方法，用这个方法直接替代系统内置的加法，就完成了所有的操作。我们将这个函数的运行时间去跟np.sum函数做一个对比，结果如下：

$ python3 cuda_reduced_sum.py

[[0.4359949  0.02592623 0.5496625  ... 0.3810055  0.6834749  0.5225032 ]

 [0.62763107 0.3184925  0.5822277  ... 0.89322233 0.7845663  0.4595605 ]

 [0.9666947  0.16615923 0.6931703  ... 0.29497907 0.63724256 0.06265242]

 ...

 [0.96224505 0.36741972 0.6673239  ... 0.3115176  0.7561843  0.9396167 ]

 [0.781736   0.28829736 0.38047555 ... 0.15837361 0.00392629 0.6236886 ]

 [0.03247315 0.3664344  0.00369871 ... 0.0205253  0.15924706 0.8655231 ]]

The error rate is:  4.177044e-06

The time cost of numpy is: 0.027491092681884766s

The time cost of numba is: 0.01042938232421875s

在GPU的计算中，会有一定的精度损失，比如这里的误差率就在1e-06级别，但是运行的速度要比numpy的实现快上2倍！

总结概要

我们知道GPU加速在可并行化程度比较高的算法中，能够发挥出比较大的作用，展示出明显的加速效果，而对于一些线程之间存在依赖这样的场景就不一定能够起到很大的加速作用。CUDA官方针对此类问题，提供了atomic的内置函数解决方案，包含有求和、求最大值等常用函数。而这些函数的特点就在于，线程与线程之间需要有一个时序的依赖关系。就比如说求最大值的函数，它会涉及到不同线程之间的轮询。经过测试，CUDA的这种atomic的方案，实现起来非常方便，性能也很乐观，相比于自己动手实现一个不断切割、递归的规约函数，还是要容易快捷的多。

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/gpu-sum.html

作者ID：DechinPhy

更多原著文章请参考：https://www.cnblogs.com/dechinphy/

打赏专用链接：https://www.cnblogs.com/dechinphy/gallery/image/379634.html

腾讯云专栏同步：https://cloud.tencent.com/developer/column/91958

用CUDA写出比Numpy更快的规约求和函数的更多相关文章

1. 写出一个能创建多级目录的 PHP 函数(新浪网技术部)
function create_dir($path,$mode){ if (is_dir($path)){ echo "该目录已经存在"; }else{ if(mkdir($pat ...
面试官：如何写出让 CPU 跑得更快的代码？
前言代码都是由 CPU 跑起来的,我们代码写的好与坏就决定了 CPU 的执行效率,特别是在编写计算密集型的程序,更要注重 CPU 的执行效率,否则将会大大影响系统性能. CPU 内部嵌入了 CPU ...
webstorm注释写出的提示
写出这种代码提示的方法是在一个函数上方打出 /** 然后敲回车就出出来没达到上面的效果,自己手动写上即可. 这样的好处是: 当你写代码用到此方法的时候会有参数类型提示,如图
php--------使用 isset()判断字符串长度速度比strlen()更快
isset()速度为什么比strlen()更快呢? strlen()函数函数执行起来相当快,因为它不做任何计算,只返回在zval 结构(C的内置数据结构,用于存储PHP变量)中存储的已知字符串长度.但 ...
扯扯淡，写个更快的memcpy
写代码有时候和笃信宗教一样,一旦信仰崩溃,是最难受的事情.早年我读过云风的一篇<VC 对 memcpy 的优化>,以及<Efficiency geek 2: copying data ...
使用Groovy+Spock轻松写出更简洁的单测
当无法避免做一件事时,那就让它变得更简单. 概述单测是规范的软件开发流程中的必不可少的环节之一.再伟大的程序员也难以避免自己不犯错,不写出有BUG的程序.单测就是用来检测BUG的.Java阵营中,J ...
[label][翻译][JavaScript-Translation]七个步骤让你写出更好的JavaScript代码
7 steps to better JavaScript 原文链接: http://www.creativebloq.com/netmag/7-steps-better-javascript-5141 ...
QT就是别人好心帮你做一些枯燥，并且很重复的代码编写工作，让你更好的把精力投入到你界面的逻辑和功能的实现的功能库（否则写了上万行代码了，才写出个BUG一大堆的毛坯）
好了,现在开始记录我学习QT的学习历程 . 本人也不是计算机专业出来的,自学了一点,但还是不好找工作,于是参加了培训,虽然感觉没多学到什么编程的学习生涯就是不断的看别人的源码,然后自己参考着写写自己 ...
如何在 ASP.NET Core 中写出更干净的 Controller
你可以遵循一些最佳实践来写出更干净的 Controller,一般我们称这种方法写出来的 Controller 为瘦Controller,瘦 Controller 的好处在于拥有更少的代码,更加单一的职 ...

随机推荐

Axure RP 9 Enterprise/Pro/Team for Mac/Windows安装破解版激活教程
Axure RP 9.0 是一款功能强大的.操作方便.专业可靠的快速原型设计工具.一款能够在这里体验最简单的设计方式,这里有着全新的升级的软件界面,更加的时尚,更加的丰富,专为每一个用户提供了便捷的设 ...
react native踩坑记录
一 .安装 1.Python2 和Java SE Development Kit (JDK)可以直接通过腾讯电脑关键安装, Android SDK安装的时候路径里不能有中文和空格 2.配置java环境 ...
SaltStack 任意文件读写漏洞（CVE-2020-11652）
漏洞影响 SaltStack < 2019.2.4 SaltStack < 3000.2 同CVE-2020-11651 poc git clone https://github.com/ ...
centos 7 网络静态IP配置文件
TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticIPADDR=10.86.128.160GETWAY=10.86.128.1P ...
Spring Boot实现数据访问计数器
1.数据访问计数器在Spring Boot项目中,有时需要数据访问计数器.大致有下列三种情形: 1)纯计数:如登录的密码错误计数,超过门限N次,则表示计数器满,此时可进行下一步处理,如锁定该账户 ...
git从远程仓库里拉取一条本地不存在的分支
查看远程分支和本地分支 git branch -va 当我想从远程仓库里拉取一条本地不存在的分支时: git checkout -b 本地分支名 origin/远程分支名例如: 切换远程分支 git ...
MSF+Nmap TCP空闲扫描
MSF+Nmap TCP空闲扫描前言 TCP空闲扫描是一种高级的扫描技术,可以冒充内网中另一台IP地址来对内网中的目标进行隐秘的扫描. 正文在进行扫描之前,我们需要了解一个概念,即递增IP帧标识, ...
Flutter 中的动画
Flutter 中动画的创建有很多种, 需要根据具体的需求选择不同的动画.如果只是简单的布局等的动画直接使用最简单的隐式动画就可以了,因为隐式动画是由框架控制的,所以仅仅只需要更改变需要变化属性就可以 ...
Docker入门第五章
常用其他命令后台启动容器 #命令 docker run -d 镜像名! [root@lvshihao /]# docker run -d centos 757173133e8e73985f024dc ...
初识MySQL，关系型数据库&非关系型数据库
初识MySQL,关系型数据库&非关系型数据库数据库的分类: 关系型数据库:(SQL) MySQL,Oracle,Sql Server,DB2,SQLlite 通过表和表之间,行和列之间的关系 ...