Opencl 并行求和

上周尝试用opencl求极大值，在网上查到大多是求和，所谓的reduction算法。不过思路是一样的。

CPP：

　　 int err = ;

    unsigned long int nNumCount = ;

    int nLocalSize = ;

    int nGroupSize = ;

    int nGroup = nGroupSize / nLocalSize;

    int* pArray = new int[nNumCount];

    unsigned long int nReal = ;

    int nStart = GetTickCount();

    for (int i=;i<nNumCount;++i)

    {

        pArray[i] = i*;

        nReal += pArray[i];

    }

    cout<<GetTickCount() - nStart<<endl;

    cl_mem clmemArray = clCreateBuffer(context,CL_MEM_READ_WRITE,sizeof(int) * nNumCount,NULL,NULL);

    err = clEnqueueWriteBuffer(queue,clmemArray,CL_TRUE,,sizeof(int)*nNumCount,pArray,,,);

    cl_mem clmemRes  = clCreateBuffer(context,CL_MEM_READ_WRITE,sizeof(int) * nGroup,NULL,NULL);

    nStart = GetTickCount();

    err = clSetKernelArg(m_KerCalcRay,,sizeof(cl_mem),&clmemArray);

    err = clSetKernelArg(m_KerCalcRay,,sizeof(cl_mem),&clmemRes);

    err = clSetKernelArg(m_KerCalcRay,,sizeof(int)*nLocalSize,);

    err = clSetKernelArg(m_KerCalcRay,,sizeof(int),&nNumCount);

    size_t localws[] = {nLocalSize};

    size_t globalws[] = {nGroupSize};

    err = clEnqueueNDRangeKernel(queue,m_KerCalcRay,,NULL,globalws,localws,,NULL,NULL);

    clFinish(queue);

    int* pRes = new int[nGroup];

    err = clEnqueueReadBuffer(queue,clmemRes,CL_TRUE,,sizeof(int)*nGroup,pRes,,,);

    clFinish(queue);

    unsigned long int nRes = ;

    for(int i=;i<nGroup;++i)

    {

        nRes += pRes[i];

    }
　　assert（nRes == nReal）;

kernel:

__kernel void ReduceSum(__global int* num,__global int* res,__local int* pData,int nCount)

{

    unsigned int tid = get_local_id();

    unsigned int bid = get_group_id();

    unsigned int gid = get_global_id();

    unsigned int localSize = get_local_size();

    unsigned int globalSize = get_global_size();

    int nRes = ;

    while(gid < nCount)

    {

        nRes += num[gid];

        gid += globalSize;

    }

    pData[tid] = nRes;

    barrier(CLK_LOCAL_MEM_FENCE);

     // do reduction in shared mem

    for(unsigned int s = localSize >> ; s > ; s >>= )

    {

         if(tid < s)

         {

             pData[tid] += pData[tid + s];

         }

         barrier(CLK_LOCAL_MEM_FENCE);

     }

    if(tid == )

        res[bid] =     pData[];

}

Reduction求和是这样一种方法，比如8个数0到7依次存放，求和的时候就是下标0和4、1和5、2和6、3和7，求和结果放到下标0、1、2、3中（同步一把barrier(CLK_LOCAL_MEM_FENCE)）。然后继续就是0和2,、1和3求和结果放到0、1中。如此往复、最终结果就放到下标0中啦。

另：我试过循环展开减少同步次数、不过效率增长微乎其微。

Opencl 并行求和的更多相关文章

【MPI】并行求和
比较简单的并行求和读入还是串行的而且无法处理线程数无法整除数据总长度的情况主要用到了MPI_Bcast MPI_Scatter MPI_Reduce typedef long long __in ...
Python的并行求和例子
先上一个例子,这段代码是为了评估一个预测模型写的,详细评价说明在 https://www.kaggle.com/c/how-much-did-it-rain/details/evaluation, 它 ...
OpenMP共享内存并行编程详解
实验平台:win7, VS2010 1. 介绍平行计算机可以简单分为共享内存和分布式内存,共享内存就是多个核心共享一个内存,目前的PC就是这类(不管是只有一个多核CPU还是可以插多个CPU,它们都有 ...
《OpenCL异构计算》新版中译本派送中！
<OpenCL异构计算1.2>新鲜出炉,目前市面上仍一书难求!我们已向清华出版社订购到第一批新书.关注异构开发社区,积极参与,就有可能免费获取新书! 1.如果您异构社区的老朋友,请关注:1 ...
OpenCL Workshop 1 —— 数字音频滤波
Introduction 这两年深度学习大火,Cuda跟着吃红利,OpenCL发展也很快.虽然OpenCL不是事实上的标准,但是作为开放标准,适应性是很强的,除了显卡之外,CPU/FPGA上都可以执行 ...
Java8的新特性--并行流与串行流
目录写在前面 Fork/Join框架 Fork/Join框架与传统线程池的区别传统的线程池 Fork/Join框架 Fork/Join框架的使用 Java8中的并行流写在前面我们都知道,在开发 ...
给深度学习入门者的Python快速教程 - 番外篇之Python-OpenCV
这次博客园的排版彻底残了..高清版请移步: https://zhuanlan.zhihu.com/p/24425116 本篇是前面两篇教程: 给深度学习入门者的Python快速教程 - 基础篇给深度 ...
Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为 ...
【java并发系列】Fork/Join任务（转）
原文链接当我们需要执行大量的小任务时,有经验的Java开发人员都会采用线程池来高效执行这些小任务.然而,有一种任务,例如,对超过1000万个元素的数组进行排序,这种任务本身可以并发执行,但如何拆解成 ...

随机推荐

网页制作过程中div定位的三个问题
这几天要做单位的网站,对于做网站我也不怎么样,于是我便在网上参考了一个比较满意的网站,套一下来把这个工作结束了.在此期间遇到了三个关于div定位问题, 一般网站用div布局时都是从上到下分head . ...
Unity关于获取游戏对象
我觉得Unity里面的Transform 和 GameObject就像两个双胞胎兄弟一样,这俩哥们很要好,我能直接找到你,你也能直接找到我.我看很多人喜欢在类里面去保存GameObject对象.解决G ...
caffe网络模型各层详解（一）
一:数据层及参数 caffe层次有许多类型,比如Data,Covolution,Pooling,层次之间的数据流动是以blobs的方式进行首先,我们介绍数据层: 数据层是每个模型的最底层,是模型的入 ...
SQL加权限
grant view definition on 存储过程名字 to 用户名
java如何提取url里的域名
使用java标准类库java.net.URL java.net.URL url = new java.net.URL("http://blog.csdn.net/zhujianlin19 ...
unity3d加载默认工程秒退怎么办
加载Unity3D工程时出现秒退, 怎么尝试都没有用(已经确定了项目路径名称全部为英文). 然后就再也没办法打开Unity3D了,因为一打开它就会默认加载上回的工程. 解决办法: 把最后一次加载的工程 ...
大规模IP地址黑名单高性能查询实现
嗯……前阵子接了个活儿,需要做一个基于IP地址黑名单的分流网关.刚接到的时候心想iptables不就行了么,没想到一看客户给的IP黑名单规模……我擦……上亿个…… 黑名单到了这个规模,就不得不考虑下优 ...
Flasky学习笔记(一)
1. app.run(debug=True,host='10.0.2.15',port=8000)自定义host及port;
sencha touch打包成安装程序
为了更好地向大家演示如何打包一个sencha touch的项目,我们用sencha cmd创建一个演示项目,如果你的sencha cmd环境还没有配置,请参照 sencha touch 入门系列 (二 ...
SNMP开发c#，高薪诚聘，或者外包开发
现在手里有一个IT资产管理方面的项目,主要会用到SNMP协议,要用这个协议进行开发,对网络上的设备进行控制, 现在高薪诚聘高手,或者项目外包合作,有意向的同学们可以联系我,时间紧迫, QQ:39011 ...

Opencl 并行求和

Opencl 并行求和的更多相关文章

随机推荐

热门专题