《GPU高性能编程CUDA实战》附录一高级原子操作

▶ 本章介绍了手动实现原子操作。重构了第五章向量点积的过程。核心是通过定义结构Lock及其运算，实现锁定，读写，解锁的过程。

● 章节代码

 #include <stdio.h>

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include "cuda.h"

 #include "D:\Code\CUDA\book\common\book.h"

 #define imin(a,b)       (a<b?a:b)

 #define sum_squares(x)  (x*(x+1)*(2*x+1)/6)

 #define N               33 * 1024 * 1024

 #define THREADSIZE      256

 #define BLOCKSIZE       imin(32, (N + THREADSIZE - 1) / THREADSIZE)

 struct Lock

 {

     int *mutex;

     Lock(void)

     {

         int state = ;

         cudaMalloc((void **)&mutex, sizeof(int));

         cudaMemcpy(mutex, &state, sizeof(int), cudaMemcpyHostToDevice);

     }

     ~Lock(void)

     {

         cudaFree(mutex);

     }

     __device__ void lock(void)

     {

         while (atomicCAS(mutex, , ) != );

         //atomicCAS(a, b, c)将判断变量a是否等于b，

         //若相等，则用c的值去替换a，并返回c的值；若不相等，则返回a的值

         //函数lock()中，线程不断尝试判断mutex是否为0，

         //若为0则改写为1 ，表明“占用”，禁止其他线程进行访问

         //若为1则继续尝试判断

     }

     __device__ void unlock(void)

     {

         atomicExch(mutex, );

         //atomicExch(a, b)返回第一个变量的值，并将两个变量的值进行交换

         //这里使用原子操作只是与上面的atomicCAS统一，否则可以直接用赋值语句

         //线程操作完成，将mutex改写回0，允许其他线程进行访问

     }

 };

 __global__ void dot(Lock lock, float *a, float *b, float *c)

 {

     __shared__ float share[THREADSIZE];

     int tid = threadIdx.x + blockIdx.x * blockDim.x;

     int cacheIndex = threadIdx.x;

     float   temp = ;

     while (tid < N)

     {

         temp += a[tid] * b[tid];

         tid += blockDim.x * gridDim.x;

     }

     share[cacheIndex] = temp;

     __syncthreads();

     int i = blockDim.x / ;

     while (i != )

     {

         if (cacheIndex < i)

             share[cacheIndex] += share[cacheIndex + i];

         __syncthreads();

         i /= ;

     }

     if (cacheIndex == )

     {

         lock.lock();// 等待可写入的机会，锁上，写入，再解锁

         *c += share[];

         lock.unlock();

     }

 }

 int main(void)

 {

     float   *a, *b, c = ;

     float   *dev_a, *dev_b, *dev_c;

     a = (float*)malloc(N * sizeof(float));

     b = (float*)malloc(N * sizeof(float));

     cudaMalloc((void**)&dev_a, N * sizeof(float));

     cudaMalloc((void**)&dev_b, N * sizeof(float));

     cudaMalloc((void**)&dev_c, sizeof(float));

     for (int i = ; i < N; i++)

     {

         a[i] = i;

         b[i] = i * ;

     }

     cudaMemcpy(dev_a, a, N * sizeof(float), cudaMemcpyHostToDevice);

     cudaMemcpy(dev_b, b, N * sizeof(float), cudaMemcpyHostToDevice);

     cudaMemcpy(dev_c, &c, sizeof(float), cudaMemcpyHostToDevice);

     Lock lock;

     dot << <BLOCKSIZE, THREADSIZE >> > (lock, dev_a, dev_b, dev_c);

     cudaMemcpy(&c, dev_c, sizeof(float), cudaMemcpyDeviceToHost);

     printf("\n\tAnswer:\t\t%.6g\n\tGPU value:\t%.6g\n",  * sum_squares((float)(N - )), c);

     free(a);

     free(b);

     cudaFree(dev_a);

     cudaFree(dev_b);

     cudaFree(dev_c);

     getchar();

     return ;

 }

《GPU高性能编程CUDA实战》附录一高级原子操作的更多相关文章

[问题解决]《GPU高性能编程CUDA实战》中第4章Julia实例“显示器驱动已停止响应，并且已恢复”问题的解决方法
以下问题的出现及解决都基于"WIN7+CUDA7.5". 问题描述:当我编译运行<GPU高性能编程CUDA实战>中第4章所给Julia实例代码时,出现了显示器闪动的现象 ...
《GPU高性能编程CUDA实战》附录二散列表
▶ 使用CPU和GPU分别实现散列表 ● CPU方法 #include <stdio.h> #include <time.h> #include "cuda_runt ...
《GPU高性能编程CUDA实战》附录四其他头文件
▶ cpu_bitmap.h #ifndef __CPU_BITMAP_H__ #define __CPU_BITMAP_H__ #include "gl_helper.h" st ...
《GPU高性能编程CUDA实战》附录三关于book.h
▶ 本书中用到的公用函数放到了头文件book.h中 #ifndef __BOOK_H__ #define __BOOK_H__ #include <stdio.h> #include &l ...
《GPU高性能编程CUDA实战》第十一章多GPU系统的CUDA C
▶ 本章介绍了多设备胸膛下的 CUDA 编程,以及一些特殊存储类型对计算速度的影响 ● 显存和零拷贝内存的拷贝与计算对比 #include <stdio.h> #include " ...
《GPU高性能编程CUDA实战》第五章线程并行
▶ 本章介绍了线程并行,并给出四个例子.长向量加法.波纹效果.点积和显示位图. ● 长向量加法(线程块并行 + 线程并行) #include <stdio.h> #include &quo ...
《GPU高性能编程CUDA实战》第四章简单的线程块并行
▶ 本章介绍了线程块并行,并给出两个例子:长向量加法和绘制julia集. ● 长向量加法,中规中矩的GPU加法,包含申请内存和显存,赋值,显存传入,计算,显存传出,处理结果,清理内存和显存.用到了 t ...
《GPU高性能编程CUDA实战》第八章图形互操作性
▶ OpenGL与DirectX,等待填坑. ● basic_interop #include <stdio.h> #include "cuda_runtime.h" ...
《GPU高性能编程CUDA实战》第七章纹理内存
▶ 本章介绍了纹理内存的使用,并给出了热传导的两个个例子.分别使用了一维和二维纹理单元. ● 热传导(使用一维纹理) #include <stdio.h> #include "c ...

随机推荐

centos下安装必要组件(相当于apt-get install install build-essential)
在centos下执行 : sudo yum groupinstall 'Development Tools'
setsebool命令详解与SELinux管理
setsebool命令是用来修改SElinux策略内各项规则的布尔值.setsebool命令和getsebool命令是SELinux修改和查询布尔值的一套工具组.SELinux的策略与规则管理相关命令 ...
Android中logcat和日志打印
一.logcat对日志过滤 1.# logcat --help # logcat --help Usage: logcat [options] [filterspecs] options inclu ...
SQL Support and Workarounds
此文章来自官方文档,说明了,对于不支持pg 标准的sql 查询的变通方法,实际使用的时候有很大的指导意义 As Citus provides distributed functionality by ...
log4net保存到数据库系列五、新增数据库字段
园子里面有很多关于log4net保存到数据库的帖子,但是要动手操作还是比较不易,从头开始学习log4net数据库日志一.WebConfig中配置log4net 一.WebConfig中配置log4ne ...
序列化效率比拼——谁是最后的赢家avaScriptSerializer方式、DataContract方式、Newtonsoft.Json
前言:作为开发人员,对象的序列化恐怕难以避免.楼主也是很早以前就接触过序列化,可是理解都不太深刻,对于用哪种方式去做序列化更是随波逐流——项目中原来用的什么方式照着用就好了.可是这么多年自己对于这东西 ...
Javascript 在严格模式下禁止指向 this
如下代码, f() 输出的是 false,而 f2() 输出的是 true. 这是因为 f2 在严格模式下禁止 this 指向全局,所以 this 是 undefined, !this 当然是 tru ...
linq to sql 项目移植后，数据库实体类需要重新创建？
项目中,使用LINQ to SQL 访问数据库,代码移植到其他机器上,每次需要重新生成dbml文件,有无方法只要更改app.config呢? 经过试验是可行的: 1.引用system.configur ...
kafka 安装与配置
下载地址:https://kafka.apache.org/downloads 这里下载的是kafka_2.11-0.11.0.1.tgz 解压 tar -xzf kafka_2.11-0.11.0 ...
MySQL的Join使用
在MySQL(以5.1为例)中,表连接的语法可以参见MySQL官方手册:MySQL官方手册-JOIN 在查询中,连接的语法类似 SELECT select_expr FROM table_refere ...

《GPU高性能编程CUDA实战》附录一 高级原子操作

《GPU高性能编程CUDA实战》附录一 高级原子操作的更多相关文章

随机推荐

热门专题

《GPU高性能编程CUDA实战》附录一高级原子操作

《GPU高性能编程CUDA实战》附录一高级原子操作的更多相关文章