cuda多线程间通信

 #include "cuda_runtime.h"

 #include "device_launch_parameters.h"

 #include <stdio.h>

 #include <time.h>

 #include <stdlib.h>

 #define MAX 120

 #define MIN 0

 cudaError_t addWithCuda(int *c, const int *a, size_t size);

 __global__ void addKernel(int *c, const int *a) {

     int i = threadIdx.x;

     extern __shared__ int smem[];

     smem[i] = a[i];

     __syncthreads();

     if (i == )  // 0号线程做平方和

             {

         c[] = ;

         for (int d = ; d < ; d++) {

             c[] += smem[d] * smem[d];

         }

     }

     if (i == )  //1号线程做累加

             {

         c[] = ;

         for (int d = ; d < ; d++) {

             c[] += smem[d];

         }

     }

     if (i == )  //2号线程做累乘

             {

         c[] = ;

         for (int d = ; d < ; d++) {

             c[] = smem[d];

         }

     }

     if (i == )  //3号线程做异或

                 {

             c[] = ;

             for (int d = ; d < ; d++) {

                 c[] ^= smem[d];

             }

         }

 }

 int main() {

     const int arraySize = ;

     srand((unsigned) time(NULL));

     const int a[arraySize] = { rand() % (MAX +  - MIN) + MIN, rand()

             % (MAX +  - MIN) + MIN, rand() % (MAX +  - MIN) + MIN, rand()

             % (MAX +  - MIN) + MIN, rand() % (MAX +  - MIN) + MIN };

     int c[arraySize] = {  };

     // Add vectors in parallel.

     cudaError_t cudaStatus = addWithCuda(c, a, arraySize);

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "addWithCuda failed!");

         return ;

     }

     printf(

             "\t%d+%d+%d+%d+%d = %d\n\t%d^2+%d^2+%d^2+%d^2+%d^2 = %d\n\t%d*%d*%d*%d*%d = %d\n\t%d^%d^%d^%d^%d = %d\n\n\n\n\n",

             a[], a[], a[], a[], a[], c[], a[], a[], a[], a[], a[],

             c[], a[], a[], a[], a[], a[], c[],a[], a[], a[], a[], a[], c[]);

     // cudaThreadExit must be called before exiting in order for profiling and

     // tracing tools such as Nsight and Visual Profiler to show complete traces.

     cudaStatus = cudaThreadExit();

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaThreadExit failed!");

         return ;

     }

     return ;

 }

 // Helper function for using CUDA to add vectors in parallel.

 cudaError_t addWithCuda(int *c, const int *a, size_t size) {

     int *dev_a = ;

     int *dev_c = ;

     cudaError_t cudaStatus;

     // Choose which GPU to run on, change this on a multi-GPU system.

     cudaStatus = cudaSetDevice();

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr,

                 "cudaSetDevice failed!  Do you have a CUDA-capable GPU installed?");

         goto Error;

     }

     // Allocate GPU buffers for three vectors (two input, one output)    .

     cudaStatus = cudaMalloc((void**) &dev_c, size * sizeof(int));

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaMalloc failed!");

         goto Error;

     }

     cudaStatus = cudaMalloc((void**) &dev_a, size * sizeof(int));

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaMalloc failed!");

         goto Error;

     }

     // Copy input vectors from host memory to GPU buffers.

     cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int),

             cudaMemcpyHostToDevice);

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaMemcpy failed!");

         goto Error;

     }

     // Launch a kernel on the GPU with one thread for each element.

     addKernel<<<, size, size * sizeof(int), >>>(dev_c, dev_a);

     // cudaThreadSynchronize waits for the kernel to finish, and returns

     // any errors encountered during the launch.

     cudaStatus = cudaThreadSynchronize();

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr,

                 "cudaThreadSynchronize returned error code %d after launching addKernel!\n",

                 cudaStatus);

         goto Error;

     }

     // Copy output vector from GPU buffer to host memory.

     cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int),

             cudaMemcpyDeviceToHost);

     if (cudaStatus != cudaSuccess) {

         fprintf(stderr, "cudaMemcpy failed!");

         goto Error;

     }

     Error: cudaFree(dev_c);

     cudaFree(dev_a);

     return cudaStatus;

 }

22+103+61+63+17 = 266
22^2+103^2+61^2+63^2+17^2 = 19072
22*103*61*63*17 = 17
22^103^61^63^17 = 98

cuda多线程间通信的更多相关文章

（十一）boost库之多线程间通信
(十一)boost库之多线程间通信 1.互斥锁在编程中,引入了对象互斥锁的概念,来保证共享数据操作的完整性.每个对象都对应于一个可称为" 互斥锁" 的标记,这个标记用来保证在任一 ...
Java 多线程间通信
JDK 1.5 以后, 将同步和锁封装成了对象, 并将操作锁的隐式方法定义到了该对象中, 将隐式动作变成了显示动作. Lock 接口 Lock 接口, 位于 java.util.concurrent. ...
Java多线程间通信-解决安全问题、等待唤醒机制
/*1.增加一个知识点一个类怎么在所有的类中,让其它类来共同修改它的数据呢?可以用单例设计模式可以用静态可以在其它类中做一个构造函数,接受同一个对象,这样就可以实现对象 2.状态选择可以用数字0 1 ...
多线程间通信之AutoResetEvent和ManualResetEvent的原理分析和开发示例
AutoResetEvent 允许线程通过发信号互相通信. 通常,当线程需要独占访问资源时使用该类. 线程通过调用 AutoResetEvent 上的 WaitOne 来等待信号. 如果 AutoRe ...
java 多线程间通信（二）
传统的线程通信 Object提供了三个方法wait(), notify(), notifyAll()在线程之间进行通信,以此来解决线程间执行顺序等问题. wait():释放当前线程的同步监视控制器,并 ...
多线程间通信之AutoResetEvent和ManualResetEvent的原理分析
AutoResetEvent 允许线程通过发信号互相通信. 通常,当线程需要独占访问资源时使用该类. 线程通过调用 AutoResetEvent 上的 WaitOne 来等待信号. 如果 AutoRe ...
java 多线程间通信（一）
synchronized同步 package com.test7; public class Run { public class MyObject { private int a; public M ...
wxpython多线程间通信
#!bin/bash/python # -*- coding=utf-8 -*- import time import wx from threading import Thread from wx. ...
06_Java多线程、线程间通信
1. 线程的概念 1.1多进程与多线程进程:一个正在执行的程序.每个进程执行都有一个执行顺序,该顺序是一个执行路径,或叫一个控制单元. 一个进程至少有一个线程. 线程:就是进程中的一个独立 ...

随机推荐

CSS3与页面布局学习笔记（二）——盒子模型(Box Model)、边距折叠、内联与块标签、CSSReset
一.盒子模型(Box Model) 盒子模型也有人称为框模型,HTML中的多数元素都会在浏览器中生成一个矩形的区域,每个区域包含四个组成部分,从外向内依次是:外边距(Margin).边框(Border ...
【zepto学习笔记01】核心方法$()
前言我们移动端基本使用zepto了,而我也从一个小白变成稍微靠谱一点的前端了,最近居然经常要改到zepto源码但是,我对zepto不太熟悉,其实前端水准还是不够,所以便私下偷偷学习下吧,别被发现了 ...
SyBase Powerdesigner生成数据库详细表
工具: Sybase PowerDesigner 15.1 Microsoft SQL Server 2005 第一步概要设计: 打开PowerDesigner软件,设计“概念数据模型”(Concep ...
ArcGIS JS 学习笔记2 实现仿百度的拖拽画圆
一.前言吐槽一下,百度在国内除了百度地图是良心产品外,其他的真的不敢恭维.在上一篇笔记里,我已经实现了自定义的地图测量模块.在百度地图里面(其他地图)都有一个周边搜索的功能,拖拽画一个圆,然后以圆半 ...
[Java] Tomcat环境变量设置
@echo off title Tomcat环境变量设置 color 0a set /p inputTH=D:\Work\024_Tomcat if /i "%inputTH%"= ...
SAML : A SAML stack
http://nzpcmad.blogspot.co.nz/2013/06/saml-saml-stack.html You have an application – .NET, JAVA what ...
Day Tips：Search CPU 100%
Powershell:Set-SPEnterpriseSearchService -PerformanceLevel Reduced Specifies the relativ ...
Android Handler机制（一）---Message源码分析
Message: 定义: public final class Message implements Parcelable Message类是个final类,就是说不能被继承,同时Message类实现 ...
iOS 单例传值遇见问题
单例模式的意思就是只有一个实例.单例模式确保某一个类只有一个实例,而且自行实例化并向整个系统提供这个实例.这个类称为单例类. 1.单例模式的要点: 显然单例模式的要点有三个:一是某个类只能有一个实例: ...
Swift开发第九篇——Any和AnyObject&typealias和泛型接口
本篇分为两部分: 一.Swift中的Any和AnyObject 二.Swift中的typealias和泛型接口一.Swift中的Any和AnyObject 在 Swift 中,AnyObject 可 ...

cuda多线程间通信

cuda多线程间通信的更多相关文章

随机推荐

热门专题