矩阵赋值实例（matrixAssign）

题目：给一个二维数组赋值。

分析：主机端代码完成的主要功能：

启动CUDA，使用多卡时应加上设备号，或使用cudaSetDevice（）设置GPU设备。
为输入数据分配内存空间
初始化输入数据
为GPU分配显存，用于存放输入数据
将内存中的输入数据拷贝到显存。
为GPU分配显存，用于存放输出数据。
调用device端的Kernel进行计算，将结果写到显存中的对应区域。
为CPU分配内存，用于存放GPU传回的输出数据
将显存中的结果回读到内存。
使用CPU对传回的数据进行其他的处理。
释放内存和显存空间。
退出CUDA

设备端代码要完成的任务：

从显存读取数据到GPU片内。
对数据进行处理。
将处理后的数据写回显存。

实现代码：

#include <stdlib.h>  //系统头文件

#include <stdio.h>

#include <string.h>

#include <math.h>

// 核函数，GPU端代码

#ifndef _EXAMPLE_1_KERNEL_H_

#define _EXAMPLE_1_KERNEL_H_

//////#include <stdio.h> //在emu模式下包含这个头文件，以便输出一些中间结果来观察，在GPU实际运行时是不能使用的

////////////////////////////////////////////////////////////////////////////////

//! Simple test kernel for device functionality

//! @param g_idata  input data in global memory

//! @param g_odata  output data in global memory

////////////////////////////////////////////////////////////////////////////////

__global__ void

testKernel( float* g_idata, float* g_odata)

{

  // shared memory

  // extern表示大小由host端的Ns参数确定

  extern  __shared__  float sdata[];

  // access thread id

  const unsigned int bid = blockIdx.x; //线程所在的block的索引号

  const unsigned int tid_in_block = threadIdx.x; //线程在block中的位置

  const unsigned int tid_in_grid = blockDim.x * blockIdx.x + threadIdx.x;

//按行划分任务时，线程在整个grid中的位置

  // 将数据从global memory读入shared memory

  sdata[tid_in_block] = g_idata[tid_in_grid];

  //读入数据后进行一次同步，保证计算时所有数据均已到位

  __syncthreads();

  // 计算

  sdata[tid_in_block] *= (float)bid;

//  sdata[tid_in_block] *= (float)tid_in_block;

//  sdata[tid_in_block] *= (float)tid_in_grid;

  //进行同步，确保要写入的数据已经被更新

  __syncthreads();

  // 将shared memory中的数据写到global memory

  g_odata[tid_in_grid] = sdata[tid_in_block];

}

#endif // #ifndef _EXAMPLE_1_KERNEL_H_

// 函数声明

void runTest( int argc, char** argv);

// 主函数

int main( int argc, char** argv)

{

    runTest( argc, argv);

}

void runTest( int argc, char** argv)

{

    unsigned int num_blocks = 4; //定义网格中的线程块数量

    unsigned int num_threads = 4;//定义每个线程块中的线程数量

	unsigned int mem_size = sizeof(float) * num_threads * num_blocks;//为数据分配的存储器大小，这里我们用每一个线程计算一个单精度浮点数。

	// 在host端分配内存，h_表示host端，i表示input，o表示output

	//输入数据

	float* h_idata = (float*) malloc( mem_size);

	//输出数据

	float* h_odata = (float*) malloc( mem_size);

	// 在device端分配显存，d_表示device端

	//显存中的输入数据

	float* d_idata;

	cudaMalloc( (void**) &d_idata, mem_size);

	//显存中的输出数据

	float* d_odata;

	cudaMalloc( (void**) &d_odata, mem_size);

	 // 初始化内存中的值

	 for( unsigned int i = 0; i < num_threads * num_blocks; i++)

	 {

			h_idata[i] = 1.0f;

	 }

	 // 将内存中的输入数据读入显存，这样就完成了主机对设备的数据写入

	  cudaMemcpy( d_idata, h_idata, mem_size,cudaMemcpyHostToDevice );

    // 设置运行参数，即网格的形状和线程块的形状

    dim3  grid( num_blocks, 1, 1);

    dim3  threads( num_threads, 1, 1);

    // 运行核函数，调用GPU进行运算

    testKernel<<< grid, threads, mem_size >>>( d_idata, d_odata);

    // 将结果从显存写入内存

    cudaMemcpy( h_odata, d_odata, mem_size,cudaMemcpyDeviceToHost );

    // 打印结果

    for( unsigned int i = 0; i < num_blocks; i++)

    {

        for( unsigned int j = 0; j < num_threads; j++)

        {

	    printf( "%5.0f", h_odata[ i * num_threads + j]);

        }

        printf("\n");

    }

    // 释放存储器

    free( h_idata);

    free( h_odata);

    cudaFree(d_idata);

    cudaFree(d_odata);

}

矩阵赋值实例（matrixAssign）的更多相关文章

Matlab获取文件夹下所有文件名并将数据按矩阵赋值给变量
一.获取一个文件夹下所有文件名: fileFolder=fullfile('D:\MATLAB\bin\trc'); dirOutput=dir(fullfile(fileFolder,'*.trc' ...
jQuery对html元素的取值与赋值实例详解
jQuery对html元素的取值与赋值实例详解转载 2015-12-18 作者:欢欢我要评论这篇文章主要介绍了jQuery对html元素的取值与赋值,较为详细的分析了jQuery针对常 ...
StringGrid 实例3：本例功能: 1、修改 TStringGrid的默认宽与高; 2、添加行; 3、确认当前单元并赋值.
实例3: 本例功能: 1.修改 TStringGrid的默认宽与高; 2.添加行; 3.确认当前单元并赋值. 实例图形:
访问Mat矩阵中的元素并为其赋值
在OpenCV中有三种方式访问矩阵中的数据元素:容易的方式,困难的方式,以及正确的方式.今天主要讲容易方式: 最容易的方式是使用宏CV_MAT_ELEM( matrix, elemtype, row, ...
OpenGL矩阵类(C++)
概述创建&初始化存取器矩阵运算变换函数实例:模型视图矩阵实例:投影矩阵概述 OpenGL固定功能管线提供4个不同类型的矩阵(GL_MODELVIEW.GL_PROJECTION. ...
OpenGL矩阵类(C++) 【转】
http://www.cnblogs.com/hefee/p/3816727.html OpenGL矩阵类(C++) 概述创建&初始化存取器矩阵运算变换函数实例:模型视图矩阵实例: ...
快速入门：Python简单实例100个（入门完整版）
Python3 100例文章目录 Python3 100例实例001:数字组合实例002:“个税计算” 实例003:完全平方数实例004:这天第几天实例005:三数排序实例006:斐波那契 ...
Matlab之矩阵
1.新建矩阵 A = zeros(5,5); 2.矩阵赋值 A(:,j) = [5 5]表示取A矩阵的第j列全部元素 a.矩阵的同行元素之间用空格(或”,”)隔开: b.矩阵的行与行之间用”;”(或 ...
4-2.矩阵乘法的Strassen算法详解
题目描述请编程实现矩阵乘法,并考虑当矩阵规模较大时的优化方法. 思路分析根据wikipedia上的介绍:两个矩阵的乘法仅当第一个矩阵B的列数和另一个矩阵A的行数相等时才能定义.如A是m×n矩阵和B ...

随机推荐

我的Pandas应用场景
声明工作后,很不幸的成为了团队中的QA.QA这个角色吧,说起来高大上,实际很苦逼,一句话概括一下:吃力不讨好!作为新人,公司每月一分钱没少我,至少现在跟开发的待遇是一样的,所以我还是得兢兢业业的对待 ...
Morn简介及使用教程
[Morn UI系列教程]Morn简介及使用教程网页游戏开发的一大部分工作是在和UI制作上,一个好的工具及框架能使开发事半功倍,Adobe自带flash IDE和Flex各有不足. Morn UI学 ...
JS放大镜特效（兼容版）
原理 1.鼠标在小图片上移动时,通过捕获鼠标在小图片上的位置,定位大图片的相应位置设计 1.页面元素:小图片.大图片.放大镜 2.技术点:事件捕获.定位 1)onmouseover:会在鼠标指针移动 ...
MySQL的数据类型，MySQL增删改--添加主外键、添加属性、删除主外键、改表名、获取系统当前时间等
ls /etc/rc.d/init.d/mysql56service mysql56 start ps aux |grep "mysql"|grep "socket=&q ...
Web基础知识和技术
WEB是一个外延广泛的概念,不单单指网站,乌徒帮专注拥有WEB界面的网站开发,帮助初学者或已经进入开发的朋友们提供参考讨论平台,然而并不一定能将所有的WEB知识讲全讲透,只是能满足初涉者的建站需求,能 ...
Haxe2.10到Haxe3，NME到OpenFL的迁移备忘
终于决定正式向Haxe3和OpenFL迁移了,这期间也遇到不少问题,这里总结记录如下: 首先是Haxe3环境 * 因为还想保留Haxe 2.10的环境,因此没有使用官网的Haxe 3安装包,而是下载了 ...
JavaScript系列文章：详解正则表达式之三
在上两篇文章中博主介绍了JavaScript中的正则常用方法和正则修饰符,今天准备聊一聊元字符和高级匹配的相关内容. 首先说说元字符,想必大家也都比较熟悉了,JS中的元字符有以下几种: / \ | . ...
Java基础IO文件拷贝练习题
/** * 编写一个程序,把指定目录下的所有的带.java文件都拷贝到另一个目录中,拷贝成功后,把后缀名是.java的改成.txt. */ 1.我们看到这个题还是用大化小的思想来做分析:1.拷贝 & ...
testlink用例转换小工具（excel转为xml，python版）
前面文章记录了testlink的安装方法(CentOS 7下安装xampp和testlink),由于testlink仅支持xml格式的用例导入,研究了下excel转xml的方法, 从网上其他网友那里借 ...
Docker环境下如何安装Zookeeper
第一步:首先下载Zookeeper的镜像文件: 从仓库中pull 这个zookeeper镜像:docker pull jplock/zookeeper:3.4.8 然后docker images查看该 ...

矩阵赋值实例（matrixAssign）

矩阵赋值实例（matrixAssign）的更多相关文章

随机推荐

热门专题