矩阵赋值实例(matrixAssign)
题目:给一个二维数组赋值。
分析:主机端代码完成的主要功能:
- 启动CUDA,使用多卡时应加上设备号,或使用cudaSetDevice()设置GPU设备。
- 为输入数据分配内存空间
- 初始化输入数据
- 为GPU分配显存,用于存放输入数据
- 将内存中的输入数据拷贝到显存。
- 为GPU分配显存,用于存放输出数据。
- 调用device端的Kernel进行计算,将结果写到显存中的对应区域。
- 为CPU分配内存,用于存放GPU传回的输出数据
- 将显存中的结果回读到内存。
- 使用CPU对传回的数据进行其他的处理。
- 释放内存和显存空间。
- 退出CUDA
设备端代码要完成的任务:
- 从显存读取数据到GPU片内。
- 对数据进行处理。
- 将处理后的数据写回显存。
实现代码:
#include <stdlib.h> //系统头文件
#include <stdio.h>
#include <string.h>
#include <math.h> // 核函数,GPU端代码 #ifndef _EXAMPLE_1_KERNEL_H_
#define _EXAMPLE_1_KERNEL_H_
//////#include <stdio.h> //在emu模式下包含这个头文件,以便输出一些中间结果来观察,在GPU实际运行时是不能使用的
////////////////////////////////////////////////////////////////////////////////
//! Simple test kernel for device functionality
//! @param g_idata input data in global memory
//! @param g_odata output data in global memory
////////////////////////////////////////////////////////////////////////////////
__global__ void
testKernel( float* g_idata, float* g_odata)
{
// shared memory
// extern表示大小由host端的Ns参数确定
extern __shared__ float sdata[]; // access thread id
const unsigned int bid = blockIdx.x; //线程所在的block的索引号
const unsigned int tid_in_block = threadIdx.x; //线程在block中的位置
const unsigned int tid_in_grid = blockDim.x * blockIdx.x + threadIdx.x;
//按行划分任务时,线程在整个grid中的位置 // 将数据从global memory读入shared memory
sdata[tid_in_block] = g_idata[tid_in_grid];
//读入数据后进行一次同步,保证计算时所有数据均已到位
__syncthreads(); // 计算
sdata[tid_in_block] *= (float)bid;
// sdata[tid_in_block] *= (float)tid_in_block;
// sdata[tid_in_block] *= (float)tid_in_grid; //进行同步,确保要写入的数据已经被更新
__syncthreads(); // 将shared memory中的数据写到global memory
g_odata[tid_in_grid] = sdata[tid_in_block];
} #endif // #ifndef _EXAMPLE_1_KERNEL_H_ // 函数声明
void runTest( int argc, char** argv); // 主函数
int main( int argc, char** argv)
{
runTest( argc, argv);
} void runTest( int argc, char** argv)
{ unsigned int num_blocks = 4; //定义网格中的线程块数量
unsigned int num_threads = 4;//定义每个线程块中的线程数量 unsigned int mem_size = sizeof(float) * num_threads * num_blocks;//为数据分配的存储器大小,这里我们用每一个线程计算一个单精度浮点数。 // 在host端分配内存,h_表示host端,i表示input,o表示output
//输入数据
float* h_idata = (float*) malloc( mem_size);
//输出数据
float* h_odata = (float*) malloc( mem_size); // 在device端分配显存,d_表示device端
//显存中的输入数据
float* d_idata;
cudaMalloc( (void**) &d_idata, mem_size);
//显存中的输出数据
float* d_odata;
cudaMalloc( (void**) &d_odata, mem_size); // 初始化内存中的值
for( unsigned int i = 0; i < num_threads * num_blocks; i++)
{
h_idata[i] = 1.0f;
}
// 将内存中的输入数据读入显存,这样就完成了主机对设备的数据写入
cudaMemcpy( d_idata, h_idata, mem_size,cudaMemcpyHostToDevice ); // 设置运行参数,即网格的形状和线程块的形状
dim3 grid( num_blocks, 1, 1);
dim3 threads( num_threads, 1, 1); // 运行核函数,调用GPU进行运算
testKernel<<< grid, threads, mem_size >>>( d_idata, d_odata); // 将结果从显存写入内存
cudaMemcpy( h_odata, d_odata, mem_size,cudaMemcpyDeviceToHost ); // 打印结果
for( unsigned int i = 0; i < num_blocks; i++)
{
for( unsigned int j = 0; j < num_threads; j++)
{
printf( "%5.0f", h_odata[ i * num_threads + j]);
}
printf("\n");
} // 释放存储器
free( h_idata);
free( h_odata);
cudaFree(d_idata);
cudaFree(d_odata);
}
矩阵赋值实例(matrixAssign)的更多相关文章
- Matlab获取文件夹下所有文件名并将数据按矩阵赋值给变量
一.获取一个文件夹下所有文件名: fileFolder=fullfile('D:\MATLAB\bin\trc'); dirOutput=dir(fullfile(fileFolder,'*.trc' ...
- jQuery对html元素的取值与赋值实例详解
jQuery对html元素的取值与赋值实例详解 转载 2015-12-18 作者:欢欢 我要评论 这篇文章主要介绍了jQuery对html元素的取值与赋值,较为详细的分析了jQuery针对常 ...
- StringGrid 实例3: 本例功能: 1、修改 TStringGrid的默认宽与高; 2、添加行; 3、确认当前单元并赋值.
实例3: 本例功能: 1.修改 TStringGrid的默认宽与高; 2.添加行; 3.确认当前单元并赋值. 实例图形:
- 访问Mat矩阵中的元素并为其赋值
在OpenCV中有三种方式访问矩阵中的数据元素:容易的方式,困难的方式,以及正确的方式.今天主要讲容易方式: 最容易的方式是使用宏CV_MAT_ELEM( matrix, elemtype, row, ...
- OpenGL矩阵类(C++)
概述 创建&初始化 存取器 矩阵运算 变换函数 实例:模型视图矩阵 实例:投影矩阵 概述 OpenGL固定功能管线提供4个不同类型的矩阵(GL_MODELVIEW.GL_PROJECTION. ...
- OpenGL矩阵类(C++) 【转】
http://www.cnblogs.com/hefee/p/3816727.html OpenGL矩阵类(C++) 概述 创建&初始化 存取器 矩阵运算 变换函数 实例:模型视图矩阵 实例: ...
- 快速入门:Python简单实例100个(入门完整版)
Python3 100例 文章目录 Python3 100例 实例001:数字组合 实例002:“个税计算” 实例003:完全平方数 实例004:这天第几天 实例005:三数排序 实例006:斐波那契 ...
- Matlab之矩阵
1.新建矩阵 A = zeros(5,5); 2.矩阵赋值 A(:,j) = [5 5]表示取A矩阵的第j列全部元素 a.矩阵的同行元素之间用空格(或”,”)隔开: b.矩阵的行与行之间用”;”(或 ...
- 4-2.矩阵乘法的Strassen算法详解
题目描述 请编程实现矩阵乘法,并考虑当矩阵规模较大时的优化方法. 思路分析 根据wikipedia上的介绍:两个矩阵的乘法仅当第一个矩阵B的列数和另一个矩阵A的行数相等时才能定义.如A是m×n矩阵和B ...
随机推荐
- 我的Pandas应用场景
声明 工作后,很不幸的成为了团队中的QA.QA这个角色吧,说起来高大上,实际很苦逼,一句话概括一下:吃力不讨好!作为新人,公司每月一分钱没少我,至少现在跟开发的待遇是一样的,所以我还是得兢兢业业的对待 ...
- Morn简介及使用教程
[Morn UI系列教程]Morn简介及使用教程 网页游戏开发的一大部分工作是在和UI制作上,一个好的工具及框架能使开发事半功倍,Adobe自带flash IDE和Flex各有不足. Morn UI学 ...
- JS放大镜特效(兼容版)
原理 1.鼠标在小图片上移动时,通过捕获鼠标在小图片上的位置,定位大图片的相应位置 设计 1.页面元素:小图片.大图片.放大镜 2.技术点:事件捕获.定位 1)onmouseover:会在鼠标指针移动 ...
- MySQL的数据类型,MySQL增删改--添加主外键、添加属性、删除主外键、改表名、获取系统当前时间等
ls /etc/rc.d/init.d/mysql56service mysql56 start ps aux |grep "mysql"|grep "socket=&q ...
- Web基础知识和技术
WEB是一个外延广泛的概念,不单单指网站,乌徒帮专注拥有WEB界面的网站开发,帮助初学者或已经进入开发的朋友们提供参考讨论平台,然而并不一定能将所有的WEB知识讲全讲透,只是能满足初涉者的建站需求,能 ...
- Haxe2.10到Haxe3,NME到OpenFL的迁移备忘
终于决定正式向Haxe3和OpenFL迁移了,这期间也遇到不少问题,这里总结记录如下: 首先是Haxe3环境 * 因为还想保留Haxe 2.10的环境,因此没有使用官网的Haxe 3安装包,而是下载了 ...
- JavaScript系列文章:详解正则表达式之三
在上两篇文章中博主介绍了JavaScript中的正则常用方法和正则修饰符,今天准备聊一聊元字符和高级匹配的相关内容. 首先说说元字符,想必大家也都比较熟悉了,JS中的元字符有以下几种: / \ | . ...
- Java基础IO文件拷贝练习题
/** * 编写一个程序,把指定目录下的所有的带.java文件都拷贝到另一个目录中,拷贝成功后,把后缀名是.java的改成.txt. */ 1.我们看到这个题还是用大化小的思想来做 分析:1.拷贝 & ...
- testlink用例转换小工具(excel转为xml,python版)
前面文章记录了testlink的安装方法(CentOS 7下安装xampp和testlink),由于testlink仅支持xml格式的用例导入,研究了下excel转xml的方法, 从网上其他网友那里借 ...
- Docker环境下如何安装Zookeeper
第一步:首先下载Zookeeper的镜像文件: 从仓库中pull 这个zookeeper镜像:docker pull jplock/zookeeper:3.4.8 然后docker images查看该 ...