CUDA 例程

scalar add

#include <thrust/host_vector.h>

#include <thrust/device_vector.h>

#include <iostream>

__global__ void add(int *a, int *b,int *c)

{

c[blockIdx.x]=a[blockIdx.x]+b[blockIdx.x];

}

int main(void)

{ // H has storage for 4 integers

int a,b,c;

int *da,*db,*dc;

int size=*sizeof(int); //scalar;

cudaMalloc((void**)&da,size);

cudaMalloc((void**)&db,size);

cudaMalloc((void**)&dc,size);

a=;

b=;

cudaMemcpy(da,&a,size,cudaMemcpyHostToDevice);

cudaMemcpy(db,&b,size,cudaMemcpyHostToDevice);

add<<<,>>>(da,db,dc);

cudaMemcpy(&c,dc,size,cudaMemcpyDeviceToHost );

std::cout<<c<<std::endl;

cudaFree(da);

cudaFree(db);

cudaFree(dc);

std::cout<<"hell";

thrust::host_vector<int> H();

// initialize individual elements

H[] = ; H[] = ; H[] = ; H[] = ;

// H.size() returns the size of vector H

std::cout << "H has size " << H.size() << std::endl;

// print contents of H

for(int i = ; i < H.size(); i++) std::cout << "H[" << i << "] = " << H[i] << std::endl;

// resize H

H.resize();

std::cout << "H now has size " << H.size() << std::endl;

// Copy host_vector H to device_vector D

thrust::device_vector<int> D = H;

// elements of D can be modified

D[] = ; D[] = ; // print contents of D

for(int i = ; i < D.size(); i++) std::cout << "D[" << i << "] = " << D[i] << std::endl;

// H and D are automatically deleted when the function returns

return ; }

block or thread

#include <thrust/host_vector.h>

#include <thrust/device_vector.h>

#include <iostream> 

const int N=;

__global__ void add(int *a, int *b,int *c)

{

c[blockIdx.x]=a[blockIdx.x]+b[blockIdx.x];      //c[threadIdx.x]=a[threadIdx.x]+b[threadIdx.x];

}

int main(void)

{ // H has storage for 4 integers

int *a,*b,*c;

int *da,*db,*dc;

int size=N*sizeof(int); //scalar;

cudaMalloc((void**)&da,size);

cudaMalloc((void**)&db,size);

cudaMalloc((void**)&dc,size);

a=(int *) malloc(size);

memset(a,,N*sizeof(int));//rand_ints(a,N);

a[]=;

a[]=;

b=(int *) malloc(size);  memset(b,, N*sizeof(int));// rand_ints(b,N);

b[]=;

b[]=;

c=(int *) malloc(size); //rand_ints(c,N);

memset(c,, N*sizeof(int));

cudaMemcpy(da,a,size,cudaMemcpyHostToDevice);

cudaMemcpy(db,b,size,cudaMemcpyHostToDevice);

add<<<N,>>>(da,db,dc);               //N blocks  add<<<1,N>>>(da,db,dc);   N threads

cudaMemcpy(c,dc,size,cudaMemcpyDeviceToHost ); for (int i=; i<;i++) std::cout<<c[i]<<std::endl; //_syncthreads(); //useless cudaDeviceSynchronize(); free(a); free(b); free(c); cudaFree(da); cudaFree(db); cudaFree(dc); return ; }

block+thread
#include <thrust/host_vector.h>

#include <thrust/device_vector.h>

#include <iostream> 

/*

#define N (2048*2048)
#define M 512 // THREADS_PER_BLOCK
…
add<<<N/M, M>>>(d_a, d_b, d_c);

N /M      blocks used
M   threads / block
*/

const int N=*;

const int M=;

__global__ void add(int *a, int *b,int *c,int n)

{

int index=threadIdx.x+blockIdx.x*blockDim.x;

c[index]=a[index]+b[index];

if (index<n)

  c[index]=a[index]+b[index];

//c[threadIdx.x]=a[threadIdx.x]+b[threadIdx.x];

}

int main(void)

{ // H has storage for 4 integers

int *a,*b,*c;

int *da,*db,*dc;

int size=N*sizeof(int); //scalar;

cudaMalloc((void**)&da,size);

cudaMalloc((void**)&db,size);

cudaMalloc((void**)&dc,size);

a=(int *) malloc(size);

memset(a,,N*sizeof(int));//rand_ints(a,N);

a[]=;

a[]=;

b=(int *) malloc(size);  memset(b,, N*sizeof(int));// rand_ints(b,N);

b[]=;

b[]=;

c=(int *) malloc(size); //rand_ints(c,N);

memset(c,, N*sizeof(int));

cudaMemcpy(da,a,size,cudaMemcpyHostToDevice);

cudaMemcpy(db,b,size,cudaMemcpyHostToDevice);

add<<<(N+M-)/M,M>>>(da,db,dc,N);

cudaMemcpy(c,dc,size,cudaMemcpyDeviceToHost );

for (int i=; i<;i++)

std::cout<<c[i]<<std::endl;

//_syncthreads();

//useless

cudaDeviceSynchronize();

free(a);

free(b);

free(c);

cudaFree(da);

cudaFree(db);

cudaFree(dc);

return ; }

CUDA 例程的更多相关文章

【ARM-Linux开发】【CUDA开发】NVIDIA Jetson TX2 进阶：Nsight Eclipse Edition
嵌入式平台:NVIDIA Jetson TX2 嵌入式系统:Ubuntu16.04 虚拟机系统:Ubuntu14.04 一.NSight简介 Jetpack开发工具为人工智能提供了一整套软件架构,包括 ...
Ubuntu16.04+GTX2070+Driver418.43+CUDA10.1+cuDNN7.6
最近需要用到一台服务器的GPU跑实验,其间 COLMAP 编译过程出错,提示 cuda 版本不支持,cmake虽然通过了,但其实没有找到支持的CUDA架构. cv@cv:~/mvs_project/c ...
CUDA从入门到精通
http://blog.csdn.net/augusdi/article/details/12833235 CUDA从入门到精通(零):写在前面在老板的要求下.本博主从2012年上高性能计算课程開始 ...
cuda编程（一）
环境安装和例程运行显卡主要有两家,ATI.NVIDIA,简称A卡和N卡.随着GPU计算能力的上升,采用GPU并行计算来加速的应用越来越多. Nvidia创立人之一,黄仁勋(Jen-Hsun Huan ...
显存充足，但是却出现CUDA error:out of memory错误
之前一开始以为是cuda和cudnn安装错误导致的,所以重装了,但是后来发现重装也出错了. 后来重装后的用了一会也出现了问题.确定其实是Tensorflow和pytorch冲突导致的,因为我发现当我同 ...
pytorch官网上两个例程
caffe用起来太笨重了,最近转到pytorch,用起来实在不要太方便,上手也非常快,这里贴一下pytorch官网上的两个小例程,掌握一下它的用法: 例程一:利用nn 这个module构建网络,实现 ...
CUDA从入门到精通 - Augusdi的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/augusdi/article/details/12833235 CUDA从入门到精通 - Augusdi的专栏 - 博客频道 - CSDN.NET CUDA ...
CUDA编程接口:异步并发执行的概念和API
1.主机和设备间异步执行为了易于使用主机和设备间的异步执行,一些函数是异步的:在设备完全完成任务前,控制已经返回给主机线程了.它们是: 内核发射; 设备间数据拷贝函数; 主机和设备内拷贝小于64KB ...
CUDA：Supercomputing for the Masses (用于大量数据的超级计算)-第八节
原文链接第八节:利用CUDA函数库 Rob Farber 是西北太平洋国家实验室(Pacific Northwest National Laboratory)的高级科研人员.他在多个国家级的实验室进 ...

随机推荐

MySQL的分区、分表、集群
1.分区 mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可以通过my.cnf中的datadir来查看),一张表主要对应着三个文件,一个是frm存放表结构的,一 ...
openshift 容器云从入门到崩溃之七《数据持久化》
数据持久化常用的有两种: hostPath 挂载容器宿主机的本地文件夹,直接修改pod的配置 volumes: - hostPath: path: /data/logging-es type: '' ...
C#窗体程序与sql sever 数据库链接
一.所用工具 Visual Studio 2017和SQL Server Management Studio 2012 二.连接打开SQL Server Management Studio 2012 ...
Android开发中使用Intent跳转到系统应用中的拨号界面、联系人界面、短信界面
现在开发中的功能需要直接跳转到拨号.联系人.短信界面等等,查找了很多资料,自己整理了一下. 首先,我们先看拨号界面,代码如下: Intent intent =new Intent(); intent. ...
Google 开发的、最好用、功能最强大的网页测速与网站性能分析工具
https://www.webpagetest.org/细致到每一个资源的加载都是完全可视化,包含详细的数据分析.开发完成自己的网站后一定要进行一下测试,你会发现还有很多可以优化的点.
【记忆网络 2 】 End-to-End Memory Network
继上一篇:Memory Network 1. 摘要引入了一个神经网络,在一个可能很大的外部记忆上建立了一个recurrent attention模型. 该体系结构是记忆网络的一种形式,但与该工作中的 ...
清除wnTKYg 这个挖矿工木马的过程讲述
由于工作需要,我由一个专业java开发工程师,渐渐的也成为了不专业的资深的运维工程师了.感慨一番,书归正传,下面就讲解wnTKYg如何清除.最近项目在做性能测试,发现CPU使用率异常,无人访问时CPU ...
HDU 5279 YJC plays Minecraft（NTT+分治）
题意有 \(n\) 个岛屿,第 \(i\) 个岛屿上有一张 \(a_i\) 的完全图.其中第 \(i\) 张完全图的 \(a_i\) 号节点和 \(i+1\) 号岛屿的 \(1\) 号节点有边相连( ...
比原链Bytom错误码一览
0XX API错误 BTM000", "Bytom API Error" 非比原标准错误 BTM001", "Request timed out&qu ...
Learning-Python【16】：模块的导入使用
一.什么是模块模块就是一系列功能的集合体,一个模块就是一个包含了Python定义和声明的文件,文件名就是模块名字加上.py的后缀. 模块有三种来源: 1.内置的模块 2.第三方的模块 3.自定义模块 ...

CUDA 例程

CUDA 例程的更多相关文章

随机推荐

热门专题