0_Simple__inlinePTX + 0_Simple__inlinePTX

在核函数代码中加入并行线程执行（Parallel Thread eXecution，PTX），通过汇编指令获取得有关线程束的信息。并且在静态代码和运行时编译两种条件下使用。

▶ 源代码：静态使用

 #include <stdio.h>

 #include <assert.h>

 #include <cuda_runtime.h>

 #include "device_launch_parameters.h"

 #include <helper_functions.h>

 #include <helper_cuda.h>

 __global__ void sequence_gpu(int *d_ptr, int length)

 {

     int elemID = blockIdx.x * blockDim.x + threadIdx.x;

     if (elemID < length)

     {

         unsigned int laneid;

         asm("mov.u32 %0, %%laneid;" : "=r"(laneid));// 获取当前线程在线程束中的编号

         d_ptr[elemID] = laneid;

     }

 }

 void sequence_cpu(int *h_ptr, int length)

 {

     for (int elemID=; elemID<length; elemID++)

         h_ptr[elemID] = elemID % ;

 }

 int main(int argc, char **argv)

 {

     printf("CUDA inline PTX assembler sample\n");

     const int N = ;

     int dev = findCudaDevice(argc, (const char **) argv);

     if (dev == -)

         return EXIT_FAILURE;

     int *d_ptr;

     cudaMalloc(&d_ptr, N * sizeof(int));

     int *h_ptr;

     cudaMallocHost(&h_ptr, N * sizeof(int));

     dim3 cudaBlockSize(,,);

     dim3 cudaGridSize((N + cudaBlockSize.x - ) / cudaBlockSize.x, , );

     sequence_gpu<<<cudaGridSize, cudaBlockSize>>>(d_ptr, N);

     cudaGetLastError();

     cudaDeviceSynchronize();

     sequence_cpu(h_ptr, N);

     int *h_d_ptr;

     cudaMallocHost(&h_d_ptr, N *sizeof(int));

     cudaMemcpy(h_d_ptr, d_ptr, N *sizeof(int), cudaMemcpyDeviceToHost);

     bool bValid = true;

     for (int i=; i<N && bValid; i++)

     {

         if (h_ptr[i] != h_d_ptr[i])

             bValid = false;

     }

     printf("Test %s.\n", bValid ? "Successful" : "Failed");

     cudaFree(d_ptr);

     cudaFreeHost(h_ptr);

     cudaFreeHost(h_d_ptr);

     getchar();

     return bValid ? EXIT_SUCCESS: EXIT_FAILURE;

 }

▶ 源代码：运行时编译

 /*inlinePTX_kernel.cu*/

 extern "C" __global__ void sequence_gpu(int *d_ptr, int length)

 {

     int elemID = blockIdx.x * blockDim.x + threadIdx.x;

     if (elemID < length)

     {

         unsigned int laneid;

         asm("mov.u32 %0, %%laneid;" : "=r"(laneid));

         d_ptr[elemID] = laneid;

     }

 }

 /*inlinePTX.cpp*/

 #include <stdio.h>

 #include <assert.h>

 #include <cuda_runtime.h>

 #include <nvrtc_helper.h>

 #include <helper_functions.h>

 void sequence_cpu(int *h_ptr, int length)

 {

     for (int elemID=; elemID<length; elemID++)

         h_ptr[elemID] = elemID % ;

 }

 int main(int argc, char **argv)

 {

     printf("CUDA inline PTX assembler sample\n");

     char *ptx, *kernel_file;

     size_t ptxSize;

     kernel_file = sdkFindFilePath("inlinePTX_kernel.cu", argv[]);

     compileFileToPTX(kernel_file, , NULL, &ptx, &ptxSize);

     CUmodule module = loadPTX(ptx, argc, argv);

     CUfunction kernel_addr;

     cuModuleGetFunction(&kernel_addr, module, "sequence_gpu");

     const int N = ;

     int *h_ptr = (int *)malloc(N * sizeof(int));

     dim3 cudaBlockSize(,,);

     dim3 cudaGridSize((N + cudaBlockSize.x - ) / cudaBlockSize.x, , );

     CUdeviceptr d_ptr;

     cuMemAlloc(&d_ptr, N * sizeof(int));

     void *arr[] = { (void *)&d_ptr, (void *)&N };

     cuLaunchKernel(kernel_addr,

                    cudaGridSize.x, cudaGridSize.y, cudaGridSize.z,

                    cudaBlockSize.x, cudaBlockSize.y, cudaBlockSize.z,

                    , , &arr[], );

     cuCtxSynchronize();

     sequence_cpu(h_ptr, N);

     int *h_d_ptr = (int *)malloc(N * sizeof(int));;

     cuMemcpyDtoH(h_d_ptr, d_ptr, N *sizeof(int));

     bool bValid = true;

     for (int i=; i<N && bValid; i++)

     {

         if (h_ptr[i] != h_d_ptr[i])

             bValid = false;

     }

     printf("Test %s.\n", bValid ? "Successful" : "Failed");

     cuMemFree(d_ptr);

     getchar();

     return bValid ? EXIT_SUCCESS: EXIT_FAILURE;

 }

▶ 输出结果：

CUDA inline PTX assembler sample

GPU Device : "GeForce GTX 1070" with compute capability 6.1

Test Successful.

▶ 涨姿势：

● 获取当前线程在线程束中的编号，即同意先乘数中的线程分别获得值 0 ~ 31

asm("mov.u32 %0, %%laneid;" : "=r"(laneid));

0_Simple__inlinePTX + 0_Simple__inlinePTX_nvrtc的更多相关文章

随机推荐

oracle11g 体系结构详解
1.oracle内存由SGA+PGA所构成 2.oracle数据库体系结构数据库的体系结构是指数据库的组成.工作过程与原理,以及数据在数据库中的组织与管理机制. oracle工作原理: 1).在数据库 ...
Android 从ImageView中获取Bitmap对象方法
showImageView.setDrawingCacheEnabled(true); Bitmap bitmap=showImageView.getDrawingCache(); showImage ...
80端口被system 占用
1 运行'netstat -ano'发现80端口被pid=4的进程占用 2 打开任务管理器,发现pid=4的进程,其实是system进程,其对应的进程描述是NT kernel & system ...
ASP.NET Core 2.0 支付宝当面付之扫码支付
前言自从微软更换了CEO以后,微软的战略方向有了相当大的变化,不再是那么封闭,开源了许多东西,拥抱开源社区,.NET实现跨平台,收购xamarin并免费提供给开发者等等.我本人是很喜欢.net的,并 ...
Android UI 笔记
EditText中添加小图标 <TextView android:layout_width="wrap_content" android:layout_height=&quo ...
Log4j按级别输出日志到不同文件配置分析（转：projava）
关于LOG4J 按照级别输出日志,并按照级别输出到不同文件中的说法有很多, 网上贴的最多的log4j.properties的设置是这样的 log4j.rootLogger=info,stdout,in ...
DevOps之唠叨话
唠叨话教学:人类培养态度.传授知识.训练技能的活动. 教学手册(Teaching Manual) 教学形式:教材与课程,师生(一对一.一对多).教学内容:系统框架和问答机制,结构(前言.目录.正文. ...
Scrapy框架--使用cookie
CookieMiddleware class scrapy.downloadermiddlewares.cookies.CookieMiddlewar 该中间件使得爬取需要cookie(例如使用ses ...
移动端效果之IndexList
写在前面接着前面的移动端效果讲,这次讲解的的是IndexList的实现原理.效果如下: 代码请看这里:github 移动端效果之swiper 移动端效果之picker 移动端效果之cellSwipe ...
win10 uwp MVVM 轻量框架
如果在开发过程,遇到多个页面之间,需要传输信息,那么可能遇到设计的问题.如果因为一个页面内包含多个子页面和多个子页面之间的通信问题找不到一个好的解决方法,那么请看本文.如果因为ViewModel代码越 ...

0_Simple__inlinePTX + 0_Simple__inlinePTX_nvrtc

0_Simple__inlinePTX + 0_Simple__inlinePTX_nvrtc的更多相关文章

随机推荐

热门专题