1. cuda的安装

到 https://developer.nvidia.com/cuda-toolkit 去下载。在安装的时候一定要自定义安装，否则将会安装很多无用的东西。安装的选项，可以选择不更新驱动程序。

或者下载离线文件安装

安装，选择自定义安装。

安装后，和英伟达cuda相关的程序如下图所示。

注意，千万不要勾选 Nsight Visual Studio Edition 2019.2等类似的无用的东西。

2. 测试环境是否安装成功

运行cmd，输入nvcc --version 即可查看版本号；

set cuda，可以查看cuda设置的环境变量。

3. 运行官方自带的demo

在任务管理器中搜索，Browse CUDA Samples。或者一般位于 C:\ProgramData\NVIDIA Corporation\CUDA Samples

未编译前，Debug文件夹中只有三个文件，如图。

成功编译后这个位置（具体路径见上图）将生成很多文件，在其中找到deviceQueryDrv.exe的程序拖入到cmd中，回车运行。

4. 自己配置cuda项目

（1）打开vs2017，创建一个空win32程序,即cuda_test项目。

（2）选择cuda_test，点击右键–>项目依赖项–>自定义生成，选择CUDA10.1。

（3）右键源文件文件夹->添加->新建项->选择CUDA C/C++File，取名cuda_main。

（4）点击cuda_main.cu的属性,在配置属性–>常规–>项类型–>选择“CUDA C/C++”。

注意：以下步骤中的项目属性设置均针对x64。

（5）包含目录配置：

右键点击项目属性–>属性–>配置属性–>VC++目录–>包含目录

添加包含目录：$(CUDA_PATH)\include

（6）库目录配置

添加库目录：$(CUDA_PATH)\lib\x64

（7）依赖项

配置属性–>链接器–>输入–>附加依赖项

添加库文件：cublas.lib;cuda.lib;cudadevrt.lib;cudart.lib;cudart_static.lib;OpenCL.lib

cuda_main.cu代码如下：

#include "cuda_runtime.h"

#include "cublas_v2.h"  

#include <time.h>

#include <iostream>  

using namespace std;

// 定义测试矩阵的维度

int const M = 5;

int const N = 10;

int main()

{

	// 定义状态变量

	cublasStatus_t status;

	// 在 内存 中为将要计算的矩阵开辟空间

	float *h_A = (float*)malloc(N*M * sizeof(float));

	float *h_B = (float*)malloc(N*M * sizeof(float));

	// 在 内存 中为将要存放运算结果的矩阵开辟空间

	float *h_C = (float*)malloc(M*M * sizeof(float));

	// 为待运算矩阵的元素赋予 0-10 范围内的随机数

	for (int i = 0; i < N*M; i++) {

		h_A[i] = (float)(rand() % 10 + 1);

		h_B[i] = (float)(rand() % 10 + 1);

	}

	// 打印待测试的矩阵

	cout << "矩阵 A :" << endl;

	for (int i = 0; i < N*M; i++) {

		cout << h_A[i] << " ";

		if ((i + 1) % N == 0) cout << endl;

	}

	cout << endl;

	cout << "矩阵 B :" << endl;

	for (int i = 0; i < N*M; i++) {

		cout << h_B[i] << " ";

		if ((i + 1) % M == 0) cout << endl;

	}

	cout << endl;

	/*

	** GPU 计算矩阵相乘

	*/

	// 创建并初始化 CUBLAS 库对象

	cublasHandle_t handle;

	status = cublasCreate(&handle);

	if (status != CUBLAS_STATUS_SUCCESS)

	{

		if (status == CUBLAS_STATUS_NOT_INITIALIZED) {

			cout << "CUBLAS 对象实例化出错" << endl;

		}

		getchar();

		return EXIT_FAILURE;

	}

	float *d_A, *d_B, *d_C;

	// 在 显存 中为将要计算的矩阵开辟空间

	cudaMalloc(

		(void**)&d_A,    // 指向开辟的空间的指针

		N*M * sizeof(float)    //　需要开辟空间的字节数

	);

	cudaMalloc(

		(void**)&d_B,

		N*M * sizeof(float)

	);

	// 在 显存 中为将要存放运算结果的矩阵开辟空间

	cudaMalloc(

		(void**)&d_C,

		M*M * sizeof(float)

	);

	// 将矩阵数据传递进 显存 中已经开辟好了的空间

	cublasSetVector(

		N*M,    // 要存入显存的元素个数

		sizeof(float),    // 每个元素大小

		h_A,    // 主机端起始地址

		1,    // 连续元素之间的存储间隔

		d_A,    // GPU 端起始地址

		1    // 连续元素之间的存储间隔

	);

	cublasSetVector(

		N*M,

		sizeof(float),

		h_B,

		1,

		d_B,

		1

	);

	// 同步函数

	cudaThreadSynchronize();

	// 传递进矩阵相乘函数中的参数，具体含义请参考函数手册。

	float a = 1; float b = 0;

	// 矩阵相乘。该函数必然将数组解析成列优先数组

	cublasSgemm(

		handle,    // blas 库对象

		CUBLAS_OP_T,    // 矩阵 A 属性参数

		CUBLAS_OP_T,    // 矩阵 B 属性参数

		M,    // A, C 的行数

		M,    // B, C 的列数

		N,    // A 的列数和 B 的行数

		&a,    // 运算式的 α 值

		d_A,    // A 在显存中的地址

		N,    // lda

		d_B,    // B 在显存中的地址

		M,    // ldb

		&b,    // 运算式的 β 值

		d_C,    // C 在显存中的地址(结果矩阵)

		M    // ldc

	);

	// 同步函数

	cudaThreadSynchronize();

	// 从 显存 中取出运算结果至 内存中去

	cublasGetVector(

		M*M,    //  要取出元素的个数

		sizeof(float),    // 每个元素大小

		d_C,    // GPU 端起始地址

		1,    // 连续元素之间的存储间隔

		h_C,    // 主机端起始地址

		1    // 连续元素之间的存储间隔

	);

	// 打印运算结果

	cout << "计算结果的转置 ( (A*B)的转置 )：" << endl;

	for (int i = 0; i < M*M; i++) {

		cout << h_C[i] << " ";

		if ((i + 1) % M == 0) cout << endl;

	}

	// 清理掉使用过的内存

	free(h_A);

	free(h_B);

	free(h_C);

	cudaFree(d_A);

	cudaFree(d_B);

	cudaFree(d_C);

	// 释放 CUBLAS 库对象

	cublasDestroy(handle);

	getchar();

	return 0;

}

5 使用VS下的模板创建

打开VS 2017，我们可以观察到，在VS2017模板一栏下方出现了“NVIDIA/CUDA 10.1”。

直接新建一个CUDA 10.1 Runtime 项目。

右键项目 → 属性 → 配置属性 → 链接器 → 常规 → 附加库目录，添加以下目录：

$(CUDA_PATH_V10_0)\lib$(Platform)

示例代码如下：

#include "cuda_runtime.h"

#include "device_launch_parameters.h"

#include <stdio.h>

int main() {

	int deviceCount;

	cudaGetDeviceCount(&deviceCount);

	int dev;

	for (dev = 0; dev < deviceCount; dev++)

	{

		int driver_version(0), runtime_version(0);

		cudaDeviceProp deviceProp;

		cudaGetDeviceProperties(&deviceProp, dev);

		if (dev == 0)

			if (deviceProp.minor = 9999 && deviceProp.major == 9999)

				printf("\n");

		printf("\nDevice%d:\"%s\"\n", dev, deviceProp.name);

		cudaDriverGetVersion(&driver_version);

		printf("CUDA驱动版本:                                   %d.%d\n", driver_version / 1000, (driver_version % 1000) / 10);

		cudaRuntimeGetVersion(&runtime_version);

		printf("CUDA运行时版本:                                 %d.%d\n", runtime_version / 1000, (runtime_version % 1000) / 10);

		printf("设备计算能力:                                   %d.%d\n", deviceProp.major, deviceProp.minor);

		printf("Total amount of Global Memory:                  %u bytes\n", deviceProp.totalGlobalMem);

		printf("Number of SMs:                                  %d\n", deviceProp.multiProcessorCount);

		printf("Total amount of Constant Memory:                %u bytes\n", deviceProp.totalConstMem);

		printf("Total amount of Shared Memory per block:        %u bytes\n", deviceProp.sharedMemPerBlock);

		printf("Total number of registers available per block:  %d\n", deviceProp.regsPerBlock);

		printf("Warp size:                                      %d\n", deviceProp.warpSize);

		printf("Maximum number of threads per SM:               %d\n", deviceProp.maxThreadsPerMultiProcessor);

		printf("Maximum number of threads per block:            %d\n", deviceProp.maxThreadsPerBlock);

		printf("Maximum size of each dimension of a block:      %d x %d x %d\n", deviceProp.maxThreadsDim[0],

			deviceProp.maxThreadsDim[1],

			deviceProp.maxThreadsDim[2]);

		printf("Maximum size of each dimension of a grid:       %d x %d x %d\n", deviceProp.maxGridSize[0], deviceProp.maxGridSize[1], deviceProp.maxGridSize[2]);

		printf("Maximum memory pitch:                           %u bytes\n", deviceProp.memPitch);

		printf("Texture alignmemt:                              %u bytes\n", deviceProp.texturePitchAlignment);

		printf("Clock rate:                                     %.2f GHz\n", deviceProp.clockRate * 1e-6f);

		printf("Memory Clock rate:                              %.0f MHz\n", deviceProp.memoryClockRate * 1e-3f);

		printf("Memory Bus Width:                               %d-bit\n", deviceProp.memoryBusWidth);

	}

	return 0;

}

参考文章

win10+VS2017+Cuda10.0环境配置

windows下cuda的安装的更多相关文章

Windows下的Memcache安装 linux下的Memcache安装
linux下的Memcache安装: 1. 下载 memcache的linux版本,注意 memcached 用 libevent 来作事件驱动,所以要先安装有 libevent. 官方网址:http ...
Windows下的Memcache安装
Windows下的Memcache安装: 1. 下载memcache的windows稳定版,解压放某个盘下面,比如在c:\memcached2. 在终端(也即cmd命令界面)下输入 'c:\memca ...
Windows下 VM12虚拟机安装OS X 10.11 和VM TOOLS
Windows下虚拟机安装Mac OS X —– VMware Workstation12安装Mac OS X 10.11 本文即将介绍WIN虚拟MAC的教程.完整详细教程(包含安装中的一些问题) [ ...
coreseek实战(一)：windows下coreseek的安装与测试
coreseek实战(一):windows下coreseek的安装与测试网上关于 coreseek 在 windows 下安装与使用的教程有很多,官方也有详细的教程,这里我也只是按着官方提供的教程详 ...
Windows下Memcache的安装与在php中使用
memcache dll插件和测试例子下载地址: http://pecl.php.net/package/memcache Windows下Memcache的安装方法 Memcached官方:http ...
Windows下的Memcache安装与测试教程
Windows下的Memcache安装 1.下载memcache for windows. 下载地址:http://splinedancer.com/memcached-win32/,推荐下载bina ...
Mysql在windows下的免安装配置步骤和重新安装的步骤
windows下mysql免安装配置 1. 下载mysql免安装压缩包下载mysql-5.6.22-winx64.zip 解压到本地D:\mysql-5.6.22-winx64 2. 修改配置文件 ...
DEDECMS最新5.7版在Windows下的Memcache安装
一,织梦后台后台设置进入系统后台,在[系统基本参数]下面的"性能选项"卡当中,关于memcache进行如下配置: cfg_memcache_enable : 是否启用memcach ...
Windows下的Memcache安装：
Windows下的Memcache安装:1. 下载memcache的windows稳定版,解压放某个盘下面,比如在c:\memcached2. 在终端(也即cmd命令界面)下输入 'c:\memcac ...

随机推荐

java操作数据库，以页面显示学生信息为例
该部分内容实现的功能主要是:从数据库中查询数据并展示到页面,在页面中新增数据信息,在页面中修改数据信息,在页面中删除数据信息. =================stuList.jsp======== ...
第07组 Beta冲刺（4/5）
队名:摇光队长:杨明哲组长博客:求戳作业博客:求再戳队长:杨明哲过去两天完成了哪些任务文字/口头描述:已经完成代码编辑器,暂时没有其他任务展示GitHub当日代码/文档签入记录:(组内共 ...
javacpp, javacv: 封装了FFmpeg、OpenCV等计算机视觉编程人员常用库的接口
jvavacpp: 一个java调用jni的库,支持安卓. javacv: 封装了FFmpeg.OpenCV等计算机视觉编程人员常用库的接口,可以通过其中的Utility类方便的在包 ...
Python3基础 tuple(list) 改变list元素的内容时，元组的id值不变
Python : 3.7.3 OS : Ubuntu 18.04.2 LTS IDE : pycharm-community-2019.1.3 ...
本机安装了oracle，本机还需要安装客户端吗？
转: 本机安装了oracle,本机还需要安装客户端吗? 2017-09-21 15:56:29 Ideality_hunter 阅读数 4681 版权声明:本文为博主原创文章,遵循CC 4.0 B ...
springMVC和struts2有什么不同？为什么要用springMVC或者struts2？让你实现一个MVC框架大概如何设计？
[问题一:不同] (1)框架机制 1.Struts2采用Filter(StrutsPrepareAndExecuteFilter)实现,SpringMVC(DispatcherServlet)则采用S ...
Windows10下安装Git
Git是一个开源的分布式版本控制系统,可以有效.高速的处理从很小到非常大的项目版本管理.具体安装步骤如下: 第一步:先从官网下载最新版本的Git 官网地址:https://git-scm.com/do ...
如何基于EasyDSS流媒体RTMP、HLS(m3u8)、HTTP-FLV、RTSP服务器体系的全套SDK完成各种场景下的视频应用需求
需求背景回顾EasyDSS的发展过程,基本上保持的是先局部后系统.先组件后平台的发展方式,一步一步夯实每一个细节功能点,从最基础.最兼容的音视频数据的拉流获取,到高效的.全兼容的数据推流,再到流媒体 ...
[LeetCode] 92. Reverse Linked List II 反向链表II
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1-> ...
最新奥买家java校招面经（含整理过的面试题大全）
从6月到10月,经过4个月努力和坚持,自己有幸拿到了网易雷火.京东.去哪儿.奥买家等10家互联网公司的校招Offer,因为某些自身原因最终选择了奥买家.6.7月主要是做系统复习.项目复盘.LeetCo ...

windows下cuda的安装