GPU的并行运算能力远超CPU,有时候我们会需要用到超大数据并行运算,可以考虑用GPU实现,这是一篇C#调用GPU进行运算的入门教程.

1: 下载相关的库:

https://sourceforge.net/projects/openclnet/

看起来已经N久没更新了, 不过没关系,这只是API声明和参数,opencl本身是有在更新的.

里面有源码也有DLL,可以引用DLL,也可以直接把源码添加到工程使用.(建议直接添加代码...)

*** 需要注意的是 ***:自己建立的工程有个默认的Program类,要改成别的名字,不然会和这里面一个同名的类冲突....

2:建立工程

打开VS建立一个C#控制台工程,Program类改名为MainProgram,添加OpenCL.Net源码引用

项目属性里改为[允许不安全代码]:

3:在MainProgram里声明引用:

using OpenCLNet;

using CL = OpenCLNet;

4:在项目里添加一个Extend类,内容如下

public static class Extend

{

	/// <summary>

	/// 取指针

	/// </summary>

	/// <param name="obj"></param>

	/// <returns></returns>

	public static unsafe IntPtr ToIntPtr(this int[] obj)

	{

		IntPtr PtrA = IntPtr.Zero;

		fixed (int* Ap = obj) return new IntPtr(Ap);

	}

}//End Class

5:在MainProgram把一段运行在GPU的代码放在C#的字符串里:

#region OpenCL代码

private static string CLCode = @"

__kernel void vector_add_gpu(__global int* src_a, __global int* src_b, __global int* res)

{

	const int idx = get_global_id(0);

	res[idx] =src_a[idx] + src_b[idx];

}

__kernel void vector_inc_gpu(__global int* src_a, __global int* res)

{

	const int idx = get_global_id(0);

	res[idx] =src_a[idx] + 1;

}

";

#endregion

6:选中一个设备

在大多数电脑上有1个CPU和2个GPU(集显,独显),有的电脑会有更多或者更少,这里需要选中一个

//获取平台数量

OpenCL.GetPlatformIDs(32, new IntPtr[32], out uint num_platforms);

var devs = new List<Device>();

//枚举所有平台下面的设备(CPU和GPU)

for (int i = 0; i < num_platforms; i++)

{

	//这里后面有个参数,是Enum,这里选择GPU,表示只枚举GPU,在没有GPU的电脑上可以选CPU,也可以传ALL,会把所有设备枚举出来供选择

	devs.AddRange(OpenCL.GetPlatform(i).QueryDevices(DeviceType.GPU));

}

//选中运算设备,这里选第一个其它的释放掉

var oclDevice = devs[0];

7:配置上下文

上下文用来描述CPU与运算设备之间的主从关系.

//根据配置建立上下文

var oclContext = oclDevice.Platform.CreateContext(

	new[] { (IntPtr)ContextProperties.PLATFORM, oclDevice.Platform.PlatformID, IntPtr.Zero, IntPtr.Zero },

	new[] { oclDevice },

	(errInfo, privateInfo, cb, userData) => { },

	IntPtr.Zero

);

8:创建命令队列

opencl的命令要放到队列里,然后一次性调用执行方法等待执行完毕,它可以乱序执行,也可以顺序执行.如果你想等某命令执行完再继续,可以在中间加上栅栏(下面会讲)

//创建命令队列

var oclCQ = oclContext.CreateCommandQueue(oclDevice, CommandQueueProperties.PROFILING_ENABLE);

9:编译OpenCL代码,并引出两个Kernel

//定义一个字典用来存放所有核

var Kernels = new Dictionary<string, Kernel>();

#region 编译代码并导出核

var oclProgram = oclContext.CreateProgramWithSource(CLCode);

try

{

	oclProgram.Build();

}

catch (OpenCLBuildException EEE)

{

	Console.WriteLine(EEE.BuildLogs[0]);

	Console.ReadKey(true);

	throw EEE;

	//return null;

}

foreach (var item in new[] { "vector_add_gpu", "vector_inc_gpu" })

{

	Kernels.Add(item, oclProgram.CreateKernel(item));

}

oclProgram.Dispose();

#endregion

10:调用Kernel示例:

#region 调用vector_add_gpu核

{

	var A = new int[] { 1, 2, 3, 1722 };

	var B = new int[] { 456, 2, 1, 56 };

	var C = new int[4];

	//在显存创建缓冲区并把HOST的数据拷贝过去

	var n1 = oclContext.CreateBuffer(MemFlags.READ_WRITE | MemFlags.COPY_HOST_PTR, A.Length * sizeof(int), A.ToIntPtr());

	var n2 = oclContext.CreateBuffer(MemFlags.READ_WRITE | MemFlags.COPY_HOST_PTR, B.Length * sizeof(int), B.ToIntPtr());

	//还有一个缓冲区用来接收回参

	var n3 = oclContext.CreateBuffer(MemFlags.READ_WRITE, B.Length * sizeof(int), IntPtr.Zero);

	//把参数填进Kernel里

	Kernels["vector_add_gpu"].SetArg(0, n1);

	Kernels["vector_add_gpu"].SetArg(1, n2);

	Kernels["vector_add_gpu"].SetArg(2, n3);

	//把调用请求添加到队列里,参数分别是:Kernel,数据的维度,每个维度的全局工作项ID偏移,每个维度工作项数量(我们这里有4个数据,所以设为4),每个维度的工作组长度(这里设为每4个一组)

	oclCQ.EnqueueNDRangeKernel(Kernels["vector_add_gpu"], 1, new[] { 0 }, new[] { 4 }, new[] { 4 });

	//设置栅栏强制要求上面的命令执行完才继续下面的命令.

	oclCQ.EnqueueBarrier();

	//添加一个读取数据命令到队列里,用来读取运算结果

	oclCQ.EnqueueReadBuffer(n3, true, 0, C.Length * sizeof(int), C.ToIntPtr());

	//开始执行

	oclCQ.Finish();

	n1.Dispose();

	n2.Dispose();

	n3.Dispose();

	C = C;//在这里打断点,查看返回值

}

// */

#endregion

11:释放资源

//按顺序释放之前构造的对象

oclCQ.Dispose();

oclContext.Dispose();

oclDevice.Dispose();

MainProgram所有代码:

class MainProgram

	{

		#region OpenCL代码

		private static string CLCode = @"

__kernel void vector_add_gpu(__global int* src_a, __global int* src_b, __global int* res)

{

	const int idx = get_global_id(0);

	res[idx] =src_a[idx] + src_b[idx];

}

__kernel void vector_inc_gpu(__global int* src_a, __global int* res)

{

	const int idx = get_global_id(0);

	res[idx] =src_a[idx] + 1;

}

";

		#endregion

		static void Main(string[] args)

		{

			//获取平台数量

			OpenCL.GetPlatformIDs(32, new IntPtr[32], out uint num_platforms);

			var devs = new List<Device>();

			//枚举所有平台下面的设备(CPU和GPU)

			for (int i = 0; i < num_platforms; i++)

			{

				//这里后面有个参数,是Enum,这里选择GPU,表示只枚举GPU,在没有GPU的电脑上可以选CPU,也可以传ALL,会把所有设备枚举出来供选择

				devs.AddRange(OpenCL.GetPlatform(i).QueryDevices(DeviceType.GPU));

			}

			//选中运算设备,这里选第一个其它的释放掉

			var oclDevice = devs[0];

			for (int i = 1; i < devs.Count; i++) devs[i].Dispose();

			//根据配置建立上下文

			var oclContext = oclDevice.Platform.CreateContext(

				new[] { (IntPtr)ContextProperties.PLATFORM, oclDevice.Platform.PlatformID, IntPtr.Zero, IntPtr.Zero },

				new[] { oclDevice },

				(errInfo, privateInfo, cb, userData) => { },

				IntPtr.Zero

			);

			//创建命令队列

			var oclCQ = oclContext.CreateCommandQueue(oclDevice, CommandQueueProperties.PROFILING_ENABLE);

			//定义一个字典用来存放所有核

			var Kernels = new Dictionary<string, Kernel>();

			#region 编译代码并导出核

			var oclProgram = oclContext.CreateProgramWithSource(CLCode);

			try

			{

				oclProgram.Build();

			}

			catch (OpenCLBuildException EEE)

			{

				Console.WriteLine(EEE.BuildLogs[0]);

				Console.ReadKey(true);

				throw EEE;

				//return null;

			}

			foreach (var item in new[] { "vector_add_gpu", "vector_inc_gpu" })

			{

				Kernels.Add(item, oclProgram.CreateKernel(item));

			}

			oclProgram.Dispose();

			#endregion

			#region 调用vector_add_gpu核

			{

				var A = new int[] { 1, 2, 3, 1722 };

				var B = new int[] { 456, 2, 1, 56 };

				var C = new int[4];

				//在显存创建缓冲区并把HOST的数据拷贝过去

				var n1 = oclContext.CreateBuffer(MemFlags.READ_WRITE | MemFlags.COPY_HOST_PTR, A.Length * sizeof(int), A.ToIntPtr());

				var n2 = oclContext.CreateBuffer(MemFlags.READ_WRITE | MemFlags.COPY_HOST_PTR, B.Length * sizeof(int), B.ToIntPtr());

				//还有一个缓冲区用来接收回参

				var n3 = oclContext.CreateBuffer(MemFlags.READ_WRITE, B.Length * sizeof(int), IntPtr.Zero);

				//把参数填进Kernel里

				Kernels["vector_add_gpu"].SetArg(0, n1);

				Kernels["vector_add_gpu"].SetArg(1, n2);

				Kernels["vector_add_gpu"].SetArg(2, n3);

				//把调用请求添加到队列里,参数分别是:Kernel,数据的维度,每个维度的全局工作项ID偏移,每个维度工作项数量(我们这里有4个数据,所以设为4),每个维度的工作组长度(这里设为每4个一组)

				oclCQ.EnqueueNDRangeKernel(Kernels["vector_add_gpu"], 1, new[] { 0 }, new[] { 4 }, new[] { 4 });

				//设置栅栏强制要求上面的命令执行完才继续下面的命令.

				oclCQ.EnqueueBarrier();

				//添加一个读取数据命令到队列里,用来读取运算结果

				oclCQ.EnqueueReadBuffer(n3, true, 0, C.Length * sizeof(int), C.ToIntPtr());

				//开始执行

				oclCQ.Finish();

				n1.Dispose();

				n2.Dispose();

				n3.Dispose();

				C = C;//在这里打断点,查看返回值

			}

			// */

			#endregion

			//按顺序释放之前构造的对象

			oclCQ.Dispose();

			oclContext.Dispose();

			oclDevice.Dispose();

		}

	}//End Class

运行效果:

至此,操作完成~

我在文中留了一个Kernel,你可以尝试调用看看.

相关代码git:

https://gitee.com/ASMTeam/CSharpOpenCLDemo

C#通过OpenCL调用显卡GPU做高效并行运算的更多相关文章

OpenCL 双调排序 GPU 版
▶ 参考书中的代码,写了 ● 代码,核函数文件包含三中算法 // kernel.cl __kernel void bitonicSort01(__global uint *data, const ui ...
【原创】Linux环境下的图形系统和AMD R600显卡编程(6)——AMD显卡GPU命令格式
前面一篇blog里面描述了命令环缓冲区机制,在命令环机制下,驱动写入PM4(不知道为何会取这样一个名字)包格式的命令对显卡进行配置.这一篇blog将详细介绍命令包的格式. 当前定义了4中命令包,分别是 ...
从头学pytorch(十三):使用GPU做计算
GPU计算默认情况下,pytorch将数据保存在内存,而不是显存. 查看显卡信息 nvidia-smi 我的机器输出如下: Fri Jan 3 16:20:51 2020 +------------ ...
如何调用sklearn模块做交叉验证
终于搞明白了如何用sklearn做交叉验证!!! 一般在建立完模型之后,我们要预测模型的好坏,为了试验的可靠性(排除一次测试的偶然性)我们要进行多次测试验证,这时就要用交叉验证. sklearn中的s ...
Kubernetes调用vSphere vSAN做持久化存储
参考 1.vSphere Storage for Kubernetes 2.IBM vSphere Cloud Provider 3.GitHub vSphere Volume examples 一. ...
显卡 GPU 关系
https://zhidao.baidu.com/question/1238935513507031339.htmlGraphic Processing Unit,意思就是图形处理器啊,显卡的由GPU ...
python-----查看显卡gpu信息
需要安装pynvml库. 下载地址为:https://pypi.org/project/nvidia-ml-py/#history pip安装的命令为: pip install nvidia-ml-p ...
[转]linux 下使用 c / c++ 调用curl库做通信开发
example: 1. http://curl.haxx.se/libcurl/c/example.html 2. http://www.libcurl.org/book: 1. http:/ ...
win10家庭中文版CUDA+CUDNN+显卡GPU使用tensorflow-gpu训练模型安装过程(精华帖汇总+重新修改多次复现)
查看安装包 pip list 本帖提供操作过程,具体操作网上有好多了,不赘述.红色字体为后来复现出现的问题以及批注题外话: (1)python 的环境尽量保持干净,尽量单一,否则容易把自己搞晕,不知 ...

随机推荐

201521123056 《Java程序设计》第14周学习总结
1. 本周学习总结 2. 书面作业 1. MySQL数据库基本操作建立数据库,将自己的姓名.学号作为一条记录插入.(截图,需出现自己的学号.姓名) 在自己建立的数据库上执行常见SQL语句(截图) 参 ...
201521123067 《Java程序设计》第12周学习总结
201521123067 <Java程序设计>第12周学习总结 1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 书面作业将Student对 ...
201521123023《Java程序设计》第12周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. (1)File可以表示一个特定文件的名称,也能表示一个目录下的一组文件的名称. (2)继承自InputStre ...
201521123092《java程序设计》第十三周学习总结
1. 本周学习总结以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 2.1. 网络基础 1.1 比较ping www.baidu.com与ping cec.j ...
Eclipse中删除tomcat server 导致不能重新创建该版本的tomcat server
在Eclipse中创建了一个Web工程后,需要将该工程部署到Tomcat中进行发布.有时就会遇到在New Server对话框中选择了Tomcat 6/7后却无法单击“Next”按钮的问题,如下图所示: ...
从content-type设置看Spring MVC处理header的一个坑
我们经常需要在HttpResponse中设置一些headers,我们使用Spring MVC框架的时候我们如何给Response设置Header呢? Sooooooooooooo easy, 看下面的 ...
基于注解方式实现Aop
开启注解扫描 <context:component-scan base-package="aopSpring"></context:component-scan& ...
初入ubuntu
登入root :su root 安装 vim: sudo apt-get install vim 安装 gcc(g++):sudo apt-get install gcc(g++) 非常实用的修改分辨 ...
java 面向对象 2
一．JAVA类的定义 JAVA里面有class关键字定义一个类,后面加上自定义的类名即可.如这里定义的person类,使用class person定义了一个person类,然后在person这个类的类 ...
小符号反映大问题，Shell中下划线_与变量的关系。
之前写过一个根据日期和时间自动命名文件名的时候遇到一个问题. #! /bin/bash read -p "please input the filename:" filename ...

C#通过OpenCL调用显卡GPU做高效并行运算