CUDA编程(十)

使用Kahan’s Summation Formula提高精度

上一次我们准备去并行一个矩阵乘法。然后我们在GPU上完毕了这个程序,当然是非常单纯的把任务分配给各个线程。也没有经过优化。终于我们看到,执行效率相当的低下,可是更重要的是出现了一个我们之前做整数立方和没遇到的问题,那就是浮点数精度损失的问题。

关注GPU运算的精度问题:

在程序的最后。我们计算了精度误差,发现最大相对误差偏高,而一般理想上应该要低于 1e-6。

我们之前将评估CUDA程序的时候也提过了。精度是CUDA程序须要重点评估的一个点,那么我们该怎样解决问题呢?我们先分析一下原因。

出现精度问题的解决办法:

事实上计算结果的误差偏高的原因非常简单。在 CPU 上进行计算时,我们使用 double(即 64 bits 浮点数)来累进计算过程。而在 GPU 上则仅仅能用 float(32 bits 浮点数)。

在累加大量数字的时候,由于累加结果非常快会变大。因此后面的数字非常easy被舍去过多的位数。

这里可能说的不是非常清楚。看完以下这个样例就清楚了。

浮点数的大数吃小数问题:

浮点数的精度:

大家应该非常清楚,浮点数在内存中是按科学计数法来存储的,分为符号位,指数位。和尾数位。

float和double各段的位数各自是:

float:

1bit(符号位) 8bits(指数位) 23bits(尾数位)

double:

1bit(符号位) 11bits(指数位) 52bits(尾数位)

float和double的精度是由尾数的位数来决定的:

float: 2^23 = 8388608。一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字。

double: 2^52 = 4503599627370496,一共16位,同理。double的精度为15~16位。

大数吃小数:

float由于位数相较于double要短不少,所以非常easy出现大数吃小数的问题:

比方我们用两个float相加:

  1. #include <stdio.h>
  2. int main()
  3. {
  4. float a = 100998;
  5. float b = 2.338;
  6. a = a + b;
  7. printf("the sum is %f", a);
  8. }

a+b 应该等于 101000.338,前面说了float的精度有6~7位,所以38可能会被截掉,3不一定,可是8必定会被截掉。我们能够实际输出一下看看:

结果是:the sum is 101000.335938

由于%f是输出double类型。能够看到转换后8这位已经没了,33是正常的。

从这里能够看到一个加法过程就没了0.008,要是加1000次。一个整8就没了。

这就是大数吃小数问题。

Kahan’s Summation Formula:

如今我们就要想办法解决问题了,我们看到标题中这个看起来非常高大上的名字,这个也叫作kahan求和算法,我们接下来就要用kahan求和来避免这样的精度损失的情况。

名字非常高大上,可是原理非常小儿科,小学生也知道,缺的我们想办法再补回来:

所以我们用一个temp变量来记住损失掉的部分,等下次加法的时候再加回去就好了。

temp= (a+b)-a-b; 在上面那个问题中 temp = -0.008,在下次计算的时候加和到下一个加数就能够一定程度的减小误差。

Kahan’s Summation Formula伪代码:

  1. function KahanSum(input)
  2. var sum = 0.0
  3. var c = 0.0 //A running compensation for lost low-order bits.
  4. for i = 1 to input.length do
  5. y = input[i] - c //So far, so good: c is zero.
  6. t = sum + y //Alas, sum is big, y small, so low-order digits of y are lost.
  7. c = (t - sum) - y //(t - sum) recovers the high-order part of y; subtracting y recovers -(low part of y)
  8. sum = t //Algebraically, c should always be zero. Beware eagerly optimising compilers!
  9. //Next time around, the lost low part will be added to y in a fresh attempt.
  10. return sum

提高矩阵乘法的精度:

看着伪代码比着葫芦画瓢还是比較简单的,我们仅仅须要更改核函数中的加和部分就可以:

原版

  1. //计算矩阵乘法
  2. if (row < n && column < n)
  3. {
  4. float t = 0;
  5. for (i = 0; i < n; i++)
  6. {
  7. t += a[row * n + i] * b[i * n + column];
  8. }
  9. c[row * n + column] = t;
  10. }

改版

  1. //计算矩阵乘法
  2. if (row < n && column < n)
  3. {
  4. float t = 0;
  5. float y = 0;
  6. for (i = 0; i < n; i++)
  7. {
  8. float r;
  9. y -= a[row * n + i] * b[i * n + column];
  10. r = t - y;
  11. y = (r - t) + y;
  12. t = r;
  13. }
  14. c[row * n + column] = t;
  15. }

完整程序:

  1. #include <stdio.h>
  2. #include <stdlib.h>
  3. #include <time.h>
  4. //CUDA RunTime API
  5. #include <cuda_runtime.h>
  6. #define THREAD_NUM 256
  7. #define MATRIX_SIZE 1000
  8. const int blocks_num = MATRIX_SIZE*(MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;
  9. //打印设备信息
  10. void printDeviceProp(const cudaDeviceProp &prop)
  11. {
  12. printf("Device Name : %s.\n", prop.name);
  13. printf("totalGlobalMem : %d.\n", prop.totalGlobalMem);
  14. printf("sharedMemPerBlock : %d.\n", prop.sharedMemPerBlock);
  15. printf("regsPerBlock : %d.\n", prop.regsPerBlock);
  16. printf("warpSize : %d.\n", prop.warpSize);
  17. printf("memPitch : %d.\n", prop.memPitch);
  18. printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock);
  19. printf("maxThreadsDim[0 - 2] : %d %d %d.\n", prop.maxThreadsDim[0], prop.maxThreadsDim[1], prop.maxThreadsDim[2]);
  20. printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[0], prop.maxGridSize[1], prop.maxGridSize[2]);
  21. printf("totalConstMem : %d.\n", prop.totalConstMem);
  22. printf("major.minor : %d.%d.\n", prop.major, prop.minor);
  23. printf("clockRate : %d.\n", prop.clockRate);
  24. printf("textureAlignment : %d.\n", prop.textureAlignment);
  25. printf("deviceOverlap : %d.\n", prop.deviceOverlap);
  26. printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);
  27. }
  28. //CUDA 初始化
  29. bool InitCUDA()
  30. {
  31. int count;
  32. //取得支持Cuda的装置的数目
  33. cudaGetDeviceCount(&count);
  34. if (count == 0)
  35. {
  36. fprintf(stderr, "There is no device.\n");
  37. return false;
  38. }
  39. int i;
  40. for (i = 0; i < count; i++)
  41. {
  42. cudaDeviceProp prop;
  43. cudaGetDeviceProperties(&prop, i);
  44. //打印设备信息
  45. printDeviceProp(prop);
  46. if (cudaGetDeviceProperties(&prop, i) == cudaSuccess)
  47. {
  48. if (prop.major >= 1)
  49. {
  50. break;
  51. }
  52. }
  53. }
  54. if (i == count)
  55. {
  56. fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
  57. return false;
  58. }
  59. cudaSetDevice(i);
  60. return true;
  61. }
  62. //生成随机矩阵
  63. void matgen(float* a, int n)
  64. {
  65. int i, j;
  66. for (i = 0; i < n; i++)
  67. {
  68. for (j = 0; j < n; j++)
  69. {
  70. a[i * n + j] = (float)rand() / RAND_MAX + (float)rand() / (RAND_MAX * RAND_MAX);
  71. }
  72. }
  73. }
  74. // __global__ 函数 并行计算矩阵乘法
  75. __global__ static void matMultCUDA(const float* a, const float* b, float* c, int n, clock_t* time)
  76. {
  77. //表示眼下的 thread 是第几个 thread(由 0 開始计算)
  78. const int tid = threadIdx.x;
  79. //表示眼下的 thread 属于第几个 block(由 0 開始计算)
  80. const int bid = blockIdx.x;
  81. //从 bid 和 tid 计算出这个 thread 应该计算的 row 和 column
  82. const int idx = bid * THREAD_NUM + tid;
  83. const int row = idx / n;
  84. const int column = idx % n;
  85. int i;
  86. //记录运算開始的时间
  87. clock_t start;
  88. //仅仅在 thread 0(即 threadIdx.x = 0 的时候)进行记录,每一个 block 都会记录開始时间及结束时间
  89. if (tid == 0) time[bid] = clock();
  90. //计算矩阵乘法
  91. if (row < n && column < n)
  92. {
  93. float t = 0;
  94. //temp变量
  95. float y = 0;
  96. for (i = 0; i < n; i++)
  97. {
  98. float r;
  99. y -= a[row * n + i] * b[i * n + column];
  100. r = t - y;
  101. y = (r - t) + y;
  102. t = r;
  103. }
  104. c[row * n + column] = t;
  105. }
  106. //计算时间,记录结果。仅仅在 thread 0(即 threadIdx.x = 0 的时候)进行,每一个 block 都会记录開始时间及结束时间
  107. if (tid == 0)
  108. {
  109. time[bid + blocks_num] = clock();
  110. }
  111. }
  112. int main()
  113. {
  114. //CUDA 初始化
  115. if (!InitCUDA()) return 0;
  116. //定义矩阵
  117. float *a, *b, *c, *d;
  118. int n = MATRIX_SIZE;
  119. //分配内存
  120. a = (float*)malloc(sizeof(float)* n * n);
  121. b = (float*)malloc(sizeof(float)* n * n);
  122. c = (float*)malloc(sizeof(float)* n * n);
  123. d = (float*)malloc(sizeof(float)* n * n);
  124. //设置随机数种子
  125. srand(0);
  126. //随机生成矩阵
  127. matgen(a, n);
  128. matgen(b, n);
  129. /*把数据拷贝到显卡内存中*/
  130. float *cuda_a, *cuda_b, *cuda_c;
  131. clock_t* time;
  132. //cudaMalloc 取得一块显卡内存
  133. cudaMalloc((void**)&cuda_a, sizeof(float)* n * n);
  134. cudaMalloc((void**)&cuda_b, sizeof(float)* n * n);
  135. cudaMalloc((void**)&cuda_c, sizeof(float)* n * n);
  136. cudaMalloc((void**)&time, sizeof(clock_t)* blocks_num * 2);
  137. //cudaMemcpy 将产生的矩阵拷贝到显卡内存中
  138. //cudaMemcpyHostToDevice - 从内存拷贝到显卡内存
  139. //cudaMemcpyDeviceToHost - 从显卡内存拷贝到内存
  140. cudaMemcpy(cuda_a, a, sizeof(float)* n * n, cudaMemcpyHostToDevice);
  141. cudaMemcpy(cuda_b, b, sizeof(float)* n * n, cudaMemcpyHostToDevice);
  142. // 在CUDA 中执行函数 语法:函数名称<<<block 数目, thread 数目, shared memory 大小>>>(參数...);
  143. matMultCUDA << < blocks_num, THREAD_NUM, 0 >> >(cuda_a, cuda_b, cuda_c, n, time);
  144. /*把结果从显示芯片复制回主内存*/
  145. clock_t time_use[blocks_num * 2];
  146. //cudaMemcpy 将结果从显存中复制回内存
  147. cudaMemcpy(c, cuda_c, sizeof(float)* n * n, cudaMemcpyDeviceToHost);
  148. cudaMemcpy(&time_use, time, sizeof(clock_t)* blocks_num * 2, cudaMemcpyDeviceToHost);
  149. //Free
  150. cudaFree(cuda_a);
  151. cudaFree(cuda_b);
  152. cudaFree(cuda_c);
  153. cudaFree(time);
  154. //把每一个 block 最早的開始时间。和最晚的结束时间相减。取得总执行时间
  155. clock_t min_start, max_end;
  156. min_start = time_use[0];
  157. max_end = time_use[blocks_num];
  158. for (int i = 1; i < blocks_num; i++)
  159. {
  160. if (min_start > time_use[i]) min_start = time_use[i];
  161. if (max_end < time_use[i + blocks_num]) max_end = time_use[i + blocks_num];
  162. }
  163. //核函数执行时间
  164. clock_t final_time = max_end - min_start;
  165. //CPU矩阵乘法,存入矩阵d
  166. for (int i = 0; i < n; i++)
  167. {
  168. for (int j = 0; j < n; j++)
  169. {
  170. double t = 0;
  171. for (int k = 0; k < n; k++)
  172. {
  173. t += a[i * n + k] * b[k * n + j];
  174. }
  175. d[i * n + j] = t;
  176. }
  177. }
  178. //验证正确性与精确性
  179. float max_err = 0;
  180. float average_err = 0;
  181. for (int i = 0; i < n; i++)
  182. {
  183. for (int j = 0; j < n; j++)
  184. {
  185. if (d[i * n + j] != 0)
  186. {
  187. //fabs求浮点数x的绝对值
  188. float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]);
  189. if (max_err < err) max_err = err;
  190. average_err += err;
  191. }
  192. }
  193. }
  194. printf("Max error: %g Average error: %g\n", max_err, average_err / (n * n));
  195. printf("gputime: %d\n", final_time);
  196. return 0;
  197. }

执行结果:

我们看到结果还是效果还是非常不错的,我们上次的结果是:

Max error:2.07589e-006

Average error :3.3492e-007

gpu time:189967999

而眼下的结果是:

Max error:1.19206e-007

Average error :7.70641e-010

gpu time:210779939

我们能够看到准确度确实有了非常大的提升,当然效率还是一如既往地慢,只是我们至少把精度问题给攻克了。

总结:

之前我们用CUDA完毕了矩阵乘法,可是当然会存在非常多问题,除了速度问题。GPU浮点数运算的精度也非常差,本篇博客从出现误差的原理(浮点数大数吃小数)分析,使用了Kahan’s Summation Formula在一定程度上攻克了CUDA运算float精度不够的情况。接下来我们会着手去解决速度问题~

希望我的博客能帮助到大家~

參考资料:《深入浅出谈CUDA》

CUDA编程(十)使用Kahan&#39;s Summation Formula提高精度的更多相关文章

  1. 【CUDA开发】CUDA编程接口(一)------一十八般武器

    子曰:工欲善其事,必先利其器.我们要把显卡作为通用并行处理器来做并行算法处理,就得知道CUDA给我提供了什么样的接口,就得了解CUDA作为通用高性能计算平台上的一十八般武器.(如果你想自己开发驱动,自 ...

  2. 不同版本CUDA编程的问题

    1 无法装上CUDA的toolkit 卸载所有的NVIDIA相关的app,包括NVIDIA的显卡驱动,然后重装. 2之前的文件打不开,one or more projects in the solut ...

  3. CUDA编程之快速入门

    CUDA(Compute Unified Device Architecture)的中文全称为计算统一设备架构.做图像视觉领域的同学多多少少都会接触到CUDA,毕竟要做性能速度优化,CUDA是个很重要 ...

  4. 详解CUDA编程

    CUDA 是 NVIDIA 的 GPGPU 模型,它使用 C 语言为基础,可以直接以大多数人熟悉的 C 语言,写出在显示芯片上执行的程序,而不需要去学习特定的显示芯片的指令或是特殊的结构.” 编者注: ...

  5. CUDA编程之快速入门【转】

    https://www.cnblogs.com/skyfsm/p/9673960.html CUDA(Compute Unified Device Architecture)的中文全称为计算统一设备架 ...

  6. cuda编程基础

    转自: http://blog.csdn.net/augusdi/article/details/12529247 CUDA编程模型 CUDA编程模型将CPU作为主机,GPU作为协处理器(co-pro ...

  7. CUDA学习笔记(一)——CUDA编程模型

    转自:http://blog.sina.com.cn/s/blog_48b9e1f90100fm56.html CUDA的代码分成两部分,一部分在host(CPU)上运行,是普通的C代码:另一部分在d ...

  8. CUDA编程

    目录: 1.什么是CUDA 2.为什么要用到CUDA 3.CUDA环境搭建 4.第一个CUDA程序 5. CUDA编程 5.1. 基本概念 5.2. 线程层次结构 5.3. 存储器层次结构 5.4. ...

  9. CUDA编程-(1)Tesla服务器Kepler架构和万年的HelloWorld

    结合CUDA范例精解以及CUDA并行编程.由于正在学习CUDA,CUDA用的比较多,因此翻译一些个人认为重点的章节和句子,作为学习,程序将通过NVIDIA K40服务器得出结果.如果想通过本书进行CU ...

随机推荐

  1. cobbler 无人值守-安装

    环境准备 准备两台主机,如centos6和centos7 centos7当作server服务器 关闭selinux 关闭防火墙 安装 cobbler包光盘里是没有的,要配置epel源,这里就说怎么配置 ...

  2. 树莓派 - RasberryPi推送数据到cloudMQTT

    创建用户 在https://www.cloudmqtt.com/上创建一个帐户 转到右上角的控制面板 点击"创建"按钮 安装lib sudo pip install paho-mq ...

  3. python测试工具

    https://wiki.python.org/moin/PythonTestingToolsTaxonomy mac pip安装 https://blog.csdn.net/ywj_486/arti ...

  4. 按Esc按钮关闭layer弹窗

    //按Esc关闭弹出框 $(document).ready(function () { }).keydown( function (e) { if (e.which === 27) {  layer. ...

  5. HDU-5532//2015ACM/ICPC亚洲区长春站-重现赛-F - Almost Sorted Array/,哈哈,水一把区域赛的题~~

    F - Almost Sorted Array Time Limit:2000MS     Memory Limit:262144KB     64bit IO Format:%I64d & ...

  6. 【板+背包】多重背包 HDU Coins

    http://acm.hdu.edu.cn/showproblem.php?pid=2844 [题意] 给定n种价值为Ci,个数为Wi的硬币,问在1~V中的这些数中哪些数能由这些硬币组成? [思路] ...

  7. 匈牙利游戏(codevs 1269)

    题目描述 Description Welcome to the Hungary Games! The streets of Budapest form a twisted network of one ...

  8. 子串(codevs 4560)

    题目描述 Description 有两个仅包含小写英文字母的字符串A和B.现在要从字符串A中取出k个互不重叠的非空子串,然后把这k个子串按照其在字符串A中出现的顺序依次连接起来得到一个新的字符串,请问 ...

  9. BZOJ1777: [Usaco2010 Hol]rocks 石头木头

    n<=10000的树,节点有初始石头数<=1000,进行这样的游戏:两人轮流行动,我先手,每次可以选一个节点(≠1)把不超过m<=1000个石头移到父亲,最后所有石头都在节点1,没法 ...

  10. iOS 如何查看崩溃日志

    参考网址: [转载]https://www.jianshu.com/p/4de55d73c82b [转载]https://blog.csdn.net/qq_26544491/article/detai ...