CUDA 笔记

【CUDA 笔记】的更多相关文章

CUDA笔记12

这几天配置了新环境,而且流量不够了就没写. 看到CSDN一个人写了些机器学习的笔记,于是引用一下http://blog.csdn.net/yc461515457/article/details/50498266 http://geek.csdn.net/news/detail/50567 http://www.zhihu.com/question/26562656 每次看CSDN和GOOGLEX的动态,都是刷新了一下想法…

CUDA笔记（11）

CUDA提供了一种cudaEvent_t的类型,这种类型Event可以统计GPU上面某一个任务或者代码段的精确运行时间使用常量内存的光线跟踪器的性能比使用全局内存的性能提升了50% __constant__将把变量的访问限制为只读.在接受了这种限制后,可节约内存带宽的原因: (下面是贴了书上的内容) 对常量内存的单次操作可以广播到其他的临近线程,这将节约15次读取操作. 常量内存的数据将缓存起来,因此对相同地址的连续读操作将不会长生额外的内存通信量. 深层原因:当处理常量内存时,NVIDIA硬…

CUDA笔记（八）

今天真正进入了攻坚期.不光是疲劳,主要是遇到的问题指数级上升,都是需要绕道的. 以visual profile来说,刚刚发现自己还没使用过. http://bbs.csdn.net/topics/390901383 CUDA从入门到精通(十):性能剖析和Visual Profiler http://m.blog.csdn.net/blog/kkk584520/9490233 http://doc.okbase.net/u013467442/archive/108277.html 官网我仔细看,才…

CUDA笔记(七)

今天集中时间找程序的问题.于是发现: 首先,程序里的kernel想要调试,必须用nsight. 于是一堆找.http://www.nvidia.com/object/nsight.html http://blog.chinaunix.net/uid-20620288-id-4808400.html 貌似Nsight需要双机调试?晕中. 不过这篇文章提了,在需要监视的核函数里面打断点 http://wenku.baidu.com/link?url=eFI-HX4IaSurijpp_UcU_pLNH…

CUDA笔记（六）

dim3是NVIDIA的CUDA编程中一种自定义的整型向量类型,基于用于指定维度的uint3 忽然发现需要再搞多机MPI的配置,多机GPU集群.好麻烦.. 这两天考完两门了,还剩下三门,并行计算太多了 ***** MPI的接口函数说明有: http://micro.ustc.edu.cn/Linux/MPI/MPICH/ MPI_Recv() & 消息缓冲/信封/标签 http://blog.163.com/yuhua_kui/blog/static/9679964420121111038654…

名词解释 SM :Streaming Multiprocessor 而 Block 大致就是对应到 SM 所有的blocks 按照流水线被送到6个SM中进行计算在 Compute Capability 1.0/1.1 中,每个 SM 最多可以同时管理 768 个 thread(768 active threads)或 8 个 block(8 active blocks);而每一个 warp 的大小,则是 32 个 thread,也就是一个 SM 最多可以有 768 / 32 =…

CUDA笔记13

在新的环境上用CUTIL的时候,出现了问题.无法解析的外部符号 __imp_cutCheckCmdLineFlag 问题描述: kernel.cu.obj : error LNK2019: 无法解析的外部符号 __imp__cutCheckCmdLineFlag@12,该符号在函数 _main 中被引用解决方法: 需要把cutil32.lib和cutil64.lib的路径同时加到连接器->常规->附加目录库中…

CUDA笔记（十）

下午仔细研究了两个程序,然后搜了一下解决方法 http://blog.sina.com.cn/s/blog_6de28fbd01011cru.html http://blog.csdn.net/chevroletss/article/details/48130953 http://www.cnblogs.com/liangliangdetianxia/p/3984761.html *** 今天用了几乎大半天的时间琢磨了下面的程序,老鸟们见笑了 #define N (33*1024) __glob…

CUDA笔记（九）

找了不知道多少教程,终于找到靠谱的nsight的: http://blog.csdn.net/mysniper11/article/details/8003644 还有两个视频的相关: http://blog.csdn.net/endlch/article/details/44538579 同一个warp内的线程总是被一同激活且一同被分配任务,因此不需要同步.因此最好把需要同步的线程放在同一个warp内,这样就减少了__syncthreads()的指令 http://www.heyan8.cn/…

基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记

基于Ubuntu14.04系统的nvidia tesla K40驱动和cuda 7.5安装笔记飞翔的蜘蛛人注1:本人新手,文章中不准确的地方,欢迎批评指正注2:知识储备应达到Linux入门级水平一 . 首先介绍硬件配置处理器英特尔 Core i7 主板华硕工作站主板显卡 Nvidia GeForce GT 730 GPU Nvidia Tesla K40c 内存 32 GB 二 . 裸机安装ubuntu-14.04.5-desktop-amd64.iso镜像文件 UltraISo…