https://devblogs.nvidia.com/cuda-pro-tip-write-flexible-kernels-grid-stride-loops/ One of the most common tasks in CUDA programming is to parallelize a loop using a kernel. As an example, let’s use our old friend SAXPY. Here’s the basic sequential im…
In this post, I’ll introduce warp-aggregated atomics, a useful technique to improve performance when many threads atomically add to a single counter. In warp aggregation, the threads of a warp first compute a total increment among themselves, and the…
CUDA Pro:通过向量化内存访问提高性能 许多CUDA内核受带宽限制,而新硬件中触发器与带宽的比率不断提高,导致带宽受限制的内核更多.这使得采取措施减轻代码中的带宽瓶颈非常重要.本文将展示如何在CUDA C / C ++中使用向量加载和存储,以帮助提高带宽利用率,同时减少已执行指令的数量. 从以下简单的内存复制内核开始. __global__ void device_copy_scalar_kernel(int* d_in, int* d_out, int N) { int idx = bl…
CUDA Convolution https://www.evl.uic.edu/sjames/cs525/final.html Improve Image Processing Using GPU Computing on Mali™ https://www.arm.com/files/event/2014_ARM_Multimedia_Seminar_Arcsoft.pdf GPU Computing: Image Convolution http://cg.ivd.kit.edu/down…
CUDA 8混合精度编程 Mixed-Precision Programming with CUDA 8 论文地址:https://devblogs.nvidia.com/mixed-precision-programming-cuda-8/ 更新,2019年3月25日:最新的Volta和Turing GPU现在加入了张量核,加速了某些类型的FP16矩阵数学.这使得在流行的人工智能框架中进行更快.更容易的混合精度计算成为可能.使用张量磁芯需要使用CUDA9或更高版本.NVIDIA还为Tensor…
Ext.onReady(function () { // Init the singleton. Any tag-based quick tips will start working. Ext.tip.QuickTipManager.init(); Ext.widget('grid', { title: 'Users', store: { fields: ['name', 'email', 'comment'], data: [ { 'name': '张三', 'email': 'aaaaaa…
转自:http://blog.sina.com.cn/s/blog_48b9e1f90100fm5b.html 一个grid中的所有线程执行相同的内核函数,通过坐标进行区分.这些线程有两级的坐标,blockId和threadId,由CUDA runtime system指定.grimDim.x标识block在x维度上的数目,gridDim.y标识block在y维度上的数目.例如, 在启动内核时指定: dim3 dimBlock(4,2,2); dim3 dimGrid(2,2,1); Kerne…
最近忙一个项目的时候需要实现鼠标移到grid的某一行上提示消息.花了半天时间才解决.在网上找很久终于有找到一个有用的.我的版本是extjs4. 效果如图 Ext.onReady(function () { // Init the singleton. Any tag-based quick tips will start working. Ext.tip.QuickTipManager.init(); Ext.widget('grid', { title: 'Users', store: { f…
本文转自:http://blog.163.com/wujiaxing009@126/blog/static/71988399201701224540201/ 1.引言 CUDA性能优化----sp, sm, thread, block, grid, warp概念中提到:逻辑上,CUDA中所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将深入学习和了解有关warp的一些本质.   2.Warps and Thread Blocks wa…
Qt与CUDA相结合具体的操作主要修改qt项目中的配置文件pro.下面以测试的项目为例. 因为这是一个测试案例,代码很简单,下面将这几个文件的代码贴出来,方面后面对应pro文件和Makefile文件中的内容. 1.main.cpp #include "mainwindow.h" #include <QApplication> int main(int argc, char *argv[]) { printf("main1 \n"); QApplicati…
CUDA 8的混合精度编程 Volta和Turing GPU包含 Tensor Cores,可加速某些类型的FP16矩阵数学运算.这样可以在流行的AI框架内更快,更轻松地进行混合精度计算.要使用Tensor Core,需要使用 CUDA 9 或更高版本.NVIDIA还 为TensorFlow,PyTorch和MXNet添加了 自动混合精度功能.  流行AI框架的张量核心优化示例 . 在软件开发的实践中,程序员通常会及早学习到使用正确的工具完成工作的重要性.当涉及数值计算时,这一点尤其重要,因为在…
本文转自:https://marketplace.visualstudio.com/items?itemName=Mikael.Angular-BeastCode VSCode Angular TypeScript & Html Snippets Visual Studio Code TypeScript and Html snippets and code examples for Angular 2,4,5 & 6. All code snippets are based on and…
最近在微博上看到这样一条 微博  >点这看< 看起来非常有意思,就去Google了一下如何制作. 没想到这是一个开源项目,而且还告诉你如何安装 OK,接下来就说说我的制作过程. 首先,先放出这个开源项目所有教程.资源的网站 https://arsandbox.ucdavis.edu/instructions/ 上面说了各种要求,大家可以自己去看,我这截个图吧 都是英文,我开着翻译一点点看,但是在校准那,都是英文而且没有字幕,所以看着头疼. 前期软件非常简单,只需要复制粘贴就可以了,难就难在校准…
现在的网站越来越离不开图形,好的图像效果能让你的网站增色不少.通过JQuery图形效果插件可以很容易的给你的网站添加一些很酷的效果. 使用JQuery插件其实比想象的要容易很多,效果也超乎想象.在本文中,我将介绍超过95个JQuery图形效果插件,它们都可用于图像不同方式的呈现,尤其是在创建动态的艺术网站的时候,JQuery将给你完美的解决方案.你可能需要不同功能和效果的JQuery插件,比如你创建一个在线的电子杂志,这个时候你可能需要jQuery翻书插件.另外一个常见的流行效果是图像或内容幻灯…
来自:http://deeplearning.net/software/theano/tutorial/using_gpu.html using the GPU 想要看GPU的介绍性的讨论和对密集并行计算的使用,查阅:GPGPU. theano设计的一个目标就是在一个抽象层面上进行特定的计算,所以内部的函数编译器需要灵活的处理这些计算,其中一个灵活性体现在可以在显卡上进行计算. 当前有两种方式来使用gpu,一种只支持NVIDIA cards (CUDA backend) :另一种,还在开发中,可…
来自:http://deeplearning.net/software/theano/tutorial/gpu_data_convert.html PyCUDA/CUDAMat/Gnumpy compatibility 一.PyCUDA 当前,PyCUDA 和Theano使用不同的对象来存储GPU数据.这两种实现支持的是不同的特征集. Theano的实现是叫做CudaNdarray ,并且支持strides. 同时只支持float32 dtype. PyCUDA的实现叫做 GPUArray 而且…
http://unity3d.9tech.cn/news/2014/0116/39639.html 通常,在游戏的开发过程中,最终会建立起一些组件,通过某种形式的配置文件接收一些数据.这些可能是程序级别生成系统的一些参数,或许是手势识别系统的手势集,或任何其他东西.如果你是在Unity内部开发,很可能以创建一个可序列化的类来开始这项任务,这个类被设计成简单的容器,存储你所需要的所有配置数据. 但是那又怎样?现实中你是怎样把数据放到那个类里的?你是创建一堆XML 或 JSON文件,当游戏启动时加载…
Teaching Your Computer To Play Super Mario Bros. – A Fork of the Google DeepMind Atari Machine Learning Project Posted by ehrenbrav on August 25, 2016Leave a comment (14)Go to comments   For those who want to get right to the good stuff, the installa…
转自:http://ovalpo.info/how_to_use_vim_for_erlang_dev/ 如何利用Vim进行Erlang开发 by Martin J. Logan on September 9, 2013 译者: ovalpo 2014年7月28日 原文:How to use Vim for Erlang Development 译文:如何利用Vim进行Erlang开发 [题外话:第一次翻译这事,骂吧!] 你会学到如何使用Vim作为你的编辑器来进行Erlang开发.你将会学会如何…
Everyone collects utilities, and most folks have a list of a few that they feel are indispensable.  Here's mine.  Each has a distinct purpose, and I probably touch each at least a few times a week.  For me, "util" means utilitarian and it means…
Google Pro Tip: Use Back-of-the-envelope-calculations to Choose the Best Design - High Scalability - http://highscalability.com/blog/2011/1/26/google-pro-tip-use-back-of-the-envelope-calculations-to-choo.html Building software systems at Google http:…
前言 本文从使用 GPU 编程技术的角度来了解计算中并行实现的方法思路. 并行计算中需要考虑的三个重要问题 1. 同步问题 在操作系统原理的相关课程中我们学习过进程间的死锁问题,以及由于资源共享带来的临界资源问题等,这里不做累述. 2. 并发度 有一些问题属于 “易并行” 问题:如矩阵乘法.在这类型问题中,各个运算单元输出的结果是相互独立的,这类问题能够得到很轻松的解决 (通常甚至调用几个类库就能搞定问题). 然而,若各个运算单元之间有依赖关系,那问题就复杂了.在 CUDA 中,块内的通信通过共…
CSS3 w3cschools css3  MDN英文  MDN中文 CSS3 is the latest evolution of the Cascading Style Sheets language and aims at extending CSS2.1. It brings a lot of long-awaited novelties(备受期待的新特性), like rounded corners, shadows, gradients, transitions or animati…
(by JP Zhang | Last updated: Apr 5, 2016 )  转载自:http://www.softwarehow.com/best-blogs-for-ios-developers/ If you are looking for insightful and educational iOS development blogs, you've come to the right place. Here are my 100 favorite, active blogs…
torch.nn Parameters class torch.nn.Parameter() 艾伯特(http://www.aibbt.com/)国内第一家人工智能门户,微信公众号:aibbtcom Variable的一种,常被用于模块参数(module parameter). Parameters 是 Variable 的子类.Paramenters和Modules一起使用的时候会有一些特殊的属性,即:当Paramenters赋值给Module的属性的时候,他会自动的被加到 Module的 参…
先介绍YOLO[转]: 第一个颠覆ross的RCNN系列,提出region-free,把检测任务直接转换为回归来做,第一次做到精度可以,且实时性很好. 1. 直接将原图划分为SxS个grid cell,如果有物体的中心落到这个格子里那么这个格子的gt就是这个物体. 2. 每个格子被指定的gt需要对应B个bounding box(下面简称为bbox)去回归,也就是说每个格子对应的B个bbox的gt是一样的. 3. 每个bbox预测5个值: x, y, w, h, 置信度.(x, y)是bbox的中…
It’s time to get serious about improving your programming skills. Let’s do it! That’s an easy career improvement goal to give oneself, but “become a kick-ass programmer” is not a simple goal. For one thing, saying, “I want to get better” assumes that…
目录 时间序列分析工具箱--tidyquant tidyquant 的用途 加载包 tq_get:获得数据 从 Yahoo! Finance 获得股票数据 从 FRED 获得经济数据 使用 tq_transmute 和 tq_mutate 转换数据 tq_transmute tq_mutate 可用函数 时间序列分析工具箱--tidyquant 本文翻译自<Demo Week: class(Monday) <- tidyquant> 原文链接:http://www.business-sc…
Kernelized Locality-Sensitive Hashing Page   Brian Kulis (1) and Kristen Grauman (2)(1) UC Berkeley EECS and ICSI, Berkeley, CA(2) University of Texas, Department of Computer Sciences, Austin, TX Introduction Fast indexing and search for large databa…
What is AngularJS? Angular is a client-side MVC/MVVM framework built in JavaScript, essential for modern single page web applications (and even websites). This post is a full end to end crash course from my experiences, advice and best practices I've…