如果我们需要优化kernel程序,我们必须知道一些GPU的底层知识,本文简单介绍一下GPU内存相关和线程调度知识,并且用一个小示例演示如何简单根据内存结构优化. 一.GPU总线寻址和合并内存访问 假设X指向一个32位整数数组的指针,数组首地址是0x00001232,那么一个线程需要访问第0个成员时是也许是如下访问的: ] 假设内存总线宽度是256位,内存访问时必须和总线宽度对齐,所以内存只能访问0x00000020,0x00000040这种地址(0x20=256位),如果要访问0x0000123…
原文:http://blog.csdn.net/yhhyhhyhhyhh/article/details/51404649  利用opencv做了个简易的视频播放器的ocx,可以在c++/c#/web中加载.基于opencv的简易视频播发器ocx下载:点击打开链接       c#及测试代码下载:点击打开链接     web容器(是个html文件)下载:点击打开链接       实现功能:播放本地文件,播放摄像头,抓图,录像(抓图.录像均以当前时刻命名,抓图及录像保存在D:\c++开发ocx入门…
五邑隐侠,本名关健昌,10年游戏生涯,现隐居五邑.本系列文章以TypeScript为介绍语言. 这一篇简单介绍下代码结构,清晰的代码结构更有利于团队对项目的理解和维护. 1.前面我们介绍了一系列基础功能封装,这部分内容可以被不同的游戏重用.这一部分代码都可以放到framework目录下. 2.游戏业务代码统一放到game目录下 3.平台sdk接入代码放到channel目录下 4.数据上报的sdk接入代码放到report目录下. StartCtrl是项目的入口,负责项目的初始化,包括渠道sdk.数…
这两周我学习了北京大学曹建老师的TensorFlow笔记课程,认为老师讲的很不错的,很适合于想要在短期内上手完成一个相关项目的同学,课程在b站和MOOC平台都可以找到. 在卷积神经网络一节,课程以lenet5为例,给出了完整的代码,通过这样一个例子完成了模型构建.较大数据量的训练和测试.整个代码不复杂,架构完整,我觉得代码很干净,很优秀,所以想把之后需要实现的Alexnet等网络结构都按照这个代码的结构来改. 下面是lenet5实现,数据集依然mnist. forward.py #coding:…
参考黄文坚<TensorFlow实战>一书,完成AlexNet的整体实现并展望其训练和预测过程. import tensorflow as tf batch_size = 32 num_batches = 100 # 显示网络每一层结构,展示每一个卷积层或池化层输出tensor的尺寸,接受一个tensor作为输入 def print_activations(t): print(t.op.name, ' ', t.get_shape().as_list()) # 接受images作为输入,返回最…
这几天想系统的学习一下TensorFlow,为之后的工作打下一些基础.看了下<TensorFlow:实战Google深度学习框架>这本书,目前个人觉得这本书还是对初学者挺友好的,作者站在初学者的角度讲解TensorFlow,所以比较容易理解.这篇博文主要是为了分析其中的一个经典代码,MNIST手写数字识别.作者用了一个三层的全连接网络来实现手写数字识别.具体的一些信息可以在书中5.2节查看.在下面的代码中有些注释是作者的,当然我也在一些地方添加了自己的理解,在博文最后我会做一个总结. # -*…
三种代价函数 1,二次代价函数   式子代表预测值与样本值的差得平方和 由于使用的是梯度下降法,我们对变量w,b分别求偏导: 这种函数对于处理线性的关系比较好,但是如果遇到s型函数(如下图所示),效率不高. 从图中我们看出:当我们想要趋近于1时,B点接近于1,变化趋势变小(很正确),A点与1距离较远,变化趋势较大(很正确),C点(假设在x = -3处)远离1,变化趋势很小(发生错误),因此,二次代价函数中单凭梯度的大小决定变化的快慢是不对的. 由此我们引出了第二个代价函数——交叉熵代价函数 2,…
实现过一个例子之后,对TensorFlow运行机制有了初步的了解,但脑海中还没有一个如何实现神经网络的一个架构模型.下面我们来探讨如何模块化搭建神经网络,完成数据训练和预测. 首先我们将整体架构分为两个模块: forward.py 和 backward.py forward.py  主要完成神经网络模型的搭建,即构建计算图 backward.py 训练出网络参数 test.py 测试模型准确率 下面是用随机生成数据来完成整个过程,如果对上面的总结理解不是很清楚的话,看着下面具体的代码,对照上面提…
首先应用TensorFlow完成一个线性回归,了解TensorFlow的数据类型和运行机制. import tensorflow as tf import numpy as np import matplotlib.pyplot as plt rng = np.random # 参数设定 learning_rate = 0.01 training_epochs = 10000 display_step = 50 #50代display一次 # 训练数据 train_X = np.asarray(…
欢迎转载,但请务必注明原文出处及作者信息. 深入MNIST refer: http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_pros.html @author: huangyongye @date: 2017-02-24 之前在keras中用同样的网络和同样的数据集来做这个例子的时候.keras占用了 5647M 的显存(训练过程中设了 validation_split = 0.2, 也就是1.2万张图). 但是我…