DA就是“Denoising Autoencoders”的缩写.继续给yusugomori做注释,边注释边学习.看了一些DA的材料,基本上都在前面“转载”了.学习中间总有个疑问:DA和RBM到底啥区别?(别笑,我不是“学院派”的看Deep Learning理论,如果“顺次”看下来,可能不会有这个问题),现在了解的差不多了,详情见:[deep learning学习笔记]Autoencoder.之后,又有个疑问,DA具体的权重更新公式是怎么推导出来的?我知道是BP算法,不过具体公示的推导.偏导数的求…
参考资料: https://morvanzhou.github.io/ 非常感谢莫烦老师的教程 http://mnemstudio.org/path-finding-q-learning-tutorial.htm http://www.cnblogs.com/dragonir/p/6224313.html 这篇文章也是用非常简单的说明将 Q-Learning 的过程给讲解清楚了 http://www.cnblogs.com/jinxulin/tag/%E5%A2%9E%E5%BC%BA%E5%A…
这方面的资料比较零散,学起来各种碰壁,碰到各种问题,这里就做下学习记录. 参考资料: https://morvanzhou.github.io/ 非常感谢莫烦老师的教程 http://mnemstudio.org/path-finding-q-learning-tutorial.htm http://www.cnblogs.com/dragonir/p/6224313.html 这篇文章也是用非常简单的说明将 Q-Learning 的过程给讲解清楚了 http://www.cnblogs.com…
[Machine Learning]学习笔记-Logistic Regression 模型-二分类任务 Logistic regression,亦称logtic regression,翻译为"对数几率回归",是一种分类学习方法.和先前的线性回归模型不同的是,输出的y一般是离散量的集合,如输出\(y \in \{0,1\}\)的二分类任务. 考虑二分类任务,线性回归模型产生的\(Z=\theta ^TX\)是连续的实值,需要用一个函数\(g(\theta ^TX)\)将z转换为0/1值.…
点击标题可转到相关博客. 博客专栏:机器学习 PDF 文档下载地址:Machine Learning 学习笔记 机器学习 scikit-learn 图谱 人脸表情识别常用的几个数据库 机器学习 F1-Score, recall, precision Softmax Classifier (三个隐含层) Softmax Classifier (两个隐含层) Softmax classifier (一个隐含层) Softmax classifier (无隐含层) 机器视觉: LBP-TOP 机器视觉…
之前的笔记,算不上是 Deep Learning, 只是为理解Deep Learning 而需要学习的基础知识, 从下面开始,我会把我学习UFDL的笔记写出来 #主要是给自己用的,所以其他人不一定看得懂# UFDL链接 : http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial 自编码器( Autoencoders ):(概述) 自编码器是只有一层隐藏节点,输入和输出具有相同节点数的神经网络. 自编码器的目的是求的函数 . 也…
看到Max Welling教授主页上有不少学习notes,收藏一下吧,其最近出版了一本书呢还,还没看过. http://www.ics.uci.edu/~welling/classnotes/classnotes.html Statistical Estimation [ps]- bayesian estimation- maximum a posteriori (MAP) estimation- maximum likelihood (ML) estimation- Bias/Variance…
主要内容: Spotify是个类似酷我音乐的音乐站点.做个性化音乐推荐和音乐消费.作者利用deep learning结合协同过滤来做音乐推荐. 详细内容: 1. 协同过滤 基本原理:某两个用户听的歌曲都差点儿相同,说明这两个用户听歌的兴趣.品味类似.某两个歌曲,被同一群人听,说明这两个歌曲风格类似. 缺点: (1)没有利用歌曲本身的特征(信息) (2)无法对"层级"的item进行处理,对于歌曲来说,这样的层级关系体如今:专辑-主打歌-副歌,上面,这几种因素并非同等重要的 (3)冷启动问…
本文参考http://blog.csdn.net/zdy0_2004/article/details/43896015译文以及原文file:///F:/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/Recommending%20music%20on%20Spotify%20with%20deep%20learning%20%E2%80%93%20Sander%20Dieleman.html 本文是比利时根特大学(Ghent University)的Reservoir …
一.文章来由 好久没写原创博客了,一直处于学习新知识的阶段.来新加坡也有一个星期,搞定签证.入学等杂事之后,今天上午与导师确定了接下来的研究任务,我平时基本也是把博客当作联机版的云笔记~~如果有写的不对的地方,欢迎批评指正. 二.<一天搞懂深度学习> 300多页的PPT,台大教授写的好文章. 对应的视频地址 1.Lecture I: Introduction of Deep Learning (1)machine learning≈找函数 training和testing过程 (2)单个神经网…
百度了半天yusugomori,也不知道他是谁.不过这位老兄写了deep learning的代码,包括RBM.逻辑回归.DBN.autoencoder等,实现语言包括c.c++.java.python等.是学习的好材料.代码下载地址:https://github.com/yusugomori/DeepLearning.不过这位老兄不喜欢写注释,而且这些模型的原理.公式什么的,不了解的话就看不懂代码.我从给他写注释开始,边看资料.边理解它的代码.边给他写上注释. 工具包中RBM的实现包含了两个文件…
近期開始看一些深度学习的资料.想学习一下深度学习的基础知识.找到了一个比較好的tutorial,Neural Networks and Deep Learning,认真看完了之后觉得收获还是非常多的.从最主要的感知机開始讲起.到后来使用logistic函数作为激活函数的sigmoid neuron,和非常多其它如今深度学习中常使用的trick. 把深度学习的一个发展过程讲得非常清楚,并且还有非常多源代码和实验帮助理解.看完了整个tutorial后打算再又一次梳理一遍,来写点总结.以后再看其它资料…
 1. 直接上手篇 台湾李宏毅教授写的,<1天搞懂深度学习> slideshare的链接: http://www.slideshare.net/tw_dsconf/ss-62245351?qid=108adce3-2c3d-4758-a830-95d0a57e46bc&v=&b=&from_search=3 网盘下载链接:http://pan.baidu.com/s/1nv54p9R     密码:3mty. 中文在线课程:Hung-yi Lee (http://spe…
总览: 本章所讲的知识点包括>>>> 1.描述卷积操作 2.解释使用卷积的原因 3.描述pooling操作 4.卷积在实践应用中的变化形式 5.卷积如何适应输入数据 6.CNN对DL的影响 本章未包含的知识点有>>>> 在实际应用中如何选取CNN架构 本章的目的是阐述CNN提供的处理数据的方法.在第11章将会对怎样使用这些方法做说明. 9.1 卷积操作 问题: 1.与信号系统或者数学中的卷积有何区别? 2.如何用代码实现 注意:CNN包括的计算不仅仅只有卷积…
发表于NIPS2010 workshop on deep learning的一篇文章,看得半懂. 主要内容: 是针对文本表示的一种方法.文本表示可以进一步应用在文本分类和信息检索上面.通常,一篇文章表示为V大小的一个向量,|V|是词表的大小.传统的方法,向量中每个值是tf/idf计算得到的权重.不过|V|比较大的时候,对于文本分类和信息检索来讲,时空复杂度都比较大.这时候需要对|V|进行降维.通常的方法是LDA系列的方法,将文章表示成若干个topic上面的分布.不过实验效果并不好.本文作者用de…
继续看yusugomori的代码,看逻辑回归.在DBN(Deep Blief Network)中,下面几层是RBM,最上层就是LR了.关于回归.二类回归.以及逻辑回归,资料就是前面转的几篇.套路就是设定目标函数(softmax损失函数),对参数求偏导数,得出权重更新公式等. LogisticRegression.h注释如下: class LogisticRegression { public: int N; // number of input samples int n_in; // numb…
这几个ppt都是在微博上看到的,是百度的一个员工整理的. <Deep Belief Nets>,31页的一个ppt 1. 相关背景 还是在说deep learning好啦,如特征表示云云.列了一些参考文献,关于deep learning训练的,还不错. 2. 基本概念 两种产生式神经网络:(1)sigmod belief network:(2)Boltzmann Machine 多个概率密度模型如何融合? (1)mixture:就是加权平均 (2)product:乘积 (3)compositi…
关于DL,由于我是零经验入门, 事实上我是从最简单的ML开始学起, 所以这个系列我也从ML开始讲起. ===============并行分割线================= 一.线性回归 线性回归主要运用于“预测”类问题: 假设我们有一堆的数据(房间大小,房价).给定一个没见过的房间大小,它的价格应该怎么估计呢? 一般来说,我们可以假定房价h(x)和大小x之间存在一种线性关系.求出最优h(x)后, 对于每一个大小x的房间,我们都可以给出一个估价h(x) 概念:COST FUNCTION(代价…
标题:Efficient Estimation of Word Representations in Vector Space 作者:Tomas Mikolov 发表于:ICLR 2013 主要内容: 在NLP中,每一个词语都表示称实数向量的形式(称为word embedding or word representation).通常词语的实数向量用神经网络进行训练得到,如Bengio在2003年的工作,以及在此基础上的改进,如:用递归的神经网络进行训练.不过这些方法计算复杂度较高,对词表大小.训…
模型实现代码,关键是train函数和predict函数,都很容易. #include <iostream> #include <string> #include <math.h> #include "LogisticRegression.h" using namespace std; LogisticRegression::LogisticRegression( int size, // N int in, // n_in int out // n_…
说实话,具体的训练公式,我没有自己推导,姑且认为他写的代码是对的.总体上看,用bp的方法.特殊之处,在于输入层和输出层是完完全全的“同一层”. void dA::get_corrupted_input ( int *x, // the original input 0-1 vector -- input int *tilde_x, // the resulted 0-1 vector gotten noised -- output double p // the p probability of…
废话: 这博客有三个月没更新了. 三个月!!!尼玛我真是够懒了!! 这三个月我复习什么去了呢? 托福………… 也不是说我复习紧张到完全没时间更新, 事实上我甚至有时间打LOL. 只是说,我一次就只能(只想?)做一件事情. 对我来说,在两种不同思维之间转换是十分耗费能量的. 说白了我!就!是!个!废!柴!……哼…… 前言: PCA与白化, 就是对输入数据进行预处理, 前者对数据进行降维,后者对数据进行方差处理. 虽说原理挺简单,但是作用可不小. 之前的师兄做实验的时候,就是忘了对数据预处理, 结果…
逻辑回归主要用于解决分类问题,在现实中有更多的运用, 正常邮件or垃圾邮件 车or行人 涨价or不涨价 用我们EE的例子就是: 高电平or低电平 同时逻辑回归也是后面神经网络到深度学习的基础. (原来编辑器就有分割线的功能啊……) 一.Logistic Function(逻辑方程) 同线性回归,我们会有一个Hypothesis Function对输入数据进行计算已得到一个输出值. 考虑到分类问题的特点,常用的函数有sigmoid方程(又叫logistic方程) 其函数图像如下 可见: 1.输出区…
继续学习http://www.cnblogs.com/tornadomeet/archive/2013/03/15/2962116.html,上一节课学习速率是固定的,而这里我们的目的是找到一个比较好的学习速率.我们主要是观察 不同的学习速率对应的不同的损失值与迭代次数之间的函数曲线是怎么样的,找到那条最快达到收敛的函数曲线,其对应的学习速率就是我们要找的比较好的学习速率.在这里我们分别取速率值为:0.001,0.01,0.1,1,2,当我们选择完学习速率后,其余的都跟上一节课一样了.本文要解决…
1.为什么要在卷积网络中加入pooling(池化) 如果只利用卷积操作来减少feature map的大小,会失去很多信息.所以想到一种方法,减小卷积时的stride,留下大部分信息,通过池化来减小feature map的大小. 池化的优点: 1.池化操作不会增加parameters 2.实验结果表明用池化的模型准确率更高 池化的缺点: 1.由于减小了卷积的stride,所以会增加计算量 2.同时,池化层的加入使得我们又多了两个超参数(hyper parameters):pooling size和…
测试部分代码: void test_lr() { srand(0); double learning_rate = 0.1; double n_epochs = 500; int train_N = 6; int test_N = 2; int n_in = 6; int n_out = 2; // int **train_X; // int **train_Y; // int **test_X; // double **test_Y; // train_X = new int*[train_N…
https://www.cnblogs.com/zhhfan/p/10300012.html…
https://www.cnblogs.com/zhhfan/p/9985991.html…
辅助函数和构造函数. #include <iostream> #include <math.h> #include "dA.h" using namespace std; // To generate a value between min and max in a uniform distribution double uniform(double min, double max) { return rand() / (RAND_MAX + 1.0) * (m…
测试代码.能看到,训练的时候是单个样本.单个样本的训练的,在NN中是属于“stochastic gradient descent”,否则,一批样本在一起的,就是“standard gradient descent”. void test_dA() { srand(0); double learning_rate = 0.1; double corruption_level = 0.3; int training_epochs = 100; int train_N = 10; int test_N…