【Deep Learning】林轩田机器学习技法
这节课的题目是Deep learning,个人以为说的跟Deep learning比较浅,跟autoencoder和PCA这块内容比较紧密。
林介绍了deep learning近年来受到了很大的关注:deep NNet概念很早就有,只是受限于硬件的计算能力和参数学习方法。
近年来深度学习长足进步的原因有两个:
1)pre-training技术获得了发展
2)regularization的技术获得了发展
接下来,林开始介绍autoencoder的motivation。
每过一个隐层,可以看做是做了一次对原始输入信息的转换。
什么是一个好的转换呢?就是因为这种转换而丢失较多的信息:即encoding之后,甚至可以用decoding的过程复原。
因此,在考虑deep NNet的参数学习的时候,如果在pre-training阶段采用类似autoencoding的方式,似乎是一个不错的选择。
如下,就是autoencoder的一个示例。简单来说,就是经过如下的单层神经网络结构后,输出跟输出十分接近。
这种autoencoder对于机器学习来说有什么作用呢?
1)对于supervised learning来说:这种information-preserving NN的隐层结构+权重是一种对原始输入合理的转换,相当于在结构中学习了data的表达方式
2)对于unsupervised learning来说:可以作为density estimation或outlier detection。这个地方没太理解清,可能还是缺少例子。
autoencoder可以看成是单层的NN,可以用backprop求解;这里需要多加入一个正则化条件,wij(1)=wji(2)
采用上述的basic autoencoder,可以作为Deep NNet的pre-training方式。
接下来,林开始关注Deep NNet的regularization的问题。
之前提到过的几种regularization方式都可以用(structural constraints、weight decay/elimination regularizers、early stopping),下面介绍一种新的regularization technique。
这种方式是:adding noise to data
简单来说,在训练autoencoder的时候加入高斯噪声,喂进去的输出端还是没有加入噪声的data;这样学出来的autoencoder就具备了抵抗noise的能力。
接下来,开始引入PCA相关的内容。
之前陈述的autoencoder可以归类到nonliner autoencoder(因为隐层输出需要经过tanh的操作,所以是nonlinear的)。
那么如果是linear autoencoder呢?(这里把隐层的bias单元去掉)
最后得到的linear autoencoder的表达式就是 :h(x)=WW'x
由此,可以写出来error function
这是一个关于W的4阶的多项式,analytic solution不太好整。
于是林给出了下面的一种求解思路:
上述的核心在于:WW'是实对称阵。
实对称阵有如下的性质:(http://wenku.baidu.com/view/1470f0e8856a561252d36f5d.html)
我们注意一下W这个矩阵:W是d×d'维度的矩阵;WW'是d×d维度的矩阵。
这里回顾一下矩阵的秩的性质:
因此,WW'的秩最大就是d'了(d代表数据的原始维度,d'代表隐层神经元的个数,一般d'<d)
WW'的秩最大是d'能得到这样的结论:WW'至多有d'个非零特征值→对角阵gamma对角线上最多有d'个非零元素。
这里需要复习线性代数一个概念:
如果矩阵可以对角化,那么非零特征值的个数就等于矩阵的秩;如果矩阵不可以对角化,那么这个结论就不一定成立了。
这里我们说的WW'是实对称阵,又因为实对称阵一定可以对角化,因此WW'的非零特征值特殊就等于矩阵的秩。
通过上述的内容,WW'x又可以看成是VgammaV'x:
1)V'x 可以看成是对原始输入rotate
2)gamma 可以看成是将0特征值的component的部分设成0,并且scale其余的部分
3)再转回来
因此,优化目标函数就出来了
这里可以不用管前面的V(这是正交变换的一个性质,正交变换不改变两个向量的内积,详情见https://zh.wikipedia.org/wiki/正交)
这样一来,问题就简化了:令I-gamma生出很多0,利用gamma对角线元素的自由度,往gamma里面塞1,最多塞d'个1。剩下的事情交给V来搞定。
1)先把最小化转化为等价的最大化问题
2)用只有一个非零特征值的情况来考虑,Σv'xx'v s.t. v'v=1
3)在上述最优化问题中,最好的v要满足error function和constraints在最优解的时候,他们的微分要平行。
4)再仔细观察下形式 Σxx'v = lambdav 这里的v不就是XX'的特征向量么
因此,最优化的v就是特征值最大的XX'的特征向量。需要降到多少维的,就取前多少个特征向量。
林最后提了一句PCA,其实就是在进行上述步骤之前先对各个维度的向量均值化:
下面说一下PCA。
http://blog.codinglabs.org/articles/pca-tutorial.html
上面这篇日志非常好,基本完全解释了PCA的来龙去脉。
1)PCA的目的是对数据降维之后,还能尽量保持数据原有的信息(分得开。。。方差大。。。)
2)如果对原始数据各个维度做均值化的操作之后,方差&协方差,只用一个矩阵就表示出来了。
上述这段话看明白了,PCA的核心就有了:巧妙地把原始输入数据各个维度均值化之后,方差和协方差都放到一个矩阵里了。
优化的目标是:方差要大,协方差要小;这样的优化目标就等价于把协方差矩阵对角化。
实对称阵对角化是线性代数的基础知识:http://wenku.baidu.com/view/1470f0e8856a561252d36f5d.html
OK,PCA就大体上搞定了。
中途还看了stanford的http://ufldl.stanford.edu/wiki/index.php/PCA
脑子里冒出来一个想法:如果协方差矩阵是满秩的,并且不对数据降维,原来是多少维,还是多少维,那么变换前和变换后有啥区别呢?
从式子上看,这种变化相当于把变换后的协方差矩阵搞成对角阵了。如果从几何上来看,比较下面两个图:
变换前:
变换后:
直观上看就是整体给“放平”了。
变化前:x1越大 x2也越大,反之亦然
变换后:由于给放平了,x1的大小与x2的大小没关系了
因此,变换后这种放平就消除了x1和x2的相关性了,也就是协方差矩阵的非对角元素给搞成0的效果。
【Deep Learning】林轩田机器学习技法的更多相关文章
- 【Matrix Factorization】林轩田机器学习技法
在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种 ...
- 【Radial Basis Function Network】林轩田机器学习技法
这节课主要讲述了RBF这类的神经网络+Kmeans聚类算法,以及二者的结合使用. 首先回归的了Gaussian SVM这个模型: 其中的Gaussian kernel又叫做Radial Basis F ...
- 【Neural Network】林轩田机器学习技法
首先从单层神经网络开始介绍 最简单的单层神经网络可以看成是多个Perception的线性组合,这种简单的组合可以达到一些复杂的boundary. 比如,最简单的逻辑运算AND OR NOT都可以由多 ...
- 【Random Forest】林轩田机器学习技法
总体来说,林对于random forest的讲解主要是算法概况上的:某种程度上说,更注重insights. 林分别列举了Bagging和Decision Tree的各自特点: Random Fores ...
- 【Decision Tree】林轩田机器学习技法
首先沿着上节课的AdaBoost-Stump的思路,介绍了Decision Tree的路数: AdaBoost和Decision Tree都是对弱分类器的组合: 1)AdaBoost是分类的时候,让所 ...
- 【Adaptive Boosting】林轩田机器学习技法
首先用一个形象的例子来说明AdaBoost的过程: 1. 每次产生一个弱的分类器,把本轮错的样本增加权重丢入下一轮 2. 下一轮对上一轮分错的样本再加重学习,获得另一个弱分类器 经过T轮之后,学得了T ...
- 【Linear Support Vector Machine】林轩田机器学习技法
首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下 ...
- 【Support Vector Regression】林轩田机器学习技法
上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续 ...
- 【Dual Support Vector Machine】林轩田机器学习技法
这节课内容介绍了SVM的核心. 首先,既然SVM都可以转化为二次规划问题了,为啥还有有Dual啥的呢?原因如下: 如果x进行non-linear transform后,二次规划算法需要面对的是d`+1 ...
随机推荐
- 1929. Teddybears are not for Everyone (Timus) (combination+reading questions)
http://acm.timus.ru/problem.aspx?space=1&num=1929 combination problems. 排列组合问题. According to the ...
- 修改Windows下的Memcached下的服务端口
在命令模式下,可以使用 memcached -p 12000 去指定端口,可服务安装后,却总是只有 -d runservice 的参数. 通过修改注册表来达到这个修改端口的目的. 在 HKEY_LOC ...
- 使用selenium grid的hub做分发,且可查看分发后的服务器IP地址
背景:借助selenium 的grid做分布式运行,进行分发任务,(目前不做多浏览器的操作,只对谷歌浏览器进行操作) 目前在A服务器(http://10.40.6.24:4444)上注册了一个hub, ...
- Poj(1182),种类并查集
题目链接:http://poj.org/problem?id=1182 再次熟练种类并查集,又积累点经验,和技巧,rank 0 2 1 先计算father[x] ,再更新rank[x]; #inclu ...
- Dijkstra单源最短路径,POJ(2387)
题目链接:http://poj.org/problem?id=2387 Dijkstra算法: //求某一点(源点)到另一点的最短路,算法其实也和源点到所有点的时间复杂度一样,O(n^2); 图G(V ...
- http长链接
之前说过http的请求是再tcp连接上面进行发送的,那么tcp连接就分为长连接 和 短连接这样的概念,那么什么是长链接呢?http请求发送的时候要先去创建一个tcp的连接,然后在tcp的连接上面发送h ...
- Python 爬虫的工具列表
这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab - 网络库(基于pycurl). pycurl - 网络 ...
- hadoop中使用的Unsafe.java
今天查看hadoop源代码, 发现有个Unsafe.java 稍微总结下 优势 1 减少线程调度开销, Unsafe.java 通过采用非堵塞原子方式来减少线程调度开销 2 传统线程通信 ...
- Xcode 中 pch 文件配置 - iOS
一.简介 首先 pch 文件(即:Prefix Header)是一种预编译文件,在 Xcode 6 之前创建新的工程则会自动将该文件一起创建出来,但在 Xcode 6 之后苹果官方则默认将自动创建的方 ...
- JS底层挖掘
//Promise版本的Ajaxconst getJSON = function(url) { const promise =new Promise(function(resolve, reject) ...