【Neural Network】林轩田机器学习技法

首先从单层神经网络开始介绍

最简单的单层神经网络可以看成是多个Perception的线性组合，这种简单的组合可以达到一些复杂的boundary。

比如，最简单的逻辑运算AND OR NOT都可以由多个perception构成的单层神经网络模拟。

但是，单层感知器神经网络能力再强也是有限的，有些逻辑也无法完成。比如，XOR异或运算。

这个时候，就很自然地引出了多层神经网络。

通过这个例子，可以看到多层的神经网络的表达能力要比单层的要强。

上面给出了看待神经网络的一种方式：

1）从原始输入开始一直到OUTPUT之前的那一层，可以看做是对输入x做各种transform

2）与OUTPUT紧挨着的那一层，可以看做是隐层输出做线性组合

并且，在这里规定了神经网络'regression'类型用sqaure error来衡量。

这里有个环节值得说道一下，我们来比较集中transform的方式：

1）如果是sign的：是表达力很强，但是由于是离散的，不好优化

2）如果是linear的：好优化，但整个网络也都相当于是个线性的了，失去了较强的学习能力

3）popular choice 是一种tanh(S)的转换器：

　　a. 这种转换器介于sign和linear之间，相当于是模拟化的sign

　　b. 同时这个转换函数的导数的性质又很好（与逻辑回归类似）

这样，神经网络的各个环节是啥已经搞清楚了。林接下来给出了神经网络各个部分的符号表示：

这里有个地方需要注意：每个隐层都有一个bias神经元，它与下一层的每个神经元都有权重连线（为了简便，bias设为常数1，对下一层每个神经元的偏置影响体现在权重连线上）

到此，可以给出神经网络的一个物理解释：前一层的输出作为厚一层的输入，每两个隐层之间的权重相当于两个隐层之间的匹配模式。

模型构造完成了，接下来就是如何学习模型的参数。

gradient boosting方法对于多层神经网络来说，有些太困难。

在这里，还是采用前人的梯度下降的思路来求解。问题的关键就是如何高效地计算出错误对于每个权重的导数。

这里先从最后一层的权重开始求解：这个求解利用了求导链式法则，讲每个神经元的输入分数s作为中间连接，就可以直观求解了。

林在这里将error与每个神经元的输入分数s的导数抽象出来，记为一个特殊符号delta。这样，就可以表示出来任意的error对于权重w的导数了。

每个神经元的输出x是很好求的（只要给定w，带入就可以求得了）；因此，下面只需要关注，如何把error对于权重w的导数求解出来。

这里求解delta采用了递归的思路：

1）sl经过tanh的计算→xl

2）xl经过下一层的权重→sl+1

沿着这两个思路，就把sl与sl+1给联系起来了，因此也获得了delta的递推关系。

又因为最后一层的delta是可以直接算出来的，因此，delta的计算思路也出来了，可以backwards的思路算出来。

上面就是伟大的BP神经网络求解算法，的原型。。。

1）S：选点

2）forward：（initial w）求x

3）backward：利用反向递推关系，求解delta

4）GD：对每个隐层权重更新

若干轮之后，返回整个神经网络的‘权重+偏置’参数

1）3）可以同步去做，获得若干个x*delta，然后average的动作后作用于4）（一周前面试的时候还被面试官问到了这个问题，现在看来就是取个平均，就可以获得mini-batch的效果了）

下面再补充一些NN的其他问题：

1）神经网络由于太太复杂了，因此GD的方法难免落入local minimum

2）有关初始化选取W的问题，无外乎两种选择：

　　a. 如果W选的很大，wx就会很大，优化作用不明显（联想tanh的函数图像，如果wx的绝对值很大，wx下一轮即使有比较大的变化，神经元的输出也变化不大了）

　　b. 因此，通常的做法是w取相对小一些，随机一些的值，这样貌似能好一些

有关VC Dimension的问题：神经网络越复杂，VC就越大。

只要神经网络的层数一旦多起来，神经元一旦多起来，VC Dimension自然就起来了。因此，regularization自然不可避免。

最常规的做法是损失函数中加一个L2 regularizer惩罚项。

但：

1）L2惩罚项的作用效果是不让每个权重分量太大，但确实成比例变化的（Large的shrink large, small的shrink small），总的来说没啥改变

2）L1惩罚项倒是可以让某些项目为0了，但是not differentiable，所以不好求解

因此，林介绍了一种新的regularizer：weight-elimination regularizer：

1）无论是原来是大的还是小的w分量，都会有同等效果的shrink（大的减小了，小的可能减没了）

2）differentiable，求解比L1容易一些

在这一节课的问题中，给出了weight-elimination的求导结果：

通过这个结果分析，其实我TM啥也分析不出来。。。有功夫再看原始的论文吧：http://papers.nips.cc/paper/323-generalization-by-weight-elimination-with-application-to-forecasting.pdf

另外，还有一种stop early的方法防止过拟合：

这个方法的背后思想史：

1）有理论保证：迭代的次数愈多，dvc就越大

2）联合VC Dimension理论，early stopping有助于防治过拟合

【Neural Network】林轩田机器学习技法的更多相关文章

【Radial Basis Function Network】林轩田机器学习技法
这节课主要讲述了RBF这类的神经网络+Kmeans聚类算法,以及二者的结合使用. 首先回归的了Gaussian SVM这个模型: 其中的Gaussian kernel又叫做Radial Basis F ...
【Matrix Factorization】林轩田机器学习技法
在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种 ...
【Deep Learning】林轩田机器学习技法
这节课的题目是Deep learning,个人以为说的跟Deep learning比较浅,跟autoencoder和PCA这块内容比较紧密. 林介绍了deep learning近年来受到了很大的关注: ...
【Random Forest】林轩田机器学习技法
总体来说,林对于random forest的讲解主要是算法概况上的:某种程度上说,更注重insights. 林分别列举了Bagging和Decision Tree的各自特点: Random Fores ...
【Decision Tree】林轩田机器学习技法
首先沿着上节课的AdaBoost-Stump的思路,介绍了Decision Tree的路数: AdaBoost和Decision Tree都是对弱分类器的组合: 1)AdaBoost是分类的时候,让所 ...
【Adaptive Boosting】林轩田机器学习技法
首先用一个形象的例子来说明AdaBoost的过程: 1. 每次产生一个弱的分类器,把本轮错的样本增加权重丢入下一轮 2. 下一轮对上一轮分错的样本再加重学习,获得另一个弱分类器经过T轮之后,学得了T ...
【Linear Support Vector Machine】林轩田机器学习技法
首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下 ...
【Support Vector Regression】林轩田机器学习技法
上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续 ...
【Dual Support Vector Machine】林轩田机器学习技法
这节课内容介绍了SVM的核心. 首先,既然SVM都可以转化为二次规划问题了,为啥还有有Dual啥的呢?原因如下: 如果x进行non-linear transform后,二次规划算法需要面对的是d`+1 ...

随机推荐

BZOJ 3090: Coci2009 [podjela]
3090: Coci2009 [podjela] Time Limit: 3 Sec Memory Limit: 128 MBSubmit: 23 Solved: 17[Submit][Statu ...
vue.js--基础 v-bind绑定属性使用
背景:因为10月要休产假了,8月的时间我工作很少,因为最开始做平台我一直做的是后端,前端很少接触,所以现在有时间,就学习前端基础,前端使用的vue.js+element,因为没有基础,所以下了一个视频 ...
2017.10.21 Java中的数据源与连接池技术
1.数据源技术就是预先建立好一定的数量的数据库连接,并将这些连接保存在连接池中,有连接池负责对这些数据库连接管理,当访问数据库时,只需要从连接池中取出有空闲状态的数据库连接:当程序访问数据库结束时,释 ...
Linux中的/etc/nologin问题
/etc/nologin 文件给系统管理员提供了在 Linux 系统维护期间禁止用户登陆的方式. 如果系统中存在 /etc/nologin 文件那么普通用户登陆就会失败. 这是一种提高安全性和防止数据 ...
第5章什么是寄存器—零死角玩转STM32-F429系列
第5章什么是寄存器集视频教程和1000页PDF教程请到秉火论坛下载:www.firebbs.cn 野火视频教程优酷观看网址:http://i.youku.com/firege 本章参考资料 ...
override与重载的区别
override与重载的区别override 与重载的区别,重载是方法的名称相同.参数或参数类型不同,进行多次重载以适应不同的需要 Override 是进行基类中函数的重写.
使用session处理用户搜索后数据的上一页和下一页跳转
搜索语句界面: /*单一检索:此处为一个下拉列表的检索*/ if(isset($_POST['submit']) && $_POST['submit'] == '点击搜索') { if ...
基于Vue的SPA如何优化页面加载速度
常见的几种SPA优化方式减小入口文件体积静态资源本地缓存开启GZip压缩使用SSR ..... 减小入口文件体积,常用的手段是路由懒加载,开启路由懒加载之后,待请求的页面会单独打包js文件,使 ...
js | javascript改变style样式和css样式
转载在很多情况下,都需要对网页上元素的样式进行动态的修改.在JavaScript中提供几种方式动态的修改样式,下面将介绍方法的使用.效果.以及缺陷. 1.使用obj.className来修改样式表的 ...
Unity基础
unity unity 3大场景 Asset Scene Component Asset :资源导入导出右击资源,选择导出Unity包导入可以直接将只有复制到Asset文件夹创建场景 File- ...

【Neural Network】林轩田机器学习技法

【Neural Network】林轩田机器学习技法的更多相关文章

随机推荐

热门专题