神经网络和BP算法推导
注意:绘画太难了,因为他们画,本文中的所有插图来自基本算法饺子机类。请勿转载
1.习模型:
事实上,基本上全部的基本机器学习模型都能够概括为下面的特征:依据某个函数,将输入计算并输出。
图形化表示为下图:
当我们的g(h)为sigmoid函数时候,它就是一个逻辑回归的分类器。当g(h)是一个仅仅能取0或1值的函数时,它就是一个感知机。那么问题来了,这一类模型有明显缺陷:当模型线性不可分的时候。或者所选取得特征不完备(或者不够准确)的时候。上述分类器效果并非特别喜人。
例如以下例:
我们能够非常轻易的用一个感知机模型(感知器算法)来实现一个逻辑与(and)。逻辑或(or)和逻辑或取反的感知器模型,(感知器模型算法链接),由于上述三种模型是线性可分的。可是。假设我们用感知器模型取实现一个逻辑非异或(同样为1,不同为0),我们的训练模型的全部输出都会是错误的,该模型线性不可分。
2.神经网络引入:
我们能够构造下面模型:
(当中,A代表逻辑与,B代表逻辑或取反。C代表逻辑或)
上述模型就是一个简单的神经网络,我们通过构造了三个感知器,并将两个感知器的输出作为了还有一个感知其的输入,实现了我们想要的逻辑非异或模型,攻克了上述的线性不可分问题。
那么问题是怎么解决的呢?事实上神经网络的实质就是每一层隐藏层(除输入和输出的节点,后面介绍)的生成。都生成了新的特征,新的特征在此生成新的特征。知道最新的特征能非常好的表示该模型为止。这样就攻克了线性不可分或特征选取不足或不精确等问题的产生。(曾经曾介绍过线性不可分的实质就是特征不够)
神经网络的模型结构例如以下:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">(蓝色。红色。黄色分别代表输入层,影藏层,输出层)
在此我们介绍的神经网络中的每个训练模型用的都是逻辑回归模型即g(h)是sigmoid函数。
我们能够将神经网络表演示样例如以下:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
3.神经网络的预測结果(hypothesis函数)的计算和CostFunction的计算
预測结果的计算事实上与普通的逻辑回归计算没有多大差别。
仅仅是有时候须要将某几个逻辑回归的输出作为其它逻辑回归模型的输入罢了,比方上例的输出结果为:
那么CostFunction的计算又和逻辑回归的CostFunction计算有什么差别呢?
逻辑回归的CostFunction例如以下:
上述式子的本质是将预測结果和实际标注的误差用某一种函数估算,可是我们的神经网络模型有时候输出不止一个,所以,神经网络的误差估算须要将输出层全部的CostFunction相加:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
k:代表第几个输出。
补充:神经网络能够解决几分类问题?
理论上,当输出单元仅仅有一个时,能够解决2分类问题,当输出单元为2时能够解决4分类问题。以此类推...
实质上。我们三个输出单元时,能够解决三分类问题([1,0,0],[0,1,0],[0,0,1]),为什么如此设计?临时留白。以后解决
ps:面试题:一个output机器,15%可能输出1。85%输出0,构造一个新的机器。使0,1输出可能性同样? 答:让output两次输出01代表0,10代表1,其余丢弃
4.神经网络的训练
这儿也同于logistic回归,所谓的训练也就是调整w的权值,让我们再一次把神经网络的CostFunction写出来!
W代表全部层的特征权值,Wij(l)代表第l层的第i个元素与第j个特征的特征权值
m代表样本个数,k代表输出单元个数
hw(x(i))k代表第i个样本在输出层的第k个样本的输出 y(i)k代表第i个样本的第k个输出
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
然后同于logistic回归。将全部的W更新就可以。难处在于此处的偏导数怎么求?首先得说说链式求导法则:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
所以我们能够有:
接下来的问题就是有theta了,当我们要求的错误变化率是最后一层(最后一层既是输出层的前一层)且仅仅看一个输出神经元时则:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
多个相加就可以
那么中间层次的神经元变化率怎样求得呢?我们须要研究l层和了+1层之间的关系,例如以下图:
第l层的第i个Z与第l层的第i个a的关系就是取了一个sigmod函数,然而第l层的第i个a与和其相应的w相乘后在加上其它的节点与其权值的乘积构成了第l+1层的Z,好拗口,好难理解啊。看下式:
大体也就是这么个情况,详细的步骤为:
1.利用前向传播算法,计算出每一个神经元的输出
2.对于输出层的每个输出。计算出其所相应的误差
3.计算出每一个神经元的错误变化率即:
4.计算CostFunction的微分,即:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQwMzg5Nw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">
5.代码:
版权声明:本文博主原创文章,博客,未经同意不得转载。
神经网络和BP算法推导的更多相关文章
- 从 0 开始机器学习 - 神经网络反向 BP 算法!
最近一个月项目好忙,终于挤出时间把这篇 BP 算法基本思想写完了,公式的推导放到下一篇讲吧. 一.神经网络的代价函数 神经网络可以看做是复杂逻辑回归的组合,因此与其类似,我们训练神经网络也要定义代价函 ...
- [DL学习笔记]从人工神经网络到卷积神经网络_1_神经网络和BP算法
前言:这只是我的一个学习笔记,里边肯定有不少错误,还希望有大神能帮帮找找,由于是从小白的视角来看问题的,所以对于初学者或多或少会有点帮助吧. 1:人工全连接神经网络和BP算法 <1>:人工 ...
- 误差逆传播(error BackPropagation, BP)算法推导及向量化表示
1.前言 看完讲卷积神经网络基础讲得非常好的cs231后总感觉不过瘾,主要原因在于虽然知道了卷积神经网络的计算过程和基本结构,但还是无法透彻理解卷积神经网络的学习过程.于是找来了进阶的教材Notes ...
- 三层神经网络自编码算法推导和MATLAB实现 (转载)
转载自:http://www.cnblogs.com/tornadomeet/archive/2013/03/20/2970724.html 前言: 现在来进入sparse autoencoder的一 ...
- 神经网络中 BP 算法的原理与 Python 实现源码解析
最近这段时间系统性的学习了 BP 算法后写下了这篇学习笔记,因为能力有限,若有明显错误,还请指正. 什么是梯度下降和链式求导法则 假设我们有一个函数 J(w),如下图所示. 梯度下降示意图 现在,我们 ...
- BP算法推导python实现
def sigmoid(inX): return 1.0/(1+exp(-inX)) '''标准bp算法每次更新都只针对单个样例,参数更新得很频繁sdataSet 训练数据集labels 训练 ...
- 神经网络的BP算法
正向传播: W下脚标定义根据用户自己的习惯 反向传播算法 1.误差由本层传到上层相关联的结点,权重分配 2.上层某个结点的总误差 2.误差最小化与权重变量有关,最小梯度法. 权重因子更新 偏导数求解, ...
- 【神经网络】BP算法解决XOR异或问题MATLAB版
第一种 %% %用神经网络解决异或问题 clear clc close ms=4;%设置4个样本 a=[0 0;0 1;1 0;1 1];%设置输入向量 y=[0,1,1,0];%设置输出向量 n=2 ...
- bp算法推导过程
参考:张玉宏<深度学习之美:AI时代的数据处理与最佳实践>265-271页
随机推荐
- 本地代码上传 -> Github
首先在控制台cd到你的本地项目,这里以teat为例 1.执行命令: git init 2.将项目文件添加到仓库中: git add . (可以是指定文件,将“.”转换为指定文件) 3.接下来com ...
- 谈谈IT人的发展[转载]
一个人如果能确定他喜欢的行业,他一生都会非常幸福. 相反,则往往痛苦,也许竟然会因此成为一个哲学家也说不定. 中国的贫穷决定了我们当中的大多数人不能根据自己的爱好来选择职业,而只是因为生活所迫,或 ...
- Eclipse代码注释模板修改
/** * @ClassName: ${type_name} * @author: <font color="red"><b>ZF</b>< ...
- underscorejs-findWhere学习
2.8 findWhere 2.8.1 语法: _.findWhere(list, predicate) 2.8.2 说明: 对list集合的每个对象依次与predicate对象进行匹配,匹配成功则立 ...
- 两个示例介绍JavaScript的闭包
JavaScript的闭包有两个用途:一个是访问函数内部的变量:另一个是让变量的值在作用域内保持不变.函数是JavaScript 中唯一有作用域的对象,因此JavaScript的闭包依赖于函数实现,下 ...
- JavaScript 学习-变量的作用域和块级作用域
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
- MVC中的UrlHelper
authour: chenboyi updatetime: 2015-04-27 22:32:47 friendly link: 1,CodeSimple: ps:因为UrlHelper涉及的知识 ...
- 解决xp下无法通过windows installer服务安装此安装程序包。您必须安装带有更新版本Wi
今天装 tortoisegit 的时候发现安装包不能使用.报错无法通过windows installer服务安装此安装程序包.您必须安装带有更新版本Windows Installer服务的Window ...
- HDU3549 Flow Problem(网络流增广路算法)
题目链接. 分析: 网络流增广路算法模板题.http://www.cnblogs.com/tanhehe/p/3234248.html AC代码: #include <iostream> ...
- POJ2632 Crashing Robots(模拟)
题目链接. 分析: 虽说是简单的模拟,却调试了很长时间. 调试这么长时间总结来的经验: 1.坐标系要和题目建的一样,要不就会有各种麻烦. 2.在向前移动过程中碰到其他的机器人也不行,这个题目说啦:a ...