ex3多类问题和NN中的前向传播
昨日去了趟无锡,前天下了暴雨,所以昨天给我的感觉天气很好,天蓝云白的,以后在这边学习估计也是一件很爽的事情,且昨日通知书业寄到学校了,附赠了一份研究生数学建模的传单,我搜了搜近几年的题目,感觉统计模块的题目很多,学了一段时间的机器学习现在感觉看懂还是有点小难,但是有几道可以直接看出思路。昨天回来后并未继续笔记的整理,转去翻了翻周志华的书,重新看后感觉很棒,这段时间再重新看一遍,下了本统计学习方法也要这几日学一下。
one-VS-all与神经网络练习ex3
对于此练习,您将使用逻辑回归和神经网络来识别手写数字(从0到9)。 自动手写数字识别在当今广泛使用 - 从邮政信箱中识别邮政编码(邮政编码)到识别银行支票上的金额。 本练习将向您展示如何将这些方法用于此分类任务。
已经给出的数据存放在"ex3data1.mat"中,包含了5000个手写笔迹的训练集,.mat文件可以直接读取:
% Load saved matrices from file
load('ex3data1.mat');
% The matrices X and y will now be in your Octave environment
这5000个训练集中,每个案例都是20*20像素的灰度图像,每个像素由表示该位置的灰度强度的浮点数表示。 20×20像素的网格被展开为400维向量,这些训练样本中的每一个在我们的数据矩阵X中成为一行。这给我们一个5000×400矩阵X,其中每行都是训练样手写数字图像识别的训练集。
训练集的第二部分是包含训练集标签的5000维矢量y。 为了使事情更加兼容Octave / MATLAB索引,其中没有零索引,我们已经将数字零映射到值十。 因此,\ 0“数字被标记为\ 10”,而数字\ 1“至\ 9”按照自然顺序标记为\ 1“至\ 9”。
visualize the figure
“displaydata”函数用来显示随机从5000个训练集中挑选的任意100行数据(利用内嵌的randperm函数生成随机数,后挑选前100个),代码如下(直接提供为要求编写):
function [h, display_array] = displayData(X, example_width)
%DISPLAYDATA Display 2D data in a nice grid
% [h, display_array] = DISPLAYDATA(X, example_width) displays 2D data
% stored in X in a nice grid. It returns the figure handle h and the
% displayed array if requested.
% 如果参数example_width没有传入,自动生成
if ~exist('example_width', 'var') || isempty(example_width)
example_width = round(sqrt(size(X, 2)));
end
% 灰度处理
colormap(gray);
% 计算行、列
[m n] = size(X);
example_height = (n / example_width);
% 计算要显示的项目数
display_rows = floor(sqrt(m));%舍去小数部分
display_cols = ceil(m / display_rows);%补全小数部分
% 图像之间的填充
pad = 1;
% 以黑框显示填充边界
display_array = - ones(pad + display_rows * (example_height + pad), ...
pad + display_cols * (example_width + pad));
% 将每个图形复制到显示阵列上的一个临时patch中
curr_ex = 1;
for j = 1:display_rows
for i = 1:display_cols
if curr_ex > m,
break;
end
% Copy the patch
% Get the max value of the patch
max_val = max(abs(X(curr_ex, :)));
display_array(pad + (j - 1) * (example_height + pad) + (1:example_height), ...
pad + (i - 1) * (example_width + pad) + (1:example_width)) = ...
reshape(X(curr_ex, :), example_height, example_width) / max_val;
curr_ex = curr_ex + 1;
end
if curr_ex > m,
break;
end
end
% 显示图片
% imagesc(1,[0,1]); colormap(gray); imagesc 函数中的第二个参数确定灰度范围。灰度范围中的
% 第一个值(通常是0),对应于颜色映象表中的第一个值(颜色),第二个值(通常是1)则对应与颜色映
% 象表中的最后一个值(颜色)。灰度范围中间的值则线型对应与颜色映象表中剩余的值(颜色)
h = imagesc(display_array, [-1 1]);
% 坐标轴隐去
axis image off
drawnow;
end
图像如下:
### 矢量化逻辑回归
这里使用多个一对多的逻辑回归模型来构建一个多类分类器。 由于有10个类,故需要训练10个独立的逻辑回归分类器。 为了使培训效率高,重要的是确保代码良好的矢量化。
我们将从编写成本函数的向量化版本开始。 回顾前几节,在(非规则化)逻辑回归中成本函数是:
我们首先计算$h_\theta(x^{(i)})$对于每一个训练集i,这里$h_\theta(x^{(i)})=g(\theta^Tx^{(i)})$同时$g(z)=\frac{1}{1+e^{-z}}$为S形函数。事实证明,我们可以通过使用矩阵乘法快速计算所有我们的examples。定义X与θ 为:
通过计算矩阵Xθ ,有:
在最后的等式中,我们利用如果a和b是向量,那么$a^Tb=b^Ta$的事实。这允许我们在一行代码中计算我们所有示例i的乘积$\theta^Tx^{(i)}$。
函数lrCostFunction.m如下(不使用任何的loop即循环完成):
% Initialize some useful values
m = length(y); % number of training examples
% You need to return the following variables correctly
J = 0;
J = ( -y'*log(sigmoid(X*theta))-(ones(m,1)-y)'*log(ones(m,1)-sigmoid(X*theta)) )/m;
回忆一下,对于未正则的逻辑回归代价-cost梯度为:
为了对数据集进行向量化操作,我们先为所有$\theta_j$明确写出所有偏导数,
这里的:
注意这里的\(x^{(i)}\)是向量,而\((h_\theta(x^{(i)})-y^{(i)})\)是标量(单数)。为了理解推导的最后一步,令\(\beta_i=(h_\theta(x^{(i)}-y^{(i)})\)并观察:
完成函数lrCostFunction.m
% Initialize some useful values
m = length(y); % number of training examples
% You need to return the following variables correctly
J = 0;
grad = zeros(size(theta));
grad = X'*(sigmoid(X*theta)-y)/m + lambda/m*theta;
正则规则下的向量化逻辑递归
注意,不应将偏差项\(\theta_0\)正则化。相应地,正则化逻辑回归的偏导数\(\theta_j\)的成本定义为:
加入正则化后的lrCostFunction.m,完善后为:
% Initialize some useful values
m = length(y); % number of training examples
% You need to return the following variables correctly
J = 0;
grad = zeros(size(theta));
J = ( -y'*log(sigmoid(X*theta))-(ones(m,1)-y)'*log(ones(m,1)-sigmoid(X*theta)) )/m;
tempJ = sum(theta.^2) - theta(1)^2;
tempJ = tempJ*lambda/(2*m);
J = J+tempJ;
grad = X'*(sigmoid(X*theta)-y)/m + lambda/m*theta;
grad(1) = grad(1) - lambda/m*theta(1);
grad = grad(:);
one-vs-all 分类器
当你对第k类训练分类器时(k\(\in\){1,2,....K}),你将需要关于一个标记(label)y标明维度向量,其中\(y_j\in \{0,1\}\),表示第j个训练实例是否属于第k类(此时标1),或不属于此类(此时标2).
此外,使用自带的fmincg函数进行训练(而不是fminunc)。 fmincg与fminunc类似,但对于处理大量参数而言更为有效。
oneVsAll.m文件如下:
% Some useful variables
m = size(X, 1);
n = size(X, 2);
% You need to return the following variables correctly
all_theta = zeros(num_labels, n + 1);
% Add ones to the X data matrix
X = [ones(m, 1) X];
initial_theta = zeros(n + 1, 1);
options = optimset('GradObj', 'on', 'MaxIter', 50);
for c = 1:num_labels
[theta] = fmincg (@(t)(lrCostFunction(t, X, (y == c), lambda)),initial_theta, options);
all_theta(c,:) = theta(:)';
end
在已经训练过一对多分类器后,可以使用它来预测对于给定图像中所包含的数字,对于每一个输入,可以使用经过训练的逻辑回归分类器来计算它属于每个类的“概率”,predictOneVsAll.m函数用于将所选择的逻辑回归分类器输出最高概率的类,并返回类标签(1,2...或K)作为输入实例的预测。
具体如下:
m = size(X, 1);
num_labels = size(all_theta, 1);
% You need to return the following variables correctly
p = zeros(size(X, 1), 1);
% Add ones to the X data matrix
X = [ones(m, 1) X];
A = X*all_theta';
[~,p] = max(A,[],2);
神经网络NN练习
之前几节的练习中,已经能够实现多类逻辑回归以从图片中识别手写数字,然而逻辑回归不能形成更复杂的假设,因为它只是一个线性分类器,而这部分的练习中将试图通过学习神经网络以识别与之前相同的训练集的手写数字,NN可以形成非线性假设的复杂模型,ex3中对NN的练习主要为前向反馈传播算法,使用权重进行预测,接下来的ex4练习会涉及到神经网络的反向传播算法的计算。
我们的神经网络下图所示。它有3层{输入层,隐层和输出层。 回想一下,我们的输入层是数字图像的像素值,由于图像的尺寸为20×20,所以给出了400个输入层单位(不包括总是输出1即额外的偏置单位)。 如前所述,训练数据将被加载到变量X和y中。您已经获得了我们已经训练的一组网络参数(\(\Theta^{(1)},\Theta^{(2)}\))。 这些存储在ex3weights.mat中,并将由脚本ex3 nn.m加载到Theta1和Theta2中。参数的尺寸为第二层25个单位的神经网络的大小和10个输出单元(对应于10位数字类)。
完成predict.m函数编写:
% Useful values
m = size(X, 1);
num_labels = size(Theta2, 1);
% You need to return the following variables correctly
p = zeros(size(X, 1), 1);
X = [ones(m,1) X];
a2 = sigmoid(X*Theta1');
a2 = [ones(size(a2,1),1) a2];
a3 = sigmoid(a2*Theta2');
[~,p] = max(a3,[],2);
由已知的参数Theta1和Theta2我们可以的到计算的精确度为:97.5%.
ex3多类问题和NN中的前向传播的更多相关文章
- 卷积神经网络 cnnff.m程序 中的前向传播算法 数据 分步解析
最近在学习卷积神经网络,哎,真的是一头雾水!最后决定从阅读CNN程序下手! 程序来源于GitHub的DeepLearnToolbox 由于确实缺乏理论基础,所以,先从程序的数据流入手,虽然对高手来讲, ...
- caffe中的前向传播和反向传播
caffe中的网络结构是一层连着一层的,在相邻的两层中,可以认为前一层的输出就是后一层的输入,可以等效成如下的模型 可以认为输出top中的每个元素都是输出bottom中所有元素的函数.如果两个神经元之 ...
- 22.编写一个类A,该类创建的对象可以调用方法showA输出小写的英文字母表。然后再编写一个A类的子类B,子类B创建的对象不仅可以调用方法showA输出小写的英文字母表,而且可以调用子类新增的方法showB输出大写的英文字母表。最后编写主类C,在主类的main方法 中测试类A与类B。
22.编写一个类A,该类创建的对象可以调用方法showA输出小写的英文字母表.然后再编写一个A类的子类B,子类B创建的对象不仅可以调用方法showA输出小写的英文字母表,而且可以调用子类新增的方法sh ...
- 实体类在Windows程序中的高级应用--------------------》》心境是一种境界。
一.事务 我们在大家学到这,或多或少对事务都有一些理解了.今天的我也对事务有了更深一层的理解对我来说,我想与大家一起分享一下. 解析: 1.ADO.NET提供了事务处理功能 2.C#中开启事务 3.在 ...
- Effective Objective-C 2.0 — 第二条:类的头文件中尽量少引入其他头文件
第二条:类的头文件中尽量少引入其他头文件 使用向前声明(forward declaring) @class EOCEmployer 1, 将引入头文件的实际尽量延后,只在确有需要时才引入,这样就可以减 ...
- 不使用CvvImage类来在MFC中显示图像
/* * ===================================================================================== * * Filen ...
- 在含有null值的复杂类的集合(Collection)中取最大值
在日常编程中,经常遇到要在一组复杂类的集合(Collection)中做比较.取最大值或最小值. 举个最简单的例子,我们要在一个如下结构的集合中选取包含最大值的元素: public class Clas ...
- C++ vector 实现二维数组时, 在类的头文件中定义时遇到"应输入类型符"的问题?
见下,当我在类的声明文件中定义二维vector时,提示我应输入类型说明符; 但是相同的格式定义,在类中将二维vector修改为在源文件中定义就可以顺利通过,并顺利执行打印 打印结果如下: 望大神来解惑 ...
- java中常用的包、类、以及包中常用的类、方法、属性----sql和text\swing
java中常用的包.类.以及包中常用的类.方法.属性 常用的包 java.io.*; java.util.*; java.lang.*; java.sql.*; java.text.*; java.a ...
随机推荐
- ms_celeb_1m数据提取(MsCelebV1-Faces-Aligned.tsv)python脚本
本文主要介绍了如何对MsCelebV1-Faces-Aligned.tsv文件进行提取 原创by南山南北秋悲 欢迎引用!请注明原地址 http://www.cnblogs.com/hwd9654/p/ ...
- C++模板实现动态顺序表(更深层次的深浅拷贝)与基于顺序表的简单栈的实现
前面介绍的模板有关知识大部分都是用顺序表来举例的,现在我们就专门用模板来实现顺序表,其中的很多操作都和之前没有多大区别,只是有几个比较重要的知识点需要做专门的详解. #pragma once #inc ...
- web开发中,post与get的区别
区别: 1.Get是从服务器上获取数据,Post是向服务器传送数据. 2.Get是把参数数据队列加到提交表单的Action属性所指的URL中,值和表单内各个字段一一对应,在URL中可以看到.Post是 ...
- 跨域问题解决方案(HttpClient安全跨域 & jsonp跨域)
1 错误场景 今天要把项目部署到外网的时候,出现了这样的问题, 我把两个项目放到自己本机的tomcat下, 进行代码调试, 运行 都没有问题的, 一旦把我需要调用接口的项目B放到其他的服务器上, 就会 ...
- 0基础搭建Hadoop大数据处理-集群安装
经过一系列的前期环境准备,现在可以开始Hadoop的安装了,在这里去apache官网下载2.7.3的版本 http://www.apache.org/dyn/closer.cgi/hadoop/com ...
- ASP.NET MVC知识点总结
一直都有把MVC的知识点总结出来的打算,今日终于得偿所愿.话不多说,开工!!! 一· MVC MVC设计模式->MVC框架(前端开发框架),asp.net(webform) aspx M:Mo ...
- vue视频学习笔记05
video 5 vue2.0:bower info vue http://vuejs.org/到了2.0以后,有哪些变化? 1. 在每个组件模板,不在支持片段代码组件中模板:之前:<templa ...
- PHPMailer 命令执行漏洞(CVE-2016-10033)分析(含通用POC)
对比一下新老版本:https://github.com/PHPMailer/PHPMailer/compare/v5.2.17…master 其实答案呼之欲出了——和Roundcube的RCE类似,m ...
- JavaScript开发中几个常用知识点总结
最近在做项目的时候自己写了一些JavaScipt代码,于是自己又进行简单的查阅资料整理了一下,发现了如下几个比较有用的知识点: 1.三种声明函数的方式 2.jQuery $(document).rea ...
- java虚拟机学习-慢慢琢磨JVM(2)
1 JVM简介 JVM是我们Javaer的最基本功底了,刚开始学Java的时候,一般都是从“Hello World”开始的,然后会写个复杂点class,然后再找一些开源框架,比如Spring,Hibe ...