​ 昨日去了趟无锡,前天下了暴雨,所以昨天给我的感觉天气很好,天蓝云白的,以后在这边学习估计也是一件很爽的事情,且昨日通知书业寄到学校了,附赠了一份研究生数学建模的传单,我搜了搜近几年的题目,感觉统计模块的题目很多,学了一段时间的机器学习现在感觉看懂还是有点小难,但是有几道可以直接看出思路。昨天回来后并未继续笔记的整理,转去翻了翻周志华的书,重新看后感觉很棒,这段时间再重新看一遍,下了本统计学习方法也要这几日学一下。

one-VS-all与神经网络练习ex3

​ 对于此练习,您将使用逻辑回归和神经网络来识别手写数字(从0到9)。 自动手写数字识别在当今广泛使用 - 从邮政信箱中识别邮政编码(邮政编码)到识别银行支票上的金额。 本练习将向您展示如何将这些方法用于此分类任务。

​ 已经给出的数据存放在"ex3data1.mat"中,包含了5000个手写笔迹的训练集,.mat文件可以直接读取:

% Load saved matrices from file
load('ex3data1.mat');
% The matrices X and y will now be in your Octave environment

​ 这5000个训练集中,每个案例都是20*20像素的灰度图像,每个像素由表示该位置的灰度强度的浮点数表示。 20×20像素的网格被展开为400维向量,这些训练样本中的每一个在我们的数据矩阵X中成为一行。这给我们一个5000×400矩阵X,其中每行都是训练样手写数字图像识别的训练集。

![vector of the data set](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgihl6y7nhj205c02sq2r.jpg)

​ 训练集的第二部分是包含训练集标签的5000维矢量y。 为了使事情更加兼容Octave / MATLAB索引,其中没有零索引,我们已经将数字零映射到值十。 因此,\ 0“数字被标记为\ 10”,而数字\ 1“至\ 9”按照自然顺序标记为\ 1“至\ 9”。

visualize the figure

​ “displaydata”函数用来显示随机从5000个训练集中挑选的任意100行数据(利用内嵌的randperm函数生成随机数,后挑选前100个),代码如下(直接提供为要求编写):

function [h, display_array] = displayData(X, example_width)
%DISPLAYDATA Display 2D data in a nice grid
% [h, display_array] = DISPLAYDATA(X, example_width) displays 2D data
% stored in X in a nice grid. It returns the figure handle h and the
% displayed array if requested. % 如果参数example_width没有传入,自动生成
if ~exist('example_width', 'var') || isempty(example_width)
example_width = round(sqrt(size(X, 2)));
end % 灰度处理
colormap(gray); % 计算行、列
[m n] = size(X);
example_height = (n / example_width); % 计算要显示的项目数
display_rows = floor(sqrt(m));%舍去小数部分
display_cols = ceil(m / display_rows);%补全小数部分 % 图像之间的填充
pad = 1; % 以黑框显示填充边界
display_array = - ones(pad + display_rows * (example_height + pad), ...
pad + display_cols * (example_width + pad)); % 将每个图形复制到显示阵列上的一个临时patch中
curr_ex = 1;
for j = 1:display_rows
for i = 1:display_cols
if curr_ex > m,
break;
end
% Copy the patch % Get the max value of the patch
max_val = max(abs(X(curr_ex, :)));
display_array(pad + (j - 1) * (example_height + pad) + (1:example_height), ...
pad + (i - 1) * (example_width + pad) + (1:example_width)) = ...
reshape(X(curr_ex, :), example_height, example_width) / max_val;
curr_ex = curr_ex + 1;
end
if curr_ex > m,
break;
end
end % 显示图片
% imagesc(1,[0,1]); colormap(gray); imagesc 函数中的第二个参数确定灰度范围。灰度范围中的
% 第一个值(通常是0),对应于颜色映象表中的第一个值(颜色),第二个值(通常是1)则对应与颜色映
% 象表中的最后一个值(颜色)。灰度范围中间的值则线型对应与颜色映象表中剩余的值(颜色)
h = imagesc(display_array, [-1 1]); % 坐标轴隐去
axis image off drawnow;
end

​ 图像如下:

![2.jpg](http://wx2.sinaimg.cn/mw690/7b8d2108gy1fgihl7a3f3j208307u0tr.jpg)

### 矢量化逻辑回归

​ 这里使用多个一对多的逻辑回归模型来构建一个多类分类器。 由于有10个类,故需要训练10个独立的逻辑回归分类器。 为了使培训效率高,重要的是确保代码良好的矢量化。

​ 我们将从编写成本函数的向量化版本开始。 回顾前几节,在(非规则化)逻辑回归中成本函数是:

![3.jpg](http://wx2.sinaimg.cn/mw690/7b8d2108gy1fgihl7hukrj20bu01fa9z.jpg)

​ 我们首先计算$h_\theta(x^{(i)})$对于每一个训练集i,这里$h_\theta(x^{(i)})=g(\theta^Tx^{(i)})$同时$g(z)=\frac{1}{1+e^{-z}}$为S形函数。事实证明,我们可以通过使用矩阵乘法快速计算所有我们的examples。定义X与θ 为:

![4.jpg](http://wx4.sinaimg.cn/mw690/7b8d2108gy1fgihl85b6aj2095035746.jpg)

​ 通过计算矩阵Xθ ,有:

![5.jpg](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgihl8c0c6j209i02s3ye.jpg)

​ 在最后的等式中,我们利用如果a和b是向量,那么$a^Tb=b^Ta$的事实。这允许我们在一行代码中计算我们所有示例i的乘积$\theta^Tx^{(i)}$。

​ 函数lrCostFunction.m如下(不使用任何的loop即循环完成):

% Initialize some useful values
m = length(y); % number of training examples % You need to return the following variables correctly
J = 0;
J = ( -y'*log(sigmoid(X*theta))-(ones(m,1)-y)'*log(ones(m,1)-sigmoid(X*theta)) )/m;

​ 回忆一下,对于未正则的逻辑回归代价-cost梯度为:

![6.jpg](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgihl8mhx5j206x01pt8l.jpg)

​ 为了对数据集进行向量化操作,我们先为所有$\theta_j$明确写出所有偏导数,

这里的:

​ 注意这里的\(x^{(i)}\)是向量,而\((h_\theta(x^{(i)})-y^{(i)})\)是标量(单数)。为了理解推导的最后一步,令\(\beta_i=(h_\theta(x^{(i)}-y^{(i)})\)并观察:

![9.jpg](http://wx4.sinaimg.cn/mw690/7b8d2108gy1fgihn64eelj20an02vq2t.jpg)

​ 完成函数lrCostFunction.m

% Initialize some useful values
m = length(y); % number of training examples % You need to return the following variables correctly
J = 0;
grad = zeros(size(theta)); grad = X'*(sigmoid(X*theta)-y)/m + lambda/m*theta;

正则规则下的向量化逻辑递归

​ 注意,不应将偏差项\(\theta_0\)正则化。相应地,正则化逻辑回归的偏导数\(\theta_j\)的成本定义为:

​ 加入正则化后的lrCostFunction.m,完善后为:

% Initialize some useful values
m = length(y); % number of training examples % You need to return the following variables correctly
J = 0;
grad = zeros(size(theta)); J = ( -y'*log(sigmoid(X*theta))-(ones(m,1)-y)'*log(ones(m,1)-sigmoid(X*theta)) )/m;
tempJ = sum(theta.^2) - theta(1)^2;
tempJ = tempJ*lambda/(2*m);
J = J+tempJ; grad = X'*(sigmoid(X*theta)-y)/m + lambda/m*theta;
grad(1) = grad(1) - lambda/m*theta(1); grad = grad(:);

one-vs-all 分类器

​ 当你对第k类训练分类器时(k\(\in\){1,2,....K}),你将需要关于一个标记(label)y标明维度向量,其中\(y_j\in \{0,1\}\),表示第j个训练实例是否属于第k类(此时标1),或不属于此类(此时标2).

​ 此外,使用自带的fmincg函数进行训练(而不是fminunc)。 fmincg与fminunc类似,但对于处理大量参数而言更为有效。

​ oneVsAll.m文件如下:

% Some useful variables
m = size(X, 1);
n = size(X, 2); % You need to return the following variables correctly
all_theta = zeros(num_labels, n + 1); % Add ones to the X data matrix
X = [ones(m, 1) X]; initial_theta = zeros(n + 1, 1);
options = optimset('GradObj', 'on', 'MaxIter', 50);
for c = 1:num_labels
[theta] = fmincg (@(t)(lrCostFunction(t, X, (y == c), lambda)),initial_theta, options);
all_theta(c,:) = theta(:)';
end

​ 在已经训练过一对多分类器后,可以使用它来预测对于给定图像中所包含的数字,对于每一个输入,可以使用经过训练的逻辑回归分类器来计算它属于每个类的“概率”,predictOneVsAll.m函数用于将所选择的逻辑回归分类器输出最高概率的类,并返回类标签(1,2...或K)作为输入实例的预测。

具体如下:

m = size(X, 1);
num_labels = size(all_theta, 1); % You need to return the following variables correctly
p = zeros(size(X, 1), 1); % Add ones to the X data matrix
X = [ones(m, 1) X]; A = X*all_theta';
[~,p] = max(A,[],2);

神经网络NN练习

​ 之前几节的练习中,已经能够实现多类逻辑回归以从图片中识别手写数字,然而逻辑回归不能形成更复杂的假设,因为它只是一个线性分类器,而这部分的练习中将试图通过学习神经网络以识别与之前相同的训练集的手写数字,NN可以形成非线性假设的复杂模型,ex3中对NN的练习主要为前向反馈传播算法,使用权重进行预测,接下来的ex4练习会涉及到神经网络的反向传播算法的计算。

​ 我们的神经网络下图所示。它有3层{输入层,隐层和输出层。 回想一下,我们的输入层是数字图像的像素值,由于图像的尺寸为20×20,所以给出了400个输入层单位(不包括总是输出1即额外的偏置单位)。 如前所述,训练数据将被加载到变量X和y中。您已经获得了我们已经训练的一组网络参数(\(\Theta^{(1)},\Theta^{(2)}\))。 这些存储在ex3weights.mat中,并将由脚本ex3 nn.m加载到Theta1和Theta2中。参数的尺寸为第二层25个单位的神经网络的大小和10个输出单元(对应于10位数字类)。

![12.jpg](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgihn76b40j20b50aht9s.jpg)

​ 完成predict.m函数编写:

% Useful values
m = size(X, 1);
num_labels = size(Theta2, 1); % You need to return the following variables correctly
p = zeros(size(X, 1), 1); X = [ones(m,1) X]; a2 = sigmoid(X*Theta1');
a2 = [ones(size(a2,1),1) a2];
a3 = sigmoid(a2*Theta2'); [~,p] = max(a3,[],2);

​ 由已知的参数Theta1和Theta2我们可以的到计算的精确度为:97.5%.

ex3多类问题和NN中的前向传播的更多相关文章

  1. 卷积神经网络 cnnff.m程序 中的前向传播算法 数据 分步解析

    最近在学习卷积神经网络,哎,真的是一头雾水!最后决定从阅读CNN程序下手! 程序来源于GitHub的DeepLearnToolbox 由于确实缺乏理论基础,所以,先从程序的数据流入手,虽然对高手来讲, ...

  2. caffe中的前向传播和反向传播

    caffe中的网络结构是一层连着一层的,在相邻的两层中,可以认为前一层的输出就是后一层的输入,可以等效成如下的模型 可以认为输出top中的每个元素都是输出bottom中所有元素的函数.如果两个神经元之 ...

  3. 22.编写一个类A,该类创建的对象可以调用方法showA输出小写的英文字母表。然后再编写一个A类的子类B,子类B创建的对象不仅可以调用方法showA输出小写的英文字母表,而且可以调用子类新增的方法showB输出大写的英文字母表。最后编写主类C,在主类的main方法 中测试类A与类B。

    22.编写一个类A,该类创建的对象可以调用方法showA输出小写的英文字母表.然后再编写一个A类的子类B,子类B创建的对象不仅可以调用方法showA输出小写的英文字母表,而且可以调用子类新增的方法sh ...

  4. 实体类在Windows程序中的高级应用--------------------》》心境是一种境界。

    一.事务 我们在大家学到这,或多或少对事务都有一些理解了.今天的我也对事务有了更深一层的理解对我来说,我想与大家一起分享一下. 解析: 1.ADO.NET提供了事务处理功能 2.C#中开启事务 3.在 ...

  5. Effective Objective-C 2.0 — 第二条:类的头文件中尽量少引入其他头文件

    第二条:类的头文件中尽量少引入其他头文件 使用向前声明(forward declaring) @class EOCEmployer 1, 将引入头文件的实际尽量延后,只在确有需要时才引入,这样就可以减 ...

  6. 不使用CvvImage类来在MFC中显示图像

    /* * ===================================================================================== * * Filen ...

  7. 在含有null值的复杂类的集合(Collection)中取最大值

    在日常编程中,经常遇到要在一组复杂类的集合(Collection)中做比较.取最大值或最小值. 举个最简单的例子,我们要在一个如下结构的集合中选取包含最大值的元素: public class Clas ...

  8. C++ vector 实现二维数组时, 在类的头文件中定义时遇到"应输入类型符"的问题?

    见下,当我在类的声明文件中定义二维vector时,提示我应输入类型说明符; 但是相同的格式定义,在类中将二维vector修改为在源文件中定义就可以顺利通过,并顺利执行打印 打印结果如下: 望大神来解惑 ...

  9. java中常用的包、类、以及包中常用的类、方法、属性----sql和text\swing

    java中常用的包.类.以及包中常用的类.方法.属性 常用的包 java.io.*; java.util.*; java.lang.*; java.sql.*; java.text.*; java.a ...

随机推荐

  1. SQL Server 数据库连接方法

    我们用c#写ado或者是asp,都需要连接数据库来读写数据,今天我们就来总结一下数据库连接都有哪些方法. 首先我们就写最直接的方法,在事件中直接连接.(在这里就用WEB页面来展示) 首先我们建立web ...

  2. Nginx 反向代理&负载均衡

    1.反向代理 当我们请求一个网站时,nginx会决定由哪台服务器提供服务,就是反向代理. nginx只做请求的转发,后台有多个tomcat服务器提供服务,nginx的功能就是把请求转发给后面的服务器, ...

  3. Java学习笔记——设计模式之四.代理模式

    To be, or not to be: that is the question. --<哈姆雷特> 代理模式(Proxy),为其他对象提供一种代理以控制对这个对象的访问. 上代码: p ...

  4. Linux五种IO模型性能分析

    1. 概念理解 在进行网络编程时,我们常常见到同步(Sync)/异步(Async),阻塞(Block)/非阻塞(Unblock)四种调用方式: 同步:       所谓同步,就是在发出一个功能调用时, ...

  5. 使用cmd来起一个服务器

    第一步:安装Node.js 下载地址:https://nodejs.org/en/ 第二步:打开cmd,输入node -v 确认是否安装成功,成功后显示版本号如下: 第三步:输入命令:ndoe ins ...

  6. [Angularjs]$http.post与$.post

    摘要 在angularjs发送post请求的时候,确实很困惑,在传递json数据的时候,总会遇到在服务端无法接受到参数的情况,这里有必要与$.post进行比较学习一下. 一个例子 这里模拟登录的一个场 ...

  7. 用C语言模仿Python函数

    首先得说明一点,C 语言不是函数式编程语言,要想进行完全的函数式编程,还得先写个虚拟机,然后再写个解释器才行(相当于 CPython ). 下面我们提供一个例子,说明 C 语言函数可以"适度 ...

  8. CodeBlocks

  9. struts2.1.6教程四_2、ActionContext 、ValueStack 、Stack Context

    ActionContext 一次Action调用都会创建一个ActionContext 调用:ActionContext context = ActionContext.getContext() Va ...

  10. MyBatis-3.2.2

    note SqlSessionFactory 它是一个线程安全的 SqlSession 线程非安全,不能做类的公用变量 当数据库字段和实体对象名称不一至时,通过sql的字段命名别名,别名跟实体对象属性 ...