昨日去了趟无锡，前天下了暴雨，所以昨天给我的感觉天气很好，天蓝云白的，以后在这边学习估计也是一件很爽的事情，且昨日通知书业寄到学校了，附赠了一份研究生数学建模的传单，我搜了搜近几年的题目，感觉统计模块的题目很多，学了一段时间的机器学习现在感觉看懂还是有点小难，但是有几道可以直接看出思路。昨天回来后并未继续笔记的整理，转去翻了翻周志华的书，重新看后感觉很棒，这段时间再重新看一遍，下了本统计学习方法也要这几日学一下。

one-VS-all与神经网络练习ex3

对于此练习，您将使用逻辑回归和神经网络来识别手写数字（从0到9）。自动手写数字识别在当今广泛使用 - 从邮政信箱中识别邮政编码（邮政编码）到识别银行支票上的金额。本练习将向您展示如何将这些方法用于此分类任务。

已经给出的数据存放在"ex3data1.mat"中，包含了5000个手写笔迹的训练集，.mat文件可以直接读取：

% Load saved matrices from file

load('ex3data1.mat');

% The matrices X and y will now be in your Octave environment

这5000个训练集中，每个案例都是20*20像素的灰度图像，每个像素由表示该位置的灰度强度的浮点数表示。 20×20像素的网格被展开为400维向量，这些训练样本中的每一个在我们的数据矩阵X中成为一行。这给我们一个5000×400矩阵X，其中每行都是训练样手写数字图像识别的训练集。

![vector of the data set](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgihl6y7nhj205c02sq2r.jpg)

训练集的第二部分是包含训练集标签的5000维矢量y。为了使事情更加兼容Octave / MATLAB索引，其中没有零索引，我们已经将数字零映射到值十。因此，\ 0“数字被标记为\ 10”，而数字\ 1“至\ 9”按照自然顺序标记为\ 1“至\ 9”。

visualize the figure

“displaydata”函数用来显示随机从5000个训练集中挑选的任意100行数据（利用内嵌的randperm函数生成随机数，后挑选前100个），代码如下（直接提供为要求编写）：

function [h, display_array] = displayData(X, example_width)

%DISPLAYDATA Display 2D data in a nice grid

%   [h, display_array] = DISPLAYDATA(X, example_width) displays 2D data

%   stored in X in a nice grid. It returns the figure handle h and the

%   displayed array if requested.

% 如果参数example_width没有传入，自动生成

if ~exist('example_width', 'var') || isempty(example_width)

	example_width = round(sqrt(size(X, 2)));

end

% 灰度处理

colormap(gray);

% 计算行、列

[m n] = size(X);

example_height = (n / example_width);

% 计算要显示的项目数

display_rows = floor(sqrt(m));%舍去小数部分

display_cols = ceil(m / display_rows);%补全小数部分

% 图像之间的填充

pad = 1;

% 以黑框显示填充边界

display_array = - ones(pad + display_rows * (example_height + pad), ...

                       pad + display_cols * (example_width + pad));

% 将每个图形复制到显示阵列上的一个临时patch中

curr_ex = 1;

for j = 1:display_rows

	for i = 1:display_cols

		if curr_ex > m,

			break;

		end

		% Copy the patch

		% Get the max value of the patch

		max_val = max(abs(X(curr_ex, :)));

		display_array(pad + (j - 1) * (example_height + pad) + (1:example_height), ...

		              pad + (i - 1) * (example_width + pad) + (1:example_width)) = ...

						reshape(X(curr_ex, :), example_height, example_width) / max_val;

		curr_ex = curr_ex + 1;

	end

	if curr_ex > m,

		break;

	end

end

% 显示图片

% imagesc(1,[0,1]);  colormap(gray);  imagesc 函数中的第二个参数确定灰度范围。灰度范围中的

% 第一个值（通常是0），对应于颜色映象表中的第一个值（颜色），第二个值（通常是1）则对应与颜色映

% 象表中的最后一个值（颜色）。灰度范围中间的值则线型对应与颜色映象表中剩余的值(颜色)

h = imagesc(display_array, [-1 1]);

% 坐标轴隐去

axis image off

drawnow;

end

图像如下:

![2.jpg](http://wx2.sinaimg.cn/mw690/7b8d2108gy1fgihl7a3f3j208307u0tr.jpg)

### 矢量化逻辑回归

这里使用多个一对多的逻辑回归模型来构建一个多类分类器。由于有10个类，故需要训练10个独立的逻辑回归分类器。为了使培训效率高，重要的是确保代码良好的矢量化。

我们将从编写成本函数的向量化版本开始。回顾前几节，在（非规则化）逻辑回归中成本函数是：

![3.jpg](http://wx2.sinaimg.cn/mw690/7b8d2108gy1fgihl7hukrj20bu01fa9z.jpg)

我们首先计算$h_\theta(x^{(i)})$对于每一个训练集i，这里$h_\theta(x^{(i)})=g(\theta^Tx^{(i)})$同时$g(z)=\frac{1}{1+e^{-z}}$为S形函数。事实证明，我们可以通过使用矩阵乘法快速计算所有我们的examples。定义X与θ 为：

![4.jpg](http://wx4.sinaimg.cn/mw690/7b8d2108gy1fgihl85b6aj2095035746.jpg)

通过计算矩阵Xθ ，有：

![5.jpg](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgihl8c0c6j209i02s3ye.jpg)

在最后的等式中，我们利用如果a和b是向量，那么$a^Tb=b^Ta$的事实。这允许我们在一行代码中计算我们所有示例i的乘积$\theta^Tx^{(i)}$。

函数lrCostFunction.m如下（不使用任何的loop即循环完成）：

% Initialize some useful values

m = length(y); % number of training examples

% You need to return the following variables correctly

J = 0;

J = ( -y'*log(sigmoid(X*theta))-(ones(m,1)-y)'*log(ones(m,1)-sigmoid(X*theta)) )/m;

回忆一下，对于未正则的逻辑回归代价-cost梯度为：

![6.jpg](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgihl8mhx5j206x01pt8l.jpg)

为了对数据集进行向量化操作，我们先为所有$\theta_j$明确写出所有偏导数，

这里的：

注意这里的$x^{(i)}$是向量，而$(h_\theta(x^{(i)})-y^{(i)})$是标量（单数）。为了理解推导的最后一步，令$\beta_i=(h_\theta(x^{(i)}-y^{(i)})$并观察：

![9.jpg](http://wx4.sinaimg.cn/mw690/7b8d2108gy1fgihn64eelj20an02vq2t.jpg)

完成函数lrCostFunction.m

% Initialize some useful values

m = length(y); % number of training examples

% You need to return the following variables correctly

J = 0;

grad = zeros(size(theta));

grad = X'*(sigmoid(X*theta)-y)/m + lambda/m*theta;

正则规则下的向量化逻辑递归

注意，不应将偏差项$\theta_0$正则化。相应地，正则化逻辑回归的偏导数$\theta_j$的成本定义为:

加入正则化后的lrCostFunction.m，完善后为：

% Initialize some useful values

m = length(y); % number of training examples

% You need to return the following variables correctly

J = 0;

grad = zeros(size(theta));

J = ( -y'*log(sigmoid(X*theta))-(ones(m,1)-y)'*log(ones(m,1)-sigmoid(X*theta)) )/m;

tempJ = sum(theta.^2) - theta(1)^2;

tempJ = tempJ*lambda/(2*m);

J = J+tempJ;

grad = X'*(sigmoid(X*theta)-y)/m + lambda/m*theta;

grad(1) = grad(1) - lambda/m*theta(1);

grad = grad(:);

one-vs-all 分类器

当你对第k类训练分类器时（k$\in${1，2，....K}）,你将需要关于一个标记（label）y标明维度向量，其中$y_j\in \{0,1\}$，表示第j个训练实例是否属于第k类（此时标1），或不属于此类（此时标2）.

此外，使用自带的fmincg函数进行训练（而不是fminunc）。 fmincg与fminunc类似，但对于处理大量参数而言更为有效。

oneVsAll.m文件如下：

% Some useful variables

m = size(X, 1);

n = size(X, 2);

% You need to return the following variables correctly

all_theta = zeros(num_labels, n + 1);

% Add ones to the X data matrix

X = [ones(m, 1) X];

initial_theta = zeros(n + 1, 1);

options = optimset('GradObj', 'on', 'MaxIter', 50);

for c = 1:num_labels

    [theta] = fmincg (@(t)(lrCostFunction(t, X, (y == c), lambda)),initial_theta, options);

    all_theta(c,:) = theta(:)';

end

在已经训练过一对多分类器后，可以使用它来预测对于给定图像中所包含的数字，对于每一个输入，可以使用经过训练的逻辑回归分类器来计算它属于每个类的“概率”，predictOneVsAll.m函数用于将所选择的逻辑回归分类器输出最高概率的类，并返回类标签（1，2...或K）作为输入实例的预测。

具体如下：

m = size(X, 1);

num_labels = size(all_theta, 1);

% You need to return the following variables correctly

p = zeros(size(X, 1), 1);

% Add ones to the X data matrix

X = [ones(m, 1) X];

A = X*all_theta';

[~,p] = max(A,[],2);

神经网络NN练习

之前几节的练习中，已经能够实现多类逻辑回归以从图片中识别手写数字，然而逻辑回归不能形成更复杂的假设，因为它只是一个线性分类器，而这部分的练习中将试图通过学习神经网络以识别与之前相同的训练集的手写数字，NN可以形成非线性假设的复杂模型，ex3中对NN的练习主要为前向反馈传播算法，使用权重进行预测，接下来的ex4练习会涉及到神经网络的反向传播算法的计算。

我们的神经网络下图所示。它有3层{输入层，隐层和输出层。回想一下，我们的输入层是数字图像的像素值，由于图像的尺寸为20×20，所以给出了400个输入层单位（不包括总是输出1即额外的偏置单位）。如前所述，训练数据将被加载到变量X和y中。您已经获得了我们已经训练的一组网络参数（$\Theta^{(1)},\Theta^{(2)}$）。这些存储在ex3weights.mat中，并将由脚本ex3 nn.m加载到Theta1和Theta2中。参数的尺寸为第二层25个单位的神经网络的大小和10个输出单元（对应于10位数字类）。

![12.jpg](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgihn76b40j20b50aht9s.jpg)

完成predict.m函数编写：

% Useful values

m = size(X, 1);

num_labels = size(Theta2, 1);

% You need to return the following variables correctly

p = zeros(size(X, 1), 1);

X = [ones(m,1) X];

a2 = sigmoid(X*Theta1');

a2 = [ones(size(a2,1),1) a2];

a3 = sigmoid(a2*Theta2');

[~,p] = max(a3,[],2);

由已知的参数Theta1和Theta2我们可以的到计算的精确度为：97.5%.

ex3多类问题和NN中的前向传播的更多相关文章

卷积神经网络 cnnff.m程序中的前向传播算法数据分步解析
最近在学习卷积神经网络,哎,真的是一头雾水!最后决定从阅读CNN程序下手! 程序来源于GitHub的DeepLearnToolbox 由于确实缺乏理论基础,所以,先从程序的数据流入手,虽然对高手来讲, ...
caffe中的前向传播和反向传播
caffe中的网络结构是一层连着一层的,在相邻的两层中,可以认为前一层的输出就是后一层的输入,可以等效成如下的模型可以认为输出top中的每个元素都是输出bottom中所有元素的函数.如果两个神经元之 ...
22．编写一个类A，该类创建的对象可以调用方法showA输出小写的英文字母表。然后再编写一个A类的子类B，子类B创建的对象不仅可以调用方法showA输出小写的英文字母表，而且可以调用子类新增的方法showB输出大写的英文字母表。最后编写主类C，在主类的main方法中测试类A与类B。
22．编写一个类A,该类创建的对象可以调用方法showA输出小写的英文字母表.然后再编写一个A类的子类B,子类B创建的对象不仅可以调用方法showA输出小写的英文字母表,而且可以调用子类新增的方法sh ...
实体类在Windows程序中的高级应用--------------------》》心境是一种境界。
一.事务我们在大家学到这,或多或少对事务都有一些理解了.今天的我也对事务有了更深一层的理解对我来说,我想与大家一起分享一下. 解析: 1.ADO.NET提供了事务处理功能 2.C#中开启事务 3.在 ...
Effective Objective-C 2.0 — 第二条：类的头文件中尽量少引入其他头文件
第二条:类的头文件中尽量少引入其他头文件使用向前声明(forward declaring) @class EOCEmployer 1, 将引入头文件的实际尽量延后,只在确有需要时才引入,这样就可以减 ...
不使用CvvImage类来在MFC中显示图像
/* * ===================================================================================== * * Filen ...
在含有null值的复杂类的集合(Collection)中取最大值
在日常编程中,经常遇到要在一组复杂类的集合(Collection)中做比较.取最大值或最小值. 举个最简单的例子,我们要在一个如下结构的集合中选取包含最大值的元素: public class Clas ...
C++ vector 实现二维数组时, 在类的头文件中定义时遇到"应输入类型符"的问题?
见下,当我在类的声明文件中定义二维vector时,提示我应输入类型说明符; 但是相同的格式定义,在类中将二维vector修改为在源文件中定义就可以顺利通过,并顺利执行打印打印结果如下: 望大神来解惑 ...
java中常用的包、类、以及包中常用的类、方法、属性----sql和text\swing
java中常用的包.类.以及包中常用的类.方法.属性常用的包 java.io.*; java.util.*; java.lang.*; java.sql.*; java.text.*; java.a ...

随机推荐

hdu2767强连通加缩点
https://vjudge.net/contest/156688#problem/B 题目说了一大堆,前面的没有用,就是让你判断要加几条边才能强连通,用到缩点的知识二重循环,判断邻接表下一个点是不 ...
VMware安装CentOS 6.7系统
VMware安装CentOS 6.7系统 1. 安装前的准备 a) VMware虚拟机软件 b) CentOS 6.7镜像 c) Windows电脑一台 2. 开始安装 a) 打开VMware软件 b ...
highlight.js 代码高亮插件的使用
在网页使用过程中,经常会用到代码的展示.而不同颜色的代码,可以让代码看起来更直观,也更美观. 找了几个不同的插件,觉得highlight的插件比较实用,而且用起来炒鸡简单. 比如这样: 首先,我们先下 ...
java之对数组排序
一.在运行时输入数组 import java.util.*; //也可以写成 import java.util.Scanner; public class px { public static vo ...
IDEA 安装scala插件
安装scala插件一般有两种方式,在IDEA里面下载或者手动安装手动安装首先是下载需要的插件包,官网下载实在太慢,这里提供我下载好的文件,会按时更新成最新版 https://pan.baidu.c ...
haproxy安装配置for mysql负载均衡（ubantu）
1.安装pcre apt-get update (apt-get install openssl libssl-dev ==>可能需要安装的依赖包) apt-get install libpc ...
学习笔记：javascript 表单对象（form）
Form 对象属性属性描述 acceptCharset 服务器可接受的字符集. action 设置或返回表单的 action 属性. enctype 设置或返回表单用来编码内容的 MIME 类型. ...
Java学习笔记——排序算法之快速排序
会当凌绝顶,一览众山小. --望岳如果说有哪个排序算法不能不会,那就是快速排序(Quick Sort)了快速排序简单而高效,是最适合学习的进阶排序算法. 直接上代码: public class Q ...
HAProxy的三种不同类型配置方案
haproxy是一款功能强大.灵活好用反向代理软件,提供了高可用.负载均衡.后端服务器代理的功能,它在7层负载均衡方面的功能很强大(支持 cookie track, header rewrite等等) ...
@JsonFormat 日期格式自动格式化
通常日期格式都是以时间戳的形式存放在数据库里,当前端页面通过接口查询时,我们会将一个对象的某些属性查出来返回给页面. 例如,某个类里面有个属性 Timestamp create_time 给这个对象实 ...