学习笔记69_Logistic回归

Logistic回归（逻辑回归）进行分类的主要思想：根据现有数据对分类边界线建立回归公式，以此进行分类。

知乎上的简述：

该算法可根据已知的一系列因变量估计离散数值（比方说二进制数值 0 或 1 ，是或否，真或假）。简单来说，它通过将数据拟合进一个逻辑函数来预估一个事件出现的概率。因此，它也被叫做逻辑回归。因为它预估的是概率，所以它的输出值大小在 0 和 1 之间（正如所预计的一样）。

让我们再次通过一个简单的例子来理解这个算法。

假设你的朋友让你解开一个谜题。这只会有两个结果：你解开了或是你没有解开。想象你要解答很多道题来找出你所擅长的主题。这个研究的结果就会像是这样：假设题目是一道十年级的三角函数题，你有 70%的可能会解开这道题。然而，若题目是个五年级的历史题，你只有30%的可能性回答正确。这就是逻辑回归能提供给你的信息。

从数学上看，在结果中，几率的对数使用的是预测变量的线性组合模型。

最终得到的结果：X轴作为特征值输入，Y轴获得数据属于某个类型的概率。

Sigmoid函数： y = 1 / (1 + e ^-x) ，记为： f(z) = 1 / (1 + e ^-z)

我们可以在每个特征上乘以一个回归系数，然后把所有的结果值相加，将这个总和代入 Sigmoid 函数中，进而得到一个范围在 0~ 1 之间的数值。最后，结果大于 0. 5 的数据被归入 1 类，小于 0. 5 的即被归入 0 类。所以， Logistic 回归也可以被看成是一种概率估计。

问题的第一次转化：

Z = h(x) = w₀ + w₁x₁ + w₂x₂+_......w_nx_{n ，这个函数，又叫假设函数。}(如上图，class1或class2相当于不同的 f(z)值，0或1；而X,Y相当于特征值，X0 或 X1)

上述公式中的W为参数，也称为权重，可以理解为x1和x2对Z的影响度。对这个公式稍作变化就是：

Z = h(x) = W^TX

假如，求得的 W 是最佳，那么，这些W值，应该符合以下特性：

dZ= j(W) = 1/2 *[ (Z0 - h₀)²+ (Z1 - h₁)²+ ....(Zn - h_n)²] = 1/ 2 * ∑ⁿ_i=1(Zi - h_i) ， Zn是指第n个样本，已知类型的真值，h_n 用假设函数求出第n个样本的类型的近似值。

这里的这个损失函数就是著名的最小二乘损失函数

(化简后，就可以得到测量平差中的 V = Bw - l ，矩阵形式的函数方程组了)

问题的第二次转化：http://www.cnblogs.com/NeilZhang/p/8454890.html

为求得最优的W值，使损失函数 f(W)取最小值。

解决思路一：一般来说，只要判断j^''(W)< 0，那么 j^'(W) = 0 时，j(W)具有最小值，获得的W矩阵解，就为最佳的W参数组了。（需要一次将所有数据堆到矩阵中，受限于计算机内存）

解决思路二：使用梯度上升/ 下降方法，来寻找最佳参数。

（在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。）

摘自网络：https://www.cnblogs.com/pinard/p/5970503.html

梯度下降法和最小二乘法相比，梯度下降法需要选择步长，而最小二乘法不需要。梯度下降法是迭代求解，最小二乘法是计算解析解。如果样本量不算很大，且存在解析解，最小二乘法比起梯度下降法要有优势，计算速度很快。但是如果样本量很大，用最小二乘法由于需要求一个超级大的逆矩阵，这时就很难或者很慢才能求解解析解了，使用迭代的梯度下降法比较有优势。

摘自网络：https://www.cnblogs.com/pinard/p/5970503.html(要点)

　　　　在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)^T,简称grad f(x,y)或者▽f(x,y)。对于在点(x₀,y₀)的具体梯度向量就是(∂f/∂x₀, ∂f/∂y₀)^T.或者▽f(x₀,y₀)，如果是3个参数的向量梯度，就是(∂f/∂x, ∂f/∂y，∂f/∂z)^T,以此类推。

　　　　那么这个梯度向量求出来有什么意义呢？他的意义从几何意义上讲，就是函数变化增加最快的地方。具体来说，对于函数f(x,y),在点(x₀,y₀)，沿着梯度向量的方向就是(∂f/∂x₀, ∂f/∂y₀)^T的方向是f(x,y)增加最快的地方。或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，也就是 -(∂f/∂x₀, ∂f/∂y₀)^T的方向，梯度减少最快，也就是更加容易找到函数的最小值。

　　首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

梯度下降算法大概的思路是：我们首先随便给W一个初始化的值，然后改变W值让j(W)的取值变小，不断重复改变W使j(W)变小的过程直至j(W)约等于最小值。

首先我们给W一个初始值，然后向着让j(W)变化最大的方向更新W的取值，如此迭代。公式如下：

W = W - a * ∂j(W) / ∂W (对f(W)进行求W偏导，复合函数求导)

化简，第j次迭代：

W = W - a * (Zi-h(Xi)) * Xi

展开式：

[w0,w1,w2....]^{T =} [w0,w1,w2....]^T- a * (Zi - [w0,w1,w2....]^T * [x_i0,x_{i1,..........}]) *[x_i0,x_{i1,..........}]^T i为第i个样本， a为步长；

如果数据不止一个，那么：

[w0,w1,w2....]^{T =} [w0,w1,w2....]^T- a * ∑ⁿ _i=1 ( (Zi - [w0,w1,w2....]₎^T * [x_i0,x_{i1,..........}]) * [x_i0,x_{i1,..........}]^T )

注意: 为了让矩阵计算顺利，让X_m₀= 1

使用批量梯度上升算法求W，在样本不多的情况下

for j in R

　　 W = W + a *X^T (Z-H)

W_(1*n) = [w0,w1,w2....wn]^T

X_(m*n) = [ x₀₀, x_01.....x_0n

　　　　 x₁₀, x_11.....x_0n

　　　 x_m0, x_11.....x_mn]

Z(m*1) = [Z_0,Z_1,Z_2,...Z_m]^T

H(m*1) = W ^T X

使用随机梯度上升求W，在样本很多的情况下：

for i in 样本:

　　W = W + a *X^T (Z-H)

W_(1*n) = [w0,w1,w2....wn]^T

X_(1*n) = [ x_i0, x_i1.....x_in]

Z = Zi

H = W^TX

*不必一次将所有学习数据堆到一个矩阵中，不受内存限制。

摘自知乎：

因为刚刚看到《机器学习实战》的这一章节，一开始研究书中的梯度上升算法代码使确实懵逼了一下，不过自己推导了一番，作者确实采用的梯度上升算法，只不过是稍微绕了一点。下面我就写一下推导的过程，为简单起见，将一些符号进行简化，设样本的类别标签为 $y$ ，回归系数为 $w$ ，样本矩阵为 $x$ ，误差为 $e$ ，步长为 $\alpha$ 。那么我们的目标是
最小化误差 $e^{T}e$ (因为 $e$ 是列向量)
反过来就是最大化 $-e^{T}e$ ，为消去因子，此处最大化 $-\frac{1}{2}e^{T}e$ (关键是这里，将下降转化为上升)
而 $-\frac{1}{2}e^{T}e=-\frac{1}{2}(xw-y)^{T}(xw-y) =f(w)$
拆开来就是： $f(w)=-\frac{1}{2}(w^{T}x^{T}-y)(xw-y) =-\frac{1}{2}(w^{T}x^{T}xw-w^{T}x^{T}y-y^{T}xw+y^{T}y)$
到这就可以用梯度上升算法了，对 $w$ 求导可以得出
$\frac{ \partial f(w)} {\partial w} =x^{T}y-x^{T}xw=x^{T}(y-wx)=x^{T}e$ （矩阵求导可以参考周志华的《机器学习》，网上也有很多教程）
因此更新回归系数的公式就是： $w=w+\alpha x^{T}e$
这就是书中章节的梯度上升算法的一个推导过程。我感觉在从这里面可以看出梯度上升算法和梯度下降算法分别是用来求最大值和最小值，也许仅仅使一个负号的差别。

学习笔记69_Logistic回归的更多相关文章

TensorFlow 深度学习笔记逻辑回归实践篇
Practical Aspects of Learning 转载请注明作者:梦里风林 Github工程地址:https://github.com/ahangchen/GDLnotes 欢迎star,有 ...
莫烦PyTorch学习笔记(四)——回归
下面的代码说明个整个神经网络模拟回归的过程,代码含有详细注释,直接贴下来了 import torch from torch.autograd import Variable import torch. ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
UFLDL深度学习笔记（二）SoftMax 回归(矩阵化推导)
UFLDL深度学习笔记 (二)Softmax 回归本文为学习"UFLDL Softmax回归"的笔记与代码实现,文中略过了对代价函数求偏导的过程,本篇笔记主要补充求偏导步骤的详细 ...
ufldl学习笔记与编程作业：Logistic Regression（逻辑回归）
ufldl学习笔记与编程作业:Logistic Regression(逻辑回归) ufldl出了新教程,感觉比之前的好,从基础讲起.系统清晰,又有编程实践. 在deep learning高质量群里面听 ...
[DL学习笔记]从人工神经网络到卷积神经网络_1_神经网络和BP算法
前言:这只是我的一个学习笔记,里边肯定有不少错误,还希望有大神能帮帮找找,由于是从小白的视角来看问题的,所以对于初学者或多或少会有点帮助吧. 1:人工全连接神经网络和BP算法 <1>:人工 ...
Deep Learning（深度学习）学习笔记整理系列之（四）
Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...
Deep Learning（深度学习）学习笔记整理系列之（三）
Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...
ufldl学习笔记和编程作业：Softmax Regression（softmax回报）
ufldl学习笔记与编程作业:Softmax Regression(softmax回归) ufldl出了新教程.感觉比之前的好,从基础讲起.系统清晰,又有编程实践. 在deep learning高质量 ...

随机推荐

Future类型的连锁的运用
Future类型的连锁的运用: 洗脸刷牙吃早饭看电视出门串行: import scala.concurrent.{Await, Future} import scala.util.{Fail ...
ELK日志分析系统(3)-logstash数据处理
1. 概述 logspout收集数据以后,就会把数据发送给logstash进行处理,本文主要讲解logstash的input, filter, output处理 2. input 数据的输入处理支持 ...
c++ 对特定进程的内存监控
在工具实现的过程中,遇到了内存爆了的问题,部分模型的规模可以达到10的100次方方甚至1000次方.(工具的主要算法涉及到了递归,递归深度会很深,所以也用到了ulimit修改栈空间来缓解爆栈的问题,治 ...
C# WinForm 跨线程访问控件（实用简洁写法）
C# WinForm 跨线程访问控件(实用简洁写法) 1.<C# WinForm 跨线程访问控件(实用简洁写法)> 2.<基于.NET环境,C#语言实现 TCP NAT ...
BT面板安装php报错configure: error: C preprocessor “/lib/cpp” fails sanity check
使用宝塔面板安装扩展时已经显示添加安装成功了,待我刷新浏览器之后没有安装成功.看了一下执行日志. 缺少必要的C++库,如下命令重装解决. yum reinstall glibc-headers gcc ...
mvvm的初步思想
1.Object.defineProperty(obj,key,desc); 用法:1.给对象新增属性和特性 2.修改对象属性值和特性 desc(属性特性): 1.enumerable:boolean ...
02-21 决策树ID3算法
目录决策树ID3算法一.决策树ID3算法学习目标二.决策树引入三.决策树ID3算法详解 3.1 if-else和决策树 3.2 信息增益四.决策树ID3算法流程 4.1 输入 4.2 输出 ...
css父元素透明度（opacity）对子元素的影响
首先子元素会继承父元素的透明度: 设置父元素opacity:0.5,子元素不设置opacity,子元素会受到父元素opacity的影响,也会有0.5的透明度. 其次子元素的透明度是基于父元素的透明度计 ...
ZCU104搭建Ubuntu桌面系统-1安装Petalinux
参考教程: https://xilinx-wiki.atlassian.net/wiki/spaces/A/pages/18841948/Zynq+UltraScalePlus+MPSoC+-+Ubu ...
小白学 Python（4）：变量基础操作
人生苦短,我选Python 引言前文传送门小白学 Python(1):开篇小白学 Python(2):基础数据类型(上) 小白学 Python(3):基础数据类型(下) 前面的文章中,我们介绍了 ...

学习笔记69_Logistic回归

学习笔记69_Logistic回归的更多相关文章

随机推荐

热门专题