机器学习笔记—Logistic 回归

前面我们介绍了线性回归，为捕获训练集中隐藏的线性模型，提高预测准确率，我们寻找最佳参数 θ，使得预测值与真实值误差尽量小，也就是使均方误差最小。而经过验证，最小均方误差是符合最大似然估计理论的。

在 Logistic 回归中，我们依然要用到最大似然估计理论。

分类问题跟回归问题的区别是，预测值 y 取的是离散值。本文只讨论二分类问题，y 只能取 0 和 1 两个值。

如果不管 y 是离散值，硬要用线性回归算法来根据 x 来预测 y 值，也不是不行，但效果就很差。

理想情况下，我们希望有一个预测公式，把 y 等于 1 的 x 通过预测公式正好映射到 1，把 y 等于 0 的 x 通过预测公式正好映射到 0，这样就能把 x 空间一劈两半，一边是 1，一边是 0，当然，这是不现实的。

因此，我们只能希望当 y 等于 1 时，预测算法根据 x 值的计算结果应该尽量接近 1，当 y 等于 0 时，预测结果应尽量接近 0。尽量把属于 1 和 0 的 x 分开，少数 x 处于 1 和 0 的交界处。

这是不是让我们想起了这样一幅函数图像：

这就是 Sigmoid 函数图像。

公式是：

当 z 趋于无穷时，g(z) 趋近 1，当 z 趋于负无穷时，g(z) 趋于 0。这样 g(z) 的值就只是在 0 和 1 之间。

我们的分类模型就可以使用这个函数，让 z=θ^Tx，可得：

这样就将 x 映射到了 h_θ(x)，即 y，且大部分 x 对应的 y 值不是趋近于 1 就是趋近 0，模糊地带的很少。

记得在线性回归中 h_θ(x) 的定义是

而我们这里是对 θ^Tx 做了个映射，把 θ^Tx 映射到 0、1 区间里，因为要预测的 y 值就是 0 和 1，这样就很容易通过监督学习对参数 θ 进行优化，使 x 更容易地映射到相应的 y 值。

其实除了 Sigmoid 函数，其它从 0 到 1 平滑递增的函数也能用，但为什么我们要用 Sigmoid 函数呢？在后面一般线性模型会讲到，Sigmoid 是个很自然的选择。

Sigmoid 函数的导数有个有用的性质：

现在，有了 Logistic 回归模型，怎么找到合适的 θ 呢？在线性回归中，我们是通过最小化均方误差来寻找 θ，这里的分类就不能用均方误差，但我们知道线性回归中，在一定概率假设下，最小化军方误差其实可以从最大化似然估计中推导出来，这里我们也将在一定概率假设下，通过最大化似然估计来寻找参数。

假定：

这里把 h_θ(x) 作为给定 x 和 θ 时，y=1 的概率。

这两个公式还可以更紧凑：

其中：

假设函数把 h_θ(x) 就是 x 属于 y=1 的概率，即 y=1 的条件概率为 h_θ(x)，y=0 的条件概率为 1-h_θ(x)。当我们要判别一个新来的 x 属于哪个类时，只需求 h_θ(x)，若大于 0.5 就是 y=1 的类，反之属于 y=0 类。

再审视下 h_θ(x)，发现 h_θ(x) 只和 θ^Tx 有关，θ^Tx>0，x 就是 y=1 的类。g(z) 只不过是用来映射，真实的类别决定权还在 θ^Tx。当 θ^Tx 趋于正无穷时，h_θ(x)=1，反之 h_θ(x)=0。如果我们只从 θ^Tx 出发，希望模型达到的目标无非就是让训练集中 y=1 的特征 θ^Tx 远大于 0，而 y=0 的特征 θ^Tx 远小于 0。Logistic 回归就是要学习得到 θ，使得正例的特征远大于 0，负例的特征远小于 0，强调在全部训练实例上达到这个目标。

假定 m 个训练实例是独立生成的，我们能写下参数的似然函数为：

跟之前一样，最大化 log 似然会更容易：

怎么最大化该似然函数呢？跟线性回归的求导类似，我们依然使用梯度下降，使用向量表示，θ 的更新规则是：

注意这个的更新公式里是加号，而不是减号，因为这里我们是要最大化，跟之前讲的线性回归中最小化均方误差不一样：

这里只对一个训练数据，对似然函数求导如下，将 h_θ(x)=g(θ^Tx) 代入，并利用 sigmoid 导数性质 g'(z)=g(z)(1-g(z))，得：

由此，随机梯度上升规则如下：

如果再往前翻下线性回归的最小均方误差的更新规则，会发现更新规则是一模一样的，但这是不同的算法，因为现在 h_θ(x) 是 θ^Tx 的非线性函数。完全不同的算法和学习问题，更新规则竟然是一样的！这是巧合吗？或者是背后有更深层的原因？后面讲一般线性模型时我们会回答这个问题。

题外话：

稍微修改下 Logistic 回归方法，使其强制输出 0 或者 1，这就需要修改 g 的定义，g 定义成一个门限函数。

然后我们使用更新规则：

这就是感知机学习算法。

在上个世纪 60 年代，感知机作为大脑工作单元的一个粗糙模型，是备受争议的。算法很简单，后面讲到学习理论时会详谈。表面上看感知机与我们讨论的其它算法很相似，它实际是一个跟 Logistic 和最小二乘回归非常不同的算法，特别是，它很难对预测做概率上的解释，或者从最大似然估计算法中推出到感知机。

题外话结束。这里不懂也没关系，只是提一下，后面会详谈。

下面介绍最大化似然函数的另一种算法，首先考虑寻找一个函数零点的牛顿方法，假定有个函数 f，想要找到一个 θ 值使得 f(θ)=0。这里 θ 是一个实数，不是向量。牛顿方法执行下面的更新：

只看这个公式还有点困惑，加上图再讲解就明白了。

f'(θ) 是导数，导数就是斜率，斜率就是 Δf(θ)/Δθ……

所以 θ-f(θ)/f'(θ) 就是，在 θ 点 f(θ) 的切线等于 0 的点。见上图。

牛顿方法提供了一种到达 f(θ)=0 的方法，它如何用来求最大似然呢？似然函数的最大值也就是其导数为 0 时的点。所以，可得更新规则：

由于我们的 Logistic 回归的 θ 是向量，所以牛顿方法需要扩展成多维，也叫 Newton-Raphson 方法：

其中 H 是一个 n*n 的 Hessian 矩阵，其元素是：

牛顿方法收敛得比批梯度下降方法快，到最小值需要更少的迭代次数。但牛顿方法的一次迭代比梯度下降费劲多了，因为它需要寻找并转换 n*n 的 Hessian 矩阵，但只要 n 不是太大，它通常就会快得多。牛顿方法应用到最大化 Logistic 回归 Log 似然函数时，就叫做 Fisher scoring。

参考资料：

1、http://cs229.stanford.edu/notes/cs229-notes1.pdf

2、洪松林, 庄映辉, 李堃. 数据挖掘技术与工程实践[M]. 机械工业出版社. 2014

机器学习笔记—Logistic 回归的更多相关文章

机器学习笔记—Logistic回归
本文申明:本系列笔记全部为原创内容,如有转载请申明原地址出处.谢谢序言:what is logistic regression? Logistics 一词表示adj.逻辑的;[军]后勤学的n.[逻] ...
[机器学习实战-Logistic回归]使用Logistic回归预测各种实例
目录本实验代码已经传到gitee上,请点击查收! 一.实验目的二.实验内容与设计思想实验内容设计思想三.实验使用环境四.实验步骤和调试过程 4.1 基于Logistic回归和Sigmoid ...
机器学习5—logistic回归学习笔记
机器学习实战之logistic回归 test5.py #-*- coding:utf-8 import sys sys.path.append("logRegres.py") fr ...
<机器学习实战>读书笔记--logistic回归
1. 利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 2.sigmoid函数的分类 Sigmoid函数公式定义 3.梯度上升法基本思想:要找 ...
机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...
机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...
Python机器学习笔记 Logistic Regression
Logistic回归公式推导和代码实现 1,引言 logistic回归是机器学习中最常用最经典的分类方法之一,有人称之为逻辑回归或者逻辑斯蒂回归.虽然他称为回归模型,但是却处理的是分类问题,这主要是因 ...
机器学习基础-Logistic回归1
利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 训练分类器时的做法就是寻找最佳拟合参数,使用的时最优化算法. 优点:计算代价不高,利于理解和实现. ...
吴裕雄--天生自然python机器学习：Logistic回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类 ...

随机推荐

Android 查看自己的keystore的别名及相关信息
1.在DOS窗口下进入自己的keystore所在位置,输入 keytool -list -v -keystore xxxx.keystore -storepass 密码 xxxx.keystore是 ...
ORM之基础操作进阶
一.外键自关联(一对多) 1.建表 # 评论表 class Comment(models.Model): id = models.AutoField(primary_key=True) content ...
Android集成百度地图SDK
本Demo中所含功能 1:定位,显示当前位置 2:地图多覆盖物(地图描点.弹出该点的具体信息) 3:坐标地址互相换算 4:POI兴趣点检索 5:线路查询(步行,驾车,公交) 6:绘制线路(OpenGL ...
基于Hadoop的数据仓库Hive
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hi ...
Spring第二弹—–搭建与测试Spring的开发环境
PS:Spring既可以使用在javaSE中,也可以使用在javaWeb中. 使用Spring需要的jar 下载spring(我下载的是2.5.6版本),然后进行解压缩,在解压目录中找到下面jar文件 ...
mysql lock
http://blog.chinaunix.net/uid-21505614-id-289450.html http://bbs.csdn.net/topics/340127237 http://ww ...
Java游戏服务器成长之路——弱联网游戏篇（源码分析）
前言前段时间由于公司的一款弱联网游戏急着上线,没能及时分享,现在基本做的差不多,剩下的就是测试阶段了(本来说元旦来分享一下服务器技术的).公司的这款游戏已经上线一年多了,在我来之前一直都是单机版本, ...
Jackson /常用注解/ annotation（转）
1.@JsonAutoDetect 自动检测,(作用在类上)来开启/禁止自动检测. fieldVisibility:字段的可见级别 ANY:任何级别的字段都可以自动识别 NONE:所有字段都不可以自动 ...
Ubuntu16.04中用et对jmeter生成的数据统计成图表
在Ubuntu系统中,用ctrl+Alt+t 打开终端: 输入et,即打开wps: 整理需要形成图表的数据,如: 用excel生成图表,如下: 表得出的性能图表,方法: 1.工具栏中选择插入——二维折 ...
python3_unittest单元测试框架
看见英文懵逼,强迫学习英语 The Unittest suppots test automation,sharing of setup and shutdown code of tests, aggr ...

机器学习笔记—Logistic 回归

机器学习笔记—Logistic 回归的更多相关文章

随机推荐

热门专题