Machine Learning 学习笔记 (1) —— 线性回归与逻辑回归

本系列文章允许转载，转载请保留全文！

【请先阅读】【说明&总目录】http://www.cnblogs.com/tbcaaa8/p/4415055.html

1. 梯度下降法 (Gradient Descent)

梯度下降法是一种用来寻找函数最小值的算法。算法的思想非常简单：每次沿与当前梯度方向相反的方向走一小步，并不断重复这一过程。举例如下：

[例]使用梯度下降法，求z=0.3x²+0.4y²+2的最小值。

第一步：求解迭代格式。根据“每次沿与当前梯度方向相反的方向走一小步”的思想，可知x^(k+1)=x^(k)-0.6x^(k), y^(k+1)=y^(k)-0.8y^(k)

第二步：选择迭代的初始值。初始值一般可以随意选择，但恰当的初始值有助于提升收敛速度。本例中选择x⁽⁰⁾=1, y⁽⁰⁾=1

第三步：根据迭代格式和初始值进行迭代求解。迭代过程如下：

k	x^(k)	y^(k)	z(x^(k),y^(k))
0	1.00	1.00	2.7000
1	0.40	0.20	2.0640
2	0.16	0.04	2.0083
3	0.06	0.01	2.0013
4	0.03	0.00	2.0002
5	0.01	0.00	2.0000
6	0.00	0.00	2.0000

结论：可以发现，第6次迭代后，算法收敛。所求最小值为2。

梯度下降算法如何进行收敛判定呢？一个通用的方法是判断相邻两次迭代中，目标值变化量的绝对值是否足够小。具体到上述例题，就是判断|z(x^(k+1),y^(k+1))-z(x^(k),y^(k))|<eps是否成立。eps是一个足够小的正实数，可以根据所需要的精度进行选取，本例中eps=10^-4。

需要注意的是，梯度下降法有可能陷入局部最优解。可以通过多次随机选取初始值以及增加冲量项等方法加以改善，本系列后续文章中可能涉及。

2. 线性回归 (Linear Regression)

线性回归是对自变量和因变量之间关系进行建模的回归分析，回归函数满足如下形式：

$h_\theta(x)=\theta^Tx$ 　　

我们使用 $m$ 表示数据组数，使用 $n$ 表示数据的维数；使用 $x^{(i)}$ 和 $y^{(i)}$ 表示第 $i$ 组数据的自变量和因变量，使用 $x^{(i)}_j$ 表示第 $i$ 组数据自变量的第 $j$ 个分量。推导过程基于如下假设：

$h_\theta(x^{(i)})-y^{(i)} \sim N(0,\sigma^2) \quad for\ i=1\ldots m$

即每一组数据的误差项相互独立，且均服从均值为0，方差为 $\sigma^2$ 的正态分布。进而，我们可以得到似然函数：

$L(y\mid x;\theta)=\prod_{i=1}^m P(y^{(i)}\mid x^{(i)};\theta) = \prod_{i=1}^m N(h_\theta(x^{(i)})-y^{(i)};0,\sigma^2)$

对数似然函数：

$\ln L(y\mid x;\theta)= \sum_{i=1}^m \ln N(h_\theta(x^{(i)})-y^{(i)};0,\sigma^2) = \sum_{i=1}^m \ln (\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2\sigma^2}( h_\theta(x^{(i)})-y^{(i)} )^2))$

化简，可得：

$\ln L(y\mid x;\theta)= c_1-c_2\sum_{i=1}^{m}( h_\theta(x^{(i)})-y^{(i)} )^2 \quad c_2 > 0$

定义损失函数：

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m ( h_\theta(x^{(i)})-y^{(i)} )^2$

要使似然函数最大，只需使损失函数最小。我们使用损失函数的极小值代替最小值，只需对每一个 $\theta_j$ 求偏导数：

$\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \quad for\ j=0\ldots n$

最后，使用梯度下降法迭代求解：

$\theta^{(k+1)}_j=\theta^{(k)}_j-\alpha \frac{\partial}{\partial \theta_j} J(\theta) \quad for\ j=0\ldots n$

其中， $\alpha$ 为学习率，是一个大于0的常数。学习率应当慎重选择，过大会导致算法不收敛，过小会导致收敛速度缓慢。在实际应用中，可以根据具体情况对学习率进行调节。有资料表明，当 $\alpha <\frac{2}{\lambda_{max}}$ $(note:\ \lambda_{max}=\max\{\lambda \mid \lambda\ is\ an\ eigenvalue\ of\ Var(x) \})$ 时，上述算法收敛。由于 $\lambda_{max}$ 难以高效计算，因此往往使用 $tr(Var(x))$ 来代替。

3. 逻辑回归 (Logistic Regression)

当因变量只能在{0,1}中取值时，线性回归模型不再适合，因为极端数据的存在会使阀值的选择变得困难。我们可以使用逻辑回归对数据进行建模。回归函数满足如下形式：

$h_\theta(x)=sigmoid(\theta^Tx)$

其中：

$sigmoid(z)=\frac{1}{1+\exp(-z)}$

sigmoid函数具有如下性质：

$\frac{d}{dz}sigmoid(z)=sigmoid(z)(1-sigmoid(z))$

推导过程基于如下假设：（其实就是假设y⁽ⁱ⁾~Bernoulli(h_θ(x⁽ⁱ⁾))）

$P(y^{(i)}=1\mid x^{(i)};\theta)=h_\theta(x^{(i)})$

$P(y^{(i)}=0\mid x^{(i)};\theta)=1-h_\theta(x^{(i)})$

$for\ i=1\ldots m$

考虑到 $y$ 取值的特殊性，上述假设等价于以下形式：

$P(y^{(i)}\mid x^{(i)};\theta)=(h_\theta(x^{(i)}))^{y^{(i)}} (1-h_\theta(x^{(i)}))^{1-y^{(i)}} \quad for\ i=1\ldots m$

进而得到似然函数：

$L(y\mid x;\theta)=\prod_{i=1}^m P(y^{(i)}\mid x^{(i)};\theta)$

对数似然函数：

$\ln L(y\mid x;\theta)= \sum_{i=1}^m \ln P(y^{(i)}\mid x^{(i)};\theta)$

化简，得：

$\ln L(y\mid x;\theta)= \sum_{i=1}^m ( y^{(i)}\ln (h_\theta(x^{(i)}))+(1-y^{(i)})\ln(1-h_\theta(x^{(i)})) )$

定义损失函数：

$J(\theta)=-\frac{1}{m}\sum_{i=1}^m ( y^{(i)}\ln (h_\theta(x^{(i)}))+(1-y^{(i)})\ln(1-h_\theta(x^{(i)})) )$

要使似然函数最大，只需使损失函数最小。我们使用损失函数的极小值代替最小值，只需对每一个 $\theta_j$ 求偏导数：

$\frac{\partial}{\partial \theta_j} J(\theta) = -\frac{1}{m}\sum_{i=1}^m ( \frac{y^{(i)}}{h_\theta(x^{(i)})} - \frac{1-y^{(i)}}{1-h_\theta(x^{(i)})} )h_\theta(x^{(i)}) (1-h_\theta(x^{(i)})) x_j^{(i)}$

化简，得：

$\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \quad for\ j=0\ldots n$

最后，使用梯度下降法迭代求解：

$\theta^{(k+1)}_j=\theta^{(k)}_j-\alpha \frac{\partial}{\partial \theta_j} J(\theta) \quad for\ j=0\ldots n$

$\alpha$ 含义同上。

Machine Learning 学习笔记 (1) —— 线性回归与逻辑回归的更多相关文章

吴恩达Machine Learning学习笔记（三）--逻辑回归+正则化
分类任务原始方法:通过将线性回归的输出映射到0-1,设定阈值来实现分类任务改进方法:原始方法的效果在实际应用中表现不好,因为分类任务通常不是线性函数,因此提出了逻辑回归逻辑回归假设表示--引入 ...
[Machine Learning]学习笔记-Logistic Regression
[Machine Learning]学习笔记-Logistic Regression 模型-二分类任务 Logistic regression,亦称logtic regression,翻译为" ...
Machine Learning 学习笔记
点击标题可转到相关博客. 博客专栏:机器学习 PDF 文档下载地址:Machine Learning 学习笔记机器学习 scikit-learn 图谱人脸表情识别常用的几个数据库机器学习 F1- ...
Coursera 机器学习第6章（上） Advice for Applying Machine Learning 学习笔记
这章的内容对于设计分析假设性能有很大的帮助,如果运用的好,将会节省实验者大量时间. Machine Learning System Design6.1 Evaluating a Learning Al ...
Machine Learning 学习笔记 (4) —— 广义线性模型
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 指数分布族简介之前的文章分 ...
Machine Learning 学习笔记1 - 基本概念以及各分类
What is machine learning? 并没有广泛认可的定义来准确定义机器学习.以下定义均为译文,若以后有时间,将补充原英文...... 定义1.来自Arthur Samuel(上世纪50 ...
[Python & Machine Learning] 学习笔记之scikit-learn机器学习库
1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最 ...
Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 泊松回归 (Poisson ...
PytorchZerotoAll学习笔记（五）--逻辑回归
逻辑回归: 本章内容主要讲述简单的逻辑回归:这个可以归纳为二分类的问题. 逻辑,非假即真.两种可能,我们可以联想一下在继电器控制的电信号(0 or 1) 举个栗子:比如说你花了好几个星期复习的考试(通 ...

随机推荐

java 命令行操作
打包命令例如:将testproject下的文件打包成test.war jar cvf test.war ./testproject
svn服务端配置
1.建立版本库创建一个新的Subversion项目svnadmin create /var/www/svndata/njlrxx 配置允许用户jiqing访问cd /var/www/svndata/ ...
IE样式兼容写法
1.第一种写法利用,给每个html写一个class <!DOCTYPE html> ...
poj3692_Kindergarten
这题目大意是:男孩互相认识,女孩互相认识,一部分男女之间认识,老师要选一部分人,要求这部分人必须都相互认识. 这是一个二部图,先求出补图,在补图中G‘左右两点有连线说明在G中两者不认识,反之成立. 所 ...
Android IOS WebRTC 音视频开发总结（四一）-- QQ和webrtc打洞能力pk
很多人知道webrtc打洞能力很强,到底有多强但是不知道,比较好的方法就是跟QQ对比,但大多数公司很难模拟各种网络环境进行测试,比如联通,铁通,电信,移动,所以这次请小师妹在实验室下进行了一个比较全面 ...
Large-Scale Named Entity Disambiguation Based on Wikipedia Data
Large-Scale Named Entity Disambiguation Based on Wikipedia Data 基于维基百科数据的大规模命名实体消岐 1．引言 1.1. 概念实体(e ...
搭建高性能计算环境（十）、应用软件的安装之Wien2k
1,首先安装fftw .tar.gz cd fftw- ./configure --prefix=/opt/fftw- --enable-shared --enable-float --enable- ...
Lwip的相关资料
文件资料 Lwip编程指南 Lwip协议栈的设计与实现分析Lwip
（二）、NodeJS 、Express4安装使用方法
第一步:安装Nodejs 第二步:安装express等部件 1.打开命令窗口,安装express.jade npm install -g express npm install -g express- ...
echarts 各种细节问题
1.最大值最小值异常 //如果数组中的数字是字符串的形式的话,echarts计算最大最小值不正确,故将String的数字转化成Number类型 //将包含字符串的数组转化为浮点数数组 function ...

Machine Learning 学习笔记 (1) —— 线性回归与逻辑回归

Machine Learning 学习笔记 (1) —— 线性回归与逻辑回归的更多相关文章

随机推荐

热门专题