本次回归章节的思维导图版总结已经总结完毕，但自我感觉不甚理想。不知道是模型太简单还是由于自己本身的原因，总结出来的东西感觉很少，好像知识点都覆盖上了，但乍一看，好像又什么都没有。不管怎样，算是一次尝试吧，慢慢地再来改进。在这里再梳理一下吧！

线性回归（Linear Regression）

什么是回归？

给定一些数据，{（x1，y1），（x2，y2）…（xn，yn） }，x的值来预测y的值，通常地，y的值是连续的就是回归问题，y的值是离散的就叫分类问题。

高尔顿的发现，身高的例子就是回归的典型模型。

回归分为线性回归（Linear Regression）和Logistic 回归。

线性回归可以对样本是线性的，也可以对样本是非线性的，只要对参数是线性的就可以，所以线性回归能得到曲线。

线性回归的目标函数？

（1）

为了防止过拟合，将目标函数增加平方和损失：

（2）

增加了平方和损失，是2次的正则，叫L2-norm，有个专有名字：Ridge。【岭回归】

也可以增加绝对值损失，叫L1-norm，也有个专有名字：Lasso。

都假定参数θ服从高斯分布。

目标函数的推导？

以极大似然估计解释最小二乘。过程如下：

（3）

θ的解析式？

一句话：目标函数对θ求偏导，再求驻点。

防止过拟合，加入λ扰动：本质是L2-norm

梯度下降算法？

梯度下降得到得是局部最小值，而不是全局最小值。

SGD随机梯度下降的优点？

速度快
往往能跳出局部最小值
适合于在线学习

由于线性回归的目标函数是凸函数，所以在这个地方用梯度下降得到的就是全局最小值。

沿着负梯度方向迭代，更新后的θ会使得J（θ）更小。

注意：这里是对某一个样本，对θj求偏导。

每一个样本都对此时的θj求偏导。

注意：梯度是矢量，既有方向，又有值。例如，在二维空间中的表现为斜率，当斜率为1时，能想象方向，1不就是它的值吗？厉害了，竟然现在才明白过来。

梯度下降：（又称批量梯度下降batch gradient descent）

得到所有样本后，再做梯度下降。

随机梯度下降：（stochastic gradient descent）

来一个样本就进行梯度下降，来一个样本就进行梯度下降，适合于在线学习。

还有一个二者的折衷：

mini-batch:

攒够若干个做一次批梯度下降，若干个样本的平均梯度作为下降方向。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------------------------

LR（Logistic Regression）Logistic回归

广义线性模型（General Linear Regression GLR）

1.Logistic回归的损失函数？

负对数似然NLL。

Softmax回归是Logistic回归的多分类情况。

沿着似然函数正梯度上升

这个图很能理解线性回归和LR回归之间的关系。

LogisticRegression 就是一个被logistic方程归一化后的线性回归，仅此而已。

提到Logistic回归，首先要说他跟线性回归的联系：其实就是被Logistic方程归一化的线性回归。将预测的输出映射到0,1之间。以概率判断类别，大于0.5，判为一类，小于0.5判为一类。
Logistic 方程/Sigmoid 函数，大概长这样。

概率分布函数：

似然函数：

对数似然：

对θj求偏导：

沿着梯度上升。梯度上升也行，梯度下降也对。

注意：线性回归里面求损失函数的最小值得时候用到了梯度下降算法。

一定注意，那个是求损失函数的最小值，越小越好，当然用下降；而在这里，要求对数似然函数的最大值，则需要沿着梯度上升，越大越好。到最后得到极大似然估计值θ，那么学到的Logistic回归模型就是：

一定注意，这两次用梯度的目的不同，一次是为了损失值最小，一次是为了似然值最大，一个下降，一个上升！

Logistic的损失函数：

负对数似然损失函数NLL。

可以很好的解释。

常见的损失函数

机器学习或者统计机器学习常见的损失函数如下：

1.0-1损失函数（0-1 loss function）

2.平方损失函数（quadratic loss function)

3.绝对值损失函数(absolute loss function)

L(Y,f(x))=|Y−f(X)|

4.对数损失函数（logarithmic loss function) 或对数似然损失函数(log-likehood loss function)

逻辑回归中，采用的则是对数损失函数。如果损失函数越小，表示模型越好。

说说对数损失函数与平方损失函数

在逻辑回归的推导中国，我们假设样本是服从伯努利分布(0-1分布)的，然后求得满足该分布的似然函数，最终求该似然函数的极大值。整体的思想就是求极大似然函数的思想。而取对数，只是为了方便我们的在求MLE(Maximum Likelihood Estimation)过程中采取的一种数学手段而已。

全体样本的损失函数可以表示为：

这就是逻辑回归最终的损失函数表达式。

Logistic 回归的总结：

优点：方法简单、容易实现、效果良好、易于解释

特征选择很重要：人工选择，随机森林、PCA、LDA

梯度下降算法是参数优化的重要手段，尤其是SGD。（适用于在线学习，能挑出局部极小值。）

Softmax回归

Logistic回归的推广，概率计算公式：

本章总结：

对于线性回归，求解参数θ即可，可以用解析解的方法求解，也可以用梯度下降的方式求解。

对于Logistic回归和Softmax回归，推导及求解方式相同。基本遵循以下步骤：

给出分类概率函数
求累加的似然函数
转换为对数似然函数求驻点
利用梯度下降法求解。

1.线性回归、Logistic回归、Softmax回归的更多相关文章

机器学习之线性回归---logistic回归---softmax回归
在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签可以取两个以上的值. Softmax回归模型对于诸如MNIST手写数字分类等问题 ...
【分类器】感知机+线性回归+逻辑斯蒂回归+softmax回归
一.感知机详细参考:https://blog.csdn.net/wodeai1235/article/details/54755735 1.模型和图像: 2.数学定义推导和优化: 3.流程 ...
Softmax回归 softMax回归与logistic回归的关系
简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签可以取两个以上的值. Softmax回归模型对于诸如MNIST手写数字分 ...
机器学习 —— 基础整理（五）线性回归；二项Logistic回归；Softmax回归及其梯度推导；广义线性模型
本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型闲话:二项Logistic回归是我去年入门机器学习时学的第一个模 ...
利用TensorFlow识别手写的数字---基于Softmax回归
1 MNIST数据集 MNIST数据集主要由一些手写数字的图片和相应的标签组成,图片一共有10类,分别对应从0-9,共10个阿拉伯数字.原始的MNIST数据库一共包含下面4个文件,见下表. 训练图像一 ...
机器学习——softmax回归
softmax回归前面介绍了线性回归模型适用于输出为连续值的情景.在另一类情景中,模型输出可以是一个像图像类别这样的离散值.对于这样的离散值预测问题,我们可以使用诸如 softmax 回归在内的分类 ...
02-13 Softmax回归
目录 Softmax回归一.Softmax回归详解 1.1 让步比 1.2 不同类之间的概率分布 1.3 目标函数 1.4 目标函数最大化二.Softmax回归优缺点 2.1 优点 2.2 缺点 ...
线性回归、Logistic回归、Softmax回归
线性回归(Linear Regression) 什么是回归? 给定一些数据,{(x1,y1),(x2,y2)…(xn,yn) },x的值来预测y的值,通常地,y的值是连续的就是回归问题,y的值是离散的 ...
Logistic回归（逻辑回归）和softmax回归
一.Logistic回归 Logistic回归(Logistic Regression,简称LR)是一种常用的处理二类分类问题的模型. 在二类分类问题中,把因变量y可能属于的两个类分别称为负类和正类, ...

随机推荐

DRF之解析器组件及序列化组件
知识点复习回顾一:三元运算三元运算能够简化我们的代码, 请看如下代码: # 定义两个变量 a = 1 b = 2 # 判断a的真假值,如果为True,则将判断表达式的前面的值赋给c,否则将判断表达 ...
一.volatile关键字
一.volatile关键字的原理使用volatile关键字增加了实例变量在多个线程之间的可见性.但volatile的最致命的缺点是不支持原子性. synchronized代码块具有volatile同 ...
0k6410定时器详细分析
看到一篇很好的博文,分析2410定时器中断的使用的,很详细,和大家分享一下转载来源于http://www.cnblogs.com/Neddy/archive/2011/07/01/2095176.h ...
输入一条url后,发生了什么??
(1)浏览器解析 (2)查询缓存 (3)DNS查询顺序如下,若其中一步成功直接进去建立连接部分: -- 浏览器自身DNS -- 操作系统DNS -- 本地hosts文件 -- 像域名服务器发送请求 ...
SpringBoot RestController 同时支持返回xml和json格式数据
@RestController 默认支持返回json格式数据,即使不做任何配置也能返回json数据当接口需要支持xml或json两种格式数据时应该怎么做呢? 只要引入 Jackson xml的 ma ...
c++原型模式（Prototype）
原型模式是通过已经存在的对象的接口快速方便的创建新的对象. #include <iostream> #include <string> using namespace std; ...
sqlserver临时表或表变量代替游标
在很多场合,用临时表或表变量也可以替代游标临时表用在表没有标识列(int)的情况下. 在表有标识列(int)的情况下可以用表变量,当然也可以用临时表. 利用临时表或表变量的原因时,生成一个连续的列 ...
解决在Python中使用Win32api报错的问题，No module named win32api
一.系统环境操作系统: Win7 64位 Python:3.7.0 二.在使用import win32api时,报错:No module named win32api 网上查到有下面解决办法: 方法 ...
libcurl用法
本文以向百度搜索开放平台搜索关键字所对应的推荐搜索条目为例子: url:http://m.baidu.com/su?wd=%s&action=opensearch&ie=utf-8 ( ...
jQuery基础教程-第8章-004完整代码
1. /****************************************************************************** Our plugin code c ...