Coursera 机器学习笔记（二）

主要为第三周课程内容：逻辑回归与正则化

逻辑回归(Logistic Regression)

一、逻辑回归模型引入

分类问题是指尝试预测的是结果是否属于某一个类。

维基百科的定义为：根据已知训练区提供的样本，通过计算选择特征参数，建立判别函数以对样本进行的分类（有监督分类）。
统计学习方法中定义：在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction)，称为分类(classification)。

典型的分类问题有：判断一封邮件是否为垃圾邮件、判断有没有的乳腺癌等等。

先只讨论二元分类问题。即y为0或者1。如判断乳腺癌分类问题，我们可以试着用线性回归的方法去拟合数据，得到一条直线：

由于线性回归模型只能预测连续的值，而对于分类问题需要判断y属于0，还是1。那么可以设置一个阈值（如：0.5）来判定：

这样线性回归也能用于分类。但是缺点是如果有个异常点，会影响拟合的直线，从而原来的阈值不再合适。如图

可以看出，线性回归模型，因为其预测的值可以超越[0,1]的范围，并不适合解决这样的问题。

引入一个新的模型使得模型的输出变量范围在（0,1）之间，即逻辑斯蒂回归模型，简称为逻辑回归。

逻辑回归的假设为：h=g(θ'x)，这里引入一个新函数g，g使得h由输出范围变为（0,1）。g 称为sigmoid function 和 logistic function，表达式为：

函数图像为：

则逻辑回顾的假设也可以写成：

回到最初，我们仍然还可以通过设置阈值来判断，如给定的阈值为0.5：

h=0.5时，z = 0，即θ'x = 0。则可以推出：

那么θ'x = 0时，可以看成是模型的判断分界线，称为判定边界，如图

二、代价函数及其梯度下降法

如果按照线性回归模型的代价函数：模型误差的平方和，那么逻辑回归得到代价函数将是非凸函数(non-convex function)，会有很多局部最优解，将影响梯度下降法寻找全局最优解。所以需要重新定义代价函数。

重新定义的代价函数为：

其中：

代价函数可以简写成：

那么相应的梯度算法为：

三、优化和多分类问题

　　寻找代价函数的最小值不仅仅只有梯度下降算法，还有其他的比如：共轭梯度( Conjugate Gradient )，局部优化法( Broyden fletcher goldfarb shann, BFGS) 和有限内存局部优化法(LBFGS)。

　　多分类问题即训练集里有超过2个的类，因此无法用二元变量去判断。一种解决方法是一对多方法(One-vs-All)。

　　一对多方法是将多分类转换为二元分类问题：将其中一个类标记为正类，其他类标记为分类，训练模型，得到参数，得到一个分类器。然后将第二个类标价为正类，其他类为负类，以此反复进行，得到一系列的模型参数。当需要预测时，运行所有分类器，选择其中最高值对应的模型所代表的正类。

四、正则化（Regularzation）

　　当我们训练模型的时候，通常有这三种情况：

得到的模型不能很好地适应训练集——低度拟合
得到的模型完全适应训练集，但是新输入值时，预测效果不是很好——过度拟合
较好地适应训练集，也能推广到新的数据。

如图：

低拟合对应的是高偏差，过拟合对应的是高方差。

　　如果发生过拟合问题，应该如何处理？

　　　　方法一：丢弃一些不需要的特征

人工选择
算法选择（PCA等）

　　　　方法二：正则化

保留所有特征，减小参数的大小

正则化的方法是：对那些特征所需要减小的参数，在代价函数中增加相应的惩罚。如果我们有很多特征，不知道那些特征需要惩罚，那么我们可以对所有特征进行惩罚即

其中λ称为正则化参数，根据惯例不对进行惩罚。

如果λ过小，那么相当惩罚很小，造成过拟合；如果λ过大，则会所有参数都变小，导致模型接近直线，造成低度拟合;因此也需要选择适合的λ。

对线性回归正则化：

正则化后的梯度下降算法：

注意：θ0没有正则化项，其他都有。

对逻辑回归正则化：

正则化后的梯度下降算法：

注意：虽然和线性回归一样，但是hθ(x)的表达式不一样，与线性回归不同。

Coursera 机器学习笔记（二）的更多相关文章

coursera机器学习笔记-建议，系统设计
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
coursera机器学习笔记-神经网络，学习篇
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
coursera机器学习笔记-神经网络，初识篇
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
coursera机器学习笔记-多元线性回归，normal equation
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
coursera机器学习笔记-机器学习概论，梯度下降法
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
Coursera 机器学习笔记（八）
主要为第十周内容:大规模机器学习.案例.总结 (一)随机梯度下降法如果有一个大规模的训练集,普通的批量梯度下降法需要计算整个训练集的误差的平方和,如果学习方法需要迭代20次,这已经是非常大的计算代价 ...
Coursera 机器学习笔记（七）
主要为第九周内容:异常检测.推荐系统 (一)异常检测(DENSITY ESTIMATION) 核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非 ...
Coursera 机器学习笔记（六）
主要为第八周内容:聚类(Clustering).降维聚类是非监督学习中的重要的一类算法.相比之前监督学习中的有标签数据,非监督学习中的是无标签数据.非监督学习的任务是对这些无标签数据根据特征找到内在 ...
Coursera 机器学习笔记（四）
主要为第六周内容机器学习应用建议以及系统设计. 下一步做什么当训练好一个模型,预测未知数据,发现结果不如人意,该如何提高呢? 1.获得更多的训练实例 2.尝试减少特征的数量 3.尝试获得更多的特征 ...

随机推荐

Linux--谈父子进程执行过程
fork函数用于从已存在进程中创建一个新进程,新进程成为子进程,原进程成为父进程.这两个进程分别返回他们各自的返回值, 其中父进程的返回值是子进程的进程号,子进程则返回0,因此返回值大于0标识父进程, ...
mpu6050参数获取
MPU6050其实就是一个 I2C 器件,里面有很多寄存器(但是我们用到的只有几个),我们通过读写寄存器来操作这个芯片.所以首要问题就是 STM32 和 MPU6050 的 I2C 通信.1.配置 S ...
学习MVC之租房网站（五）-权限、角色、用户管理
在上一篇<学习MVC之租房网站(四)-实现Service层并进行单元测试>中,记录了实现Service层并进行单元测试的过程,接下来该到"正题"-MVC了,也就是UI层 ...
Objective-C 实用关键字详解1「面试、工作」看我就 🐒 了 ^_^.
在写项目或阅读别人的代码(一些优秀的源码)中,总能发现一些常见的关键字,随着编程经验的积累大部分还是知道是什么意思的. 相信很多开发者跟我当初一样,只是基本的常用关键字定义属性会使用,但在关键字 ...
Mac IDEA插件——protobuf 插件
最近在搞PB的版本的升级,历史的PB的版本是2.4,现在是打算升级到3.2,当面PB的版本肯定有很多变化了,就不再这里多说了,这里重点说一说,采用IDEA的插件方便执行PB的文件的JAVA编译,这样的 ...
使用vs code实现git同步
用了git最方便的就是项目同步管理,回到家打开vscode只需要点击一下pull就能全部同步过来.是不是很方便....毕竟之前我都是拿u盘拷贝回家或者存到云盘再下载下来.. 我这里用的是国内的码云 ...
Windows上Ruby开发环境的配置
最近公司项目上有需要,需要开发一个puppet的自动化工具,这个工具需要操作存储设备上的各种资源,而鉴于puppet不是善于完成这个任务的首选语言,于是我们选择了puppet的“爹”,Ruby. 熟悉 ...
IOS的控制器
控制器简单来说,就是用来做界面跳转的,类似于 Android 的Intent 1.创建一个控制器控制器的常见的创建方式 )通过storyboard创建 //直接创建 NJViewController ...
hdu1372 Knight Moves BFS 搜索
简单BFS题目主要是读懂题意和中国的象棋中马的走法一样,走日字型,共八个方向我最初wa在初始化上了....以后多注意... 代码: #include <iostream> #incl ...
hdu4639 hehe 递推
此题为递推题现场比赛中由于心态问题没能快速推出来定义f[i]为i个连续的he可以表示的语意的个数则如果第i个he单独考虑f[i]=f[i-1];如果将第i个he和第i-1个he组合则其只能表示为 ...

Coursera 机器学习笔记（二）

Coursera 机器学习笔记（二）的更多相关文章

随机推荐

热门专题