逻辑回归LR

逻辑回归算法相信很多人都很熟悉，也算是我比较熟悉的算法之一了，毕业论文当时的项目就是用的这个算法。这个算法可能不想随机森林、SVM、神经网络、GBDT等分类算法那么复杂那么高深的样子，可是绝对不能小看这个算法，因为它有几个优点是那几个算法无法达到的，一是逻辑回归的算法已经比较成熟，预测较为准确；二是模型求出的系数易于理解，便于解释，不属于黑盒模型，尤其在银行业，80%的预测是使用逻辑回归；三是结果是概率值，可以做ranking model；四是训练快。当然它也有缺点，分类较多的y都不是很适用。下面我先具体介绍下这个模型。

一、逻辑回归LR介绍

首先要搞清楚当你的目标变量是分类变量时，才会考虑逻辑回归，并且主要用于两分类问题。举例来说医生希望通过肿瘤的大小x1、长度x2、种类x3等等特征来判断病人的这个肿瘤是恶性肿瘤还是良性肿瘤，这时目标变量y就是分类变量（0良性肿瘤，1恶性肿瘤）。显然我们希望像保留像线性回归一样可以通过一些列x与y之间的线性关系来进行预测，但是此时由于Y是分类变量，它的取值只能是0,1,或者0,1,2等等，不可能是负无穷到正无穷，这个问题怎么解决呢？此时引入了一个sigmoid函数，这个函数的性质，非常好的满足了，x的输入可以是负无穷到正无穷，而输出y总是[0,1]，并且当x=0时，y的值为0.5，以一种概率的形式表示. x=0的时候y=0.5 这是决策边界。当你要确定肿瘤是良性还是恶性时，其实我们是要找出能够分开这两类样本的边界，叫决策边界。

而通过sigmoid函数，可以将我们喜欢的线性表示的函数嵌入其中，当theta*x得到的值大于0，则h(x)得到的概率值大于0.5时，表明属于该分类；当theta*x得到的值小于0，则h(x)小于0.5时表示不属于该分类。这样也就形成了我们看到的逻辑回归，具体如下：

其中theta是向量，

二、逻辑回归估计（最小化损失函数loss function）

损失函数是在机器学习中最常出现的概念，用于衡量均方误差[（模型估计值－模型实际值）^2／ n]最小，即预测的准确性，因而需要损失函数最小，得到的参数才最优。（线性回归中的最小二乘估计也是由此而来）但因为逻辑回归的这种损失函数非凸，不能找到全局最低点。因此，需要采用另一种方式，将其转化为求最大似然，如下，具体的推导求解过程可参见博客http://blog.csdn.net/suipingsp/article/details/41822313 另一种较为好理解的方式是，如果Y=1，你胆敢给出一个h(x)很小的概率比如0.01，那么损失函数就会变得很大：

此时的损失函数变成了凸函数，Theta的求解，就是梯度下降法求最小值，此时加入的正则化项，是解决过拟合问题。（过拟合问题：如果我们的模型有非常多的特征，模型很复杂，模型对原始数据的拟合效果很好，但是丧失一般性，对新的待预测变量预测效果很差。（听过寒小阳老师举过一个很好理解的例子，就是这个学生只是强硬的记住题目，并没有掌握规律，高考不一定考的好）怎么解决呢？限制参数寺塔，损失函数加上关于theta的限制，即如果theta太多太大，则就给予惩罚。L2正则化。）

该公式将一直被迭代执行，直至达到收敛（（）在每一步迭代中都减小，如果某一步减少的值少于某个很小的值（）（小于0.001）, 则其判定收敛）或某个停止条件为止（比如迭代次数达到某个指定值或算法达到某个可以允许的误差范围）。转换为向量的处理方法同样可参见上文博客：http://blog.csdn.net/suipingsp/article/details/41822313

三、LR应用经验

如果连续变量，注意做SCALING，缩放单位即标准化。LR对样本分布敏感，所以要注意样本的平衡性（y=1不能太少）样本量足的情况下采用下采样，不足的情况用上采样。

LR对于特征处理非常重要，常用处理手段包括，通过组合特征引入个性化因素(FM,FFM)；注意特征的频度；聚类、HASH。但LR不怕特征大，GBDT比较怕。对于连续变量的离散化，可以用CART查看离散的结果，生成新的特征，再用LR。

LR和FM对于稀疏高维特征处理是无压力的，GBDT对于连续值自己会找到合适的切分点，xgboost也可以处理category类型的feature，无需one-hot，平展开的高维稀疏特征对它没好处。

算法调优方面，选择合适的正则化，正则化系数，收敛阈值e，迭代轮数，调整loss function给定不同权重；bagging或其他方式的模型融合；最优算法选择（‘newton-cg’,’lbfgs’, ‘liblinear’）；bagging或其他模型融合。Sklearn中的LR实际上是liblinear的封装。

LR和SVM对于线性切分都有着比较好的表现，对于非线性切分，必须在原始数据上做一些非线性变换。LR必须做feature mapping，比如把X做个平方项，X1*X2等；SVM则需要利用核函数

模型的评价主要用ROC曲线。ROC（接受者操作特征）曲线实际上是对概率输出设置了一个门槛D，当P(C|x)>D时，事件C为真，而ROC曲线反映了，在一系列可能门槛值下，真正率（ TPR）和假正率(FPR)的值，一个好的模型必须在一个高的真正率（ TPR）和一个低的假正率(FPR)中取得一个折衷水平，ROC曲线下的面积越大越好，最大为1.　

逻辑回归LR的更多相关文章

线性模型之逻辑回归(LR)(原理、公式推导、模型对比、常见面试点)
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读,方可全面了解LR): (1).https://zhuanlan.zhihu.com/p/74874291 (2).逻辑回归与交叉熵 (3) ...
机器学习（四）—逻辑回归LR
逻辑回归常见问题:https://www.cnblogs.com/ModifyRong/p/7739955.html 推导在笔记上,现在摘取部分要点如下: (0) LR回归是在线性回归模型的基础上,使 ...
机器学习方法（五）：逻辑回归Logistic Regression，Softmax Regression
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 前面介绍过线性回归的基本知识, ...
机器学习-逻辑回归与SVM的联系与区别
(搬运工) 逻辑回归(LR)与SVM的联系与区别 LR 和 SVM 都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题,如LR的Softmax回归用在深度学习的多分类 ...
逻辑回归（LR）总结复习
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合内容: 1.算法概述最基本的LR分类器适合于对两分类(类0,类1)目标进行分类:这个模型以样 ...
逻辑回归算法的原理及实现(LR)
Logistic回归虽然名字叫"回归" ,但却是一种分类学习方法.使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素.逻辑回归(Logistic Regression, L ...
Python实现LR(逻辑回归)
Python实现LR(逻辑回归) 运行环境 Pyhton3 numpy(科学计算包) matplotlib(画图所需,不画图可不必) 计算过程 st=>start: 开始 e=>end o ...
逻辑回归模型(Logistic Regression, LR)基础
逻辑回归模型(Logistic Regression, LR)基础逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函 ...
细品 - 逻辑回归（LR）
1. LR的直观表述 1.1 直观表述今天我们来深入了解一个人见人爱,花见花开,工业界为之疯狂,学术界..额,好像学术界用的不多哎.不过没关系,就算学术界用的不多也遮不住它NB的光芒,它就是LR模型 ...

随机推荐

POJ 2955 Brackets --最大括号匹配，区间DP经典题
题意:给一段左右小.中括号串,求出这一串中最多有多少匹配的括号. 解法:此问题具有最优子结构,dp[i][j]表示i~j中最多匹配的括号,显然如果i,j是匹配的,那么dp[i][j] = dp[i+1 ...
Java设计模式之单例
一.Java中的单例: 特点: ① 单例类只有一个实例 ② 单例类必须自己创建自己唯一实例 ③ 单例类必须给所有其他对象提供这一实例二.两种模式: ①懒汉式单例<线程不安全> 在类加载时 ...
生产环境使用 pt-table-checksum 检查MySQL数据一致性
公司数据中心从托管机房迁移到阿里云,需要对mysql迁移(Replication)后的数据一致性进行校验,但又不能对生产环境使用造成影响,pt-table-checksum 成为了绝佳也是唯一的检查工 ...
去除多余的cell 和最后一行cell显示顶头底线
去除多余cell YourTableview.tableFooterView = [[UIView alloc] initWithFrame:CGRectZero]; 最后一行cell底线顶头显示 s ...
【C#】【Thread】SpinLock
SpinLock结构是一个低级别的互斥同步基元,它在等待获取锁时进行旋转. 在多核计算机上,当等待时间预计较短且极少出现争用情况时,SpinLock 的性能将高于其他类型的锁. 不过,我们建议您仅在通 ...
《JavaScript高级程序设计》笔记整理
欢迎各位指导与讨论 : ) -------------------------待续------------------------------- 本文为笔者在学习时整理的笔记,如有错漏,恳请各位指出, ...
通过COOKIE欺骗登录网站后台
1.今天闲着没事看了看关于XSS(跨站脚本攻击)和CSRF(跨站请求伪造)的知识,xss表示Cross Site Scripting(跨站脚本攻击),它与SQL注入攻击类似,SQL注入攻击中以SQL语 ...
CCS 6新建TMS320F2812工程
准备材料 CCS6 下载地址:http://www.ti.com/tool/ccstudio F2812的C语言头文件下载地址:http://www.ti.com/lit/zip/sprc097 安 ...
如何同时运行两个tomcat？
两个以上,要更改端口号.1 下载tomcat的压缩包(不是安装的那种,直接解压缩就能用的)下载地址:http://tomcat.apache.org/download-55.cgi 下载好的文件名是: ...
解决：Win 10 + Mint 18双系统时间不同步，更换系统启动项顺序
1.win10 & mint 18双系统时间同步: 先打开终端下更新一下时间,确保时间无误: sudo apt-get install ntpdate sudo ntpdate time.wi ...

逻辑回归LR

逻辑回归LR的更多相关文章

随机推荐

热门专题