一、模型简介

线性回归默认因变量为连续变量,而实际分析中,有时候会遇到因变量为分类变量的情况,例如阴性阳性、性别、血型等。此时如果还使用前面介绍的线性回归模型进行拟合的话,会出现问题,以二分类变量为例,因变量只能取0或1,但是拟合出的结果却无法保证只有这两个值。

那么使用概率的概念来进行拟合是否可以呢?答案也是否定的,因为
1.因变量的概率和自变量之间的关系不是线性的,通常呈S型曲线,并且这种曲线是无法通过曲线直线化进行处理的。
2.概率的取值应该在0-1之间,但是线性拟合的结果范围是整个实数集,并不能保证一定在0-1之间。

基于以上问题,我们需要找出其他解决思路,那就是logit变换(逻辑变换),我们将某种结果出现的概率和不出现的概率之比称为优势比P/(1-P),将优势比作为因变量,并且取其对数,这就是逻辑变换,通过逻辑变换使之与自变量之间呈线性关系,从而解决了上述问题1。同时也使得因变量的取值范围覆盖了整个实数集,也解决了上述问题2,我们将经过逻辑变换的线性模型称为logistic回归模型(逻辑回归模型),可以看出,逻辑回归也是一种线性回归模型,属于广义线性回归模型的范畴。

线性回归是根据回归方程预测某个结果的具体值,而逻辑回归则是根据回归方程预测预测某个结果出现的概率。

对因变量进行变换的方法很多,并不只有逻辑变换一种,只是逻辑变换应用最广,对于一些特殊情况,还需具体问题具体分析,不能一味的使用逻辑变换。

根据因变量的取值不同,逻辑回归可以分为:
1.二分类逻辑回归
2.有序多分类逻辑回归
3.无序多分类逻辑回归
4.配对逻辑回归

二、模型估计方法

逻辑回归不能使用普通最小二乘估计,而使用极大似然估计,也可以使用迭代重加权最小二乘法IRLS(Iteratively Reweighted Least Squares)

使用极大似然估计的好处是,这是一种概率论在参数估计中的应用,正好和我们对因变量的概率预测相符合。

极大似然估计也是一种迭代算法,先确定一个似然函数,然后求出能使这一似然函数最大时的参数估计。它基于这样的思想:如果某些参数能使这个样本出现的概率最大,那就不用再去选择其他参数,干脆就把这个参数作为估计的真实值。

三、优势比odds
前面讲过,某种结果出现的概率和不出现(注意顺序,是出现/不出现)的概率之比称为优势比,简称OR。也称为比值比或发生比,两个OR进行比较时,结果和对应的概率比较结果一致,因此,OR是否大于1可以看出两种情况下发生的概率大小的比较。

四、逻辑回归系数的意义

1.常数项

表示自变量全部取0时,某事件发生和不发生概率之比(Y=1和Y=0)的对数值,在不同的研究中,常数项的具体含义不同,在函数图中,常数项只影响图像的水平位置,为正时,函数左移;为负时,函数右移,在大多数情况下,逻辑回归的常数项没有太大意义。

2.回归系数
回归系数决定函数走向,正回归系数使事件发生的概率随x增大而增大,负回归系数使事件的概率随x增大而减小。

自变量增加一个单位,使某事件发生的优势比增加ebj倍

因此,优势比也可以看做是变量对发生概率的影响程度。

五、模型的检验

1.Wald检验
Wald检验用于判断一个变量是否应该包含在模型中,在变量筛选时使用,通过比较β值来进行。当回归系数很大时,会导致Wald统计量变得很小,增加第二类错误的概率,因此当回归系数很大时,应该用似然比检验来代替Wald检验,并且Wald检验也没有考虑共线性的影响。

2.似然比检验(Likelihood Ratio Test)
似然比检验用来判断模型在总体上是否显著,也可在变量筛选时使用,也可以作为判断拟合优度的标准。

该方法通过比较包含于不包含某些自变量的两个模型的对数似然函数之差进行。先拟合不包含自变量x的逻辑模型并求对数似然值,再拟合包含自变量x的逻辑模型并求对数似然值,计算统计量

该统计量近似服从自由度为自变量个数的卡方分布

在对模型总体进行检验时,假设
H0:所有回归系数都等于0(等价于不包含任何变量)
H1:所有回归系数不全为0(等价于包含相应变量)

在筛选变量时,假设
H0:待检测变量的回归系数都等于0(等价于不包含待检测变量)
H1:待检测变量的回归系数都不等于0(等价于包含待检测变量)

3.比分检验
也称为拉格朗日乘子检验,常用来做变量筛选,也近似服从卡方分布

以上三种方法是渐近等价的,在大样本情况下,都渐近服从卡方分布,并且都是基于极大似然原理。三种检验似然比检验最为可靠,其次为比分检验,最后为Wald检验。

4.伪决定系数
“伪”表示与线性回归模型中的决定系数相区别,但是含义并无不同,逻辑回归中的决定系数并不会像线性模型中的回归系数那么大,通常大于0.5就可认为拟合度良好。
常用的两个伪决定系数为
(1)Cox&Snell R2

L0;零模型的似然,也就是模型只包含常数项时的似然
Lv:当前模型的似然,也就是包含自变量的模型的似然
K:样本容量

(2)Negelkerke R2

5.Akaike信息准则(AIC)

赤池信息准则是衡量拟合优度的常用标准,公式如下

其中K为模型中自变量的数目,S为反应变量类别总数减1,对于逻辑回归有S=2-1=1。-2LogL的值域为0-∞,其值越小说明拟合越好。当模型中的参数数量越大时,似然值也就越大,-2LogL就变小。因此,将2(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下,较小的AIC值表示拟合模型较好。

6.Schwarz准则(SC)
公式为

其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时,一个模型的AIC或SC值越小说明模型拟合越好。

7.Hosmer-Lemeshow检验
与一般的拟合优度检验不同,Hosmer-Lemeshow检验通常把数据分成10组,然后对每一组计算Pearson卡方,自由度则为组数减2,但是要注意该检验主要是检验预测值和观测值是否一致,越一致说明拟合越好,因此零假设为:预测值和观测值一致,而零假设不能拒绝的基础是P>α,所以一般来说P越大的话模型的拟合度较好,也可以直接看卡方值,也是越大拟合越好。

8.残差分析
除了分析逻辑回归方程的整体拟合度之外,对个体观测值的拟合程度也要加以分析,因为个别离群值也会影响整体的拟合优度,对单个观测值的分析主要是对其进行残差分析。如果残差过大,说明该观测值为异常点。

====================================================

介绍了逻辑回归共有的一些基本概念后,接下来讲一下每种逻辑回归

一、二分类逻辑回归

这是逻辑回归中最常见到的一种,特点为:
1.因变量为二分类变量
2.自变量与Logit(P)之间为线性关系
3.残差合计为0,并且服从二项分布

二分类逻辑回归中,自变量可以是连续变量、二分类变量和多分类变量,当自变量为多分类变量时,需要设置哑变量。实际上定性变量(包括二分类变量)都需要设置哑变量进行分析,只不过二分类变量数据的表现形式通常是0或1,和哑变量的形式一样,所以不用单独再设置。而多分类变量则不同,多分类的数据表现形式多为连续数字,如职业(工人=1,农民=2,商人=3,学生=4),这些数字表示类别而不是差别,如果直接进行分析的话,计算时会被认为等距变量,这是不合理的,因此需要使用哑变量进行处理哑变量也称为虚拟变量,引入哑变量的目的是将多分类自变量处理成为类似二分类变量的样子,从而进行分析。

哑变量的取值通常为0,1,0代表参照分类,1为比较分类,当观测值属于一个分类时,该哑变量就赋值为1,否则赋值为0

定义哑变量时要注意避免共线性,假设有k个分类,如果模型包含截距,需定义k-1个哑变量,如果模型不包含截距,需定义k个哑变量。

例如:收入分为低收入、中等收入、高收入三个分类,应该引入两个哑变量,将低收入设为参照水平,哑变量设为:

D11:高收入1,否则0
D12:中等收入1,否则0

通过哑变量转化之后,收入的三个类别就量化为:

低收入:0,0
中等收入:1,0
高收入:1,0

模型构造为:
Y=α+β1D112D12

二、有序多分类逻辑回归

有序多分类变量是指各因变量之间存在等级或程度差异,例如高、中、低,很喜欢、一般、不喜欢等。这些有序分类变量的测量尺度可以改变但是顺序和等级不能变。对于因变量为有序分类变量的数据,可以通过拟合因变量个数-1个的逻辑回归模型,称为累积逻辑模型来进行。这种方式实际上是依次将因变量按不同的取值水平分割成若干个二分类变量,然后再依次拟合二分类逻辑回归模型。

有序多分类逻辑回归有个假设条件是:无论如何分割因变量,分割后的这些二分类逻辑回归模型中对应的回归系数都相等,所改变的只是常数项,反映在函数图中就是函数图像形状相同,只是左右位置不同,这个假设称为平行线假设平行线假设的常用检验方法有得分检验、Wald检验、似然比检验等。

当平行线假设不满足时,又如何处理呢?大致有两种方法

1.更换连接函数
一般我们默认的连接函数是逻辑函数,但是当发现使用逻辑函数拟合无法满足平行线建设的时候,可以考虑更换此连接函数

2.使用无序多分类逻辑回归
在更换了多个连接函数仍然无法满足平行线假设,则可以考虑使用无序多分类逻辑回归方法。

三、无序多分类逻辑回归

无序多分类逻辑回归首先定义一个因变量的水平作为参照水平,其他水平与之相比,建立水平数-1个广义逻辑模型,最终的结果为两两比较的结果。

四、配对逻辑回归

也称为条件逻辑回归(因为观测值为配对条件下的自变量),适用于配对或分层设计收集的数据。分为1:1,1:m,n:m三种匹配。

配对逻辑回归中,分组因素的作用表现在常数项中,而非常数项则认为不随分组变化而变化,也就是说每种因素在不同的匹配组中作用相同。由于我们并不关心常数项的大小,因此在拟合的时候采用条件似然函数去除掉了常数项,使得最终的配对逻辑回归模型没有常数项。

logistic回归模型的更多相关文章

  1. 如何在R语言中使用Logistic回归模型

    在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或 ...

  2. SPSS数据分析—配对Logistic回归模型

    Lofistic回归模型也可以用于配对资料,但是其分析方法和操作方法均与之前介绍的不同,具体表现 在以下几个方面1.每个配对组共有同一个回归参数,也就是说协变量在不同配对组中的作用相同2.常数项随着配 ...

  3. SPSS数据分析—多分类Logistic回归模型

    前面我们说过二分类Logistic回归模型,但分类变量并不只是二分类一种,还有多分类,本次我们介绍当因变量为多分类时的Logistic回归模型. 多分类Logistic回归模型又分为有序多分类Logi ...

  4. SPSS数据分析—二分类Logistic回归模型

    对于分类变量,我们知道通常使用卡方检验,但卡方检验仅能分析因素的作用,无法继续分析其作用大小和方向,并且当因素水平过多时,单元格被划分的越来越细,频数有可能为0,导致结果不准确,最重要的是卡方检验不能 ...

  5. 机器学习笔记(四)Logistic回归模型实现

     一.Logistic回归实现 (一)特征值较少的情况 1. 实验数据 吴恩达<机器学习>第二课时作业提供数据1.判断一个学生能否被一个大学录取,给出的数据集为学生两门课的成绩和是否被录取 ...

  6. 机器学习笔记(三)Logistic回归模型

    Logistic回归模型 1. 模型简介: 线性回归往往并不能很好地解决分类问题,所以我们引出Logistic回归算法,算法的输出值或者说预测值一直介于0和1,虽然算法的名字有“回归”二字,但实际上L ...

  7. Softmax回归——logistic回归模型在多分类问题上的推广

    Softmax回归 Contents [hide] 1 简介 2 代价函数 3 Softmax回归模型参数化的特点 4 权重衰减 5 Softmax回归与Logistic 回归的关系 6 Softma ...

  8. 二分类Logistic回归模型

    Logistic回归属于概率型的非线性回归,分为二分类和多分类的回归模型.这里只讲二分类. 对于二分类的Logistic回归,因变量y只有“是.否”两个取值,记为1和0.这种值为0/1的二值品质型变量 ...

  9. SPSS分析技术:无序多元Logistic回归模型;美国总统大选的预测历史及预测模型

    SPSS分析技术:无序多元Logistic回归模型:美国总统大选的预测历史及预测模型 在介绍有序多元Logistic回归分析的理论基础时,介绍过该模型公式有一个非常重要的假设,就是自变量对因变量多个类 ...

随机推荐

  1. cordova 打包遇到的一些坑

    最近在打包cordova应用的时候遇到不少坑,还是记录下来,免得以后遇到又浪费时间 1.第一个是图片包含中文文字导致的,找了很久,偶然看到一篇文章,有截图如下,忘了哪篇了,不然甩个链接, ,所以下次编 ...

  2. JQuery + JSON作为前后台数据交换格式实践

    JQuery + JSON作为前后台数据交换 JQuery提供良好的异步加载接口AJAX,可以局部更新页面数据, http://api.jquery.com/category/ajax/ JSON作为 ...

  3. 搭建springmvc的步骤

    一定注意文件的层级关系 1.cope相关的jar包到web-inf/lib目录下,并添加到类路径中. 2.配置web.xml文件,配置前端控制器DisPatcherServlet <servle ...

  4. CsvHelper

    写66666行两个数字 用CsvHelper里的ExcelSerializer 400ms SaveAs 200ms 共600ms 直接用StreamWriter 150ms 行数可以超过65536 ...

  5. Webstorm的序列号和证书

    User Name: ------------name-------------- EMBRACE -------------name-------------- License Key: ===== ...

  6. jquery通过name,id名称获取当前value值

    name是input标签的属性值,jQuery提供了attr() 方法用于设置/改变属性值 $("input:text").attr("name");$(&qu ...

  7. Web应用程序项目以配置使用IIS。未找到Web服务器

    解决办法 右键编辑该Web项目的csproj文件 把UserIIS改为False.或者在IIS服务器里面配置一个IISUrl里面的地址 如图

  8. InnerJoin分页导致的数据重复问题排查

    2016年8月9号美好的七夕的早上,我精神抖擞地来到公司.一会之后,客服宅宅MM微信我,说一个VIP大店铺订单导出报表中一个订单有重复行.于是,我赶紧开始查探问题所在.经过一天的反复仔细追查(当然还包 ...

  9. Linux之保留yum安装软件后的RPM包

    yum安装软件很方便,但是下载下来的rpm包在安装后默认会被删除掉: 如果希望保留yum安装的软件包该如何做呢? 设置方法: 将/etc/yum.conf里对应的keepcache参数改为1即可,然后 ...

  10. UVA10561 Treblecross 组合游戏/SG定理

    Treblecross is a two player gamewhere the goal is to get three X in a row on a one-dimensional board ...