回归分析是研究变量之间定量关系的一种统计学方法,具有广泛的应用。

Logistic回归模型

线性回归

先从线性回归模型开始,线性回归是最基本的回归模型,它使用线性函数描述两个变量之间的关系,将连续或离散的自变量映射到连续的实数域。

模型数学形式:

引入损失函数(loss function,也称为错误函数)描述模型拟合程度:

使J(w)最小,求解优化问题得到最佳参数。

Logistic回归

logistic回归(Logistic regression 或 logit regression)有时也被译为"逻辑回归",不过它和"逻辑"并没有太大关系应该只是音译。从内容来讲,它最合适的名字应该是logit回归。

logistic回归模型更多的被用于概率分类器中。线性回归将自变量映射到连续的实数,在很多情况下因变量的取值是在有限的区间中的,最常见的如概率问题的0-1区间。

Sigmod函数提供了一个从实数域到(0,1)的映射:

该函数如图:

以数学形式给出把线性模型映射到0-1的方式:

逆变换:

这个变换被称为logit变换,或许就是该模型名字的来源。

logistic回归通常被用做概率分类器,以p=0.5作为分解线。

求解规划模型

最小二乘法

最小二乘法通过数学推导得到全局最优解的表达式,是一种完全数学描述的方法,直接给出求解公式。

最小二乘法可以得到全局最优解,但是因涉及超大矩阵的求逆运算而难以求解。

梯度下降(上升)法:

梯度下降法是一种典型的贪心算法,它从任意一组参数开始,向着使目标函数最小的方向调整参数,直至无法使目标函数继续下降时,停止计算。

多元函数微积分中, 梯度指向函数值变化最快方向的向量. 梯度下降法无法保证的得到全局最优解

梯度下降法有批量梯度下降法和随机梯度下降法两种实现方法。

批量梯度下降(上升)法(Batch Gradient Descent/Ascent)

批量梯度下降法的算法流程:

  1. 初始化回归系数为1
  2. 重复执行直至收敛
  3. 计算整个数据集的梯度
  4. 按照递推公式更新回归梯度

  5. 返回最优回归系数值

将损失函数J(w)求偏导,得到J(w)的梯度。以矩阵形式给出:

alpha是下降步长,由迭代公式:

随机梯度下降(上升)法(stochastic gradient Descent/Ascent)

随机梯度下降法的算法流程:

  1. 初始化回归系数为1
  2. 重复执行直至收敛
  3. 对每一个训练样本{
  4. 计算样本的梯度
  5. 按照递推公式更新回归梯度


  6. 返回最优回归系数值

为了加快收敛速度,做出两个改进:

(1)在每次迭代时,调整更新步长alpha的值。随着迭代的进行,alpha越来越小

(2)每次迭代改变样本的顺序,也就是随机选择样本来更新回归系数

Logistic 回归的实现

训练数据testSet.txt,包含m行n+1列:

m行代表m条数据,每条数据前n列代表n个样本,第n+1列代表分类标签(0或1)。

Python:

分类器被封装在类中:

  1. from numpy import *
  2. import matplotlib.pyplot as plt
  3. def sigmoid(X):
  4. return 1.0/(1+exp(-X))
  5. class logRegressClassifier(object):
  6. def __init__(self):
  7. self.dataMat = list()
  8. self.labelMat = list()
  9. self.weights = list()
  10. def loadDataSet(self, filename):
  11. fr = open(filename)
  12. for line in fr.readlines():
  13. lineArr = line.strip().split()
  14. dataLine = [1.0]
  15. for i in lineArr:
  16. dataLine.append(float(i))
  17. label = dataLine.pop() # pop the last column referring to label
  18. self.dataMat.append(dataLine)
  19. self.labelMat.append(int(label))
  20. self.dataMat = mat(self.dataMat)
  21. self.labelMat = mat(self.labelMat).transpose()
  22. def train(self):
  23. self.weights = self.stocGradAscent1()
  24. def batchGradAscent(self):
  25. m,n = shape(self.dataMat)
  26. alpha = 0.001
  27. maxCycles = 500
  28. weights = ones((n,1))
  29. for k in range(maxCycles): #heavy on matrix operations
  30. h = sigmoid(self.dataMat * weights) #matrix mult
  31. error = (self.labelMat - h) #vector subtraction
  32. weights += alpha * self.dataMat.transpose() * error #matrix mult
  33. return weights
  34. def stocGradAscent1(self):
  35. m,n = shape(self.dataMat)
  36. alpha = 0.01
  37. weights = ones((n,1)) #initialize to all ones
  38. for i in range(m):
  39. h = sigmoid(sum(self.dataMat[i] * weights))
  40. error = self.labelMat[i] - h
  41. weights += (alpha * error * self.dataMat[i]).transpose()
  42. return weights
  43. def stocGradAscent2(self):
  44. numIter = 2
  45. m,n = shape(self.dataMat)
  46. weights = ones((n,1)) #initialize to all ones
  47. for j in range(numIter):
  48. dataIndex = range(m)
  49. for i in range(m):
  50. alpha = 4/(1.0+j+i)+0.0001 #apha decreases with iteration, does not
  51. randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant
  52. h = sigmoid( sum(self.dataMat[randIndex] * weights) )
  53. error = self.labelMat[randIndex] - h
  54. weights += (alpha * error * self.dataMat[randIndex]).transpose()
  55. del(dataIndex[randIndex])
  56. return weights
  57. def classify(self, X):
  58. prob = sigmoid(sum( X * self.weights))
  59. if prob > 0.5:
  60. return 1.0
  61. else:
  62. return 0.0
  63. def test(self):
  64. self.loadDataSet('testData.dat')
  65. weights0 = self.batchGradAscent()
  66. weights1 = self.stocGradAscent1()
  67. weights2 = self.stocGradAscent2()
  68. print('batchGradAscent:', weights0)
  69. print('stocGradAscent0:', weights1)
  70. print('stocGradAscent1:', weights2)
  71. if __name__ == '__main__':
  72. lr = logRegressClassifier()
  73. lr.test()

Matlab

上述Python代码用Matlab实现并不难(只是需要拆掉类封装),只是Matlab的广义线性模型工具箱提供了Logistic模型的实现。

  1. trainData = [0 1; -1 0; 2 2; 3 3; -2 -1;-4.5 -4; 2 -1; -1 -3];
  2. group = [1 1 0 0 1 1 0 0]';
  3. testData = [5 2;3 1;-4 -3];
  4. [testNum, attrNum] = size(testData);
  5. testData2 = [ones(testNum,1), testData];
  6. B = glmfit(trainData, [group ones(size(group))],'binomial', 'link', 'logit')
  7. p = 1.0 ./ (1 + exp(- testData2 * B))

B = glmfit(X, [Y N],'binomial', 'link', 'logit')

X参数为特征行向量组, Y为代表预先分组的列向量,N是一个与Y同型的向量,Y(i)的在[0 N(i)]范围内取值。

B为[1, x1, x2,...]的系数,测试数据的第一列被加上了1。

p = 1.0 ./ (1 + exp(- testData2 * B))

代入sigmoid函数求解。

Logistic回归模型和Python实现的更多相关文章

  1. 【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】(Python版)

    目录 Logistic回归原理 Logistic回归代码(Spark Python) Logistic回归原理 详见博文:http://www.cnblogs.com/itmorn/p/7890468 ...

  2. 【机器学习速成宝典】模型篇03逻辑斯谛回归【Logistic回归】(Python版)

    目录 一元线性回归.多元线性回归.Logistic回归.广义线性回归.非线性回归的关系 什么是极大似然估计 逻辑斯谛回归(Logistic回归) 多类分类Logistic回归 Python代码(skl ...

  3. Logistic回归 python实现

    Logistic回归 算法优缺点: 1.计算代价不高,易于理解和实现2.容易欠拟合,分类精度可能不高3.适用数据类型:数值型和标称型 算法思想: 其实就我的理解来说,logistic回归实际上就是加了 ...

  4. Logistic回归python实现小样例

    假设现在有一些点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,依次进行分类.Lo ...

  5. 逻辑回归模型(Logistic Regression)及Python实现

    逻辑回归模型(Logistic Regression)及Python实现 http://www.cnblogs.com/sumai 1.模型 在分类问题中,比如判断邮件是否为垃圾邮件,判断肿瘤是否为阳 ...

  6. Logistic回归python实现

    2017-08-12 Logistic 回归,作为分类器: 分别用了梯度上升,牛顿法来最优化损失函数: # -*- coding: utf-8 -*- ''' function: 实现Logistic ...

  7. 吴裕雄--天生自然python机器学习:使用Logistic回归从疝气病症预测病马的死亡率

    ,除了部分指标主观和难以测量外,该数据还存在一个问题,数据集中有 30%的值是缺失的.下面将首先介绍如何处理数据集中的数据缺失问题,然 后 再 利 用 Logistic回 归 和随机梯度上升算法来预测 ...

  8. 吴裕雄--天生自然python机器学习:Logistic回归

    假设现在有一些数据点,我们用 一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类 ...

  9. 机器学习实战之Logistic回归

    Logistic回归一.概述 1. Logistic Regression 1.1 线性回归 1.2 Sigmoid函数 1.3 逻辑回归 1.4 LR 与线性回归的区别 2. LR的损失函数 3. ...

随机推荐

  1. 【iCore3双核心板】iCore3双核心板使用说明(图文)

    1.iCore3供电.程序下载线路连接示意图(使用iTool2) 2.iCore3供电.程序下载线路连接示意图(使用J-link和Blaster) 3.iCore3供电.读U盘线路连接示意图

  2. Windows2003中IIS的安全设置技巧

    在Windows Server 2003中对于IIS的安全设置具有十分重要的意义,所以掌握IIS安全设置的六大技巧是一个网管员必备的基本技能.下面就是对IIS的安全设置的六大技巧. 技巧1.安装系统补 ...

  3. CSS权威指南 - 基础视觉格式化 3

    行内替换元素 替换元素比如图片的高度比line-height大,并不会影响整个文字段落的line-height,会让有图片那一行框的高度可以容纳这个图片. 这个图片依然有一个line-height,和 ...

  4. CSS成长之路----知识点篇

    一,ul--li列表水平排列,切居中对齐 主要是利用Li标签中的display属性.设置为display:inline,使li纵向排布,且能够使用text-align:center;使其居中显示 HT ...

  5. <构建之法> 第四章 结对 读后感

    粗读 第四章主要讲的是关于结对合作的事项.大多数的软件开发都是团体性的,而合作的最小单位也就是两个人,这也是软件开发中的最佳实践.而结对中,我们能够更好的编写我们的代码,能够少一些担心,对自己的代码也 ...

  6. android.util.Base64结尾加\n的问题

    测试代码,String data,String key. SecretKeySpec signingKey = new SecretKeySpec(key.getBytes(), HMAC_SHA1_ ...

  7. jQuery ajax 返回的数据类型

    请求数据的接口信息如下 当我们打印出返回的数据与数据节点时,我们发现数据节点显示为undefind 查看一下我们的代码 $.ajax({ type: "Post", url: &q ...

  8. Sql Server批量删除指定表

    --批量删除以test的表开头的表 declare @name varchar(50) while(exists(select * from sysobjects where name like te ...

  9. Python之路-python(装饰器、生成器、迭代器、Json & pickle 数据序列化、软件目录结构规范)

    装饰器: 首先来认识一下python函数, 定义:本质是函数(功能是装饰其它函数),为其它函数添加附件功能        原则:        1.不能修改被装饰的函数的源代码.        2.不 ...

  10. 用jQuery实现限制输入字数的文本框

    1.导入外部.js文件: <script src="js/jquery-1.8.3.js" type="text/javascript"></ ...