机器学习实战笔记5(logistic回归)
1:简单概念描写叙述
如果如今有一些数据点,我们用一条直线对这些点进行拟合(改线称为最佳拟合直线),这个拟合过程就称为回归。训练分类器就是为了寻找最佳拟合參数,使用的是最优化算法。
基于sigmoid函数分类:logistic回归想要的函数可以接受全部的输入然后预測出类别。这个函数就是sigmoid函数,它也像一个阶跃函数。其公式例如以下:
当中: z = w0x0+w1x1+….+wnxn,w为參数, x为特征
为了实现logistic回归分类器,我们能够在每一个特征上乘以一个回归系数,然后把全部的结果值相加,将这个总和结果代入sigmoid函数中,进而得到一个范围在0~1之间的数值。不论什么大于0.5的数据被分入1类,小于0.5的数据被归入0类。所以,logistic回归也能够被看成是一种概率预计。
梯度上升法:基于的思想是要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。
该公式将一直被迭代运行,直到达到某个停止条件为止,比方迭代次数达到某个指定值或者算法达到某个能够同意的误差范围。
2:python代码的实现
(1) 使用梯度上升找到最佳參数
- from numpy import *
- #载入数据
- def loadDataSet():
- dataMat = []; labelMat = []
- fr = open('testSet.txt')
- for line in fr.readlines():
- lineArr = line.strip().split()
- dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
- labelMat.append(int(lineArr[2]))
- return dataMat, labelMat
- #计算sigmoid函数
- def sigmoid(inX):
- return 1.0/(1+exp(-inX))
- #梯度上升算法-计算回归系数
- def gradAscent(dataMatIn, classLabels):
- dataMatrix = mat(dataMatIn) #转换为numpy数据类型
- labelMat = mat(classLabels).transpose()
- m,n = shape(dataMatrix)
- alpha = 0.001
- maxCycles = 500
- weights = ones((n,1))
- for k in range(maxCycles):
- h = sigmoid(dataMatrix*weights)
- error = (labelMat - h)
- weights = weights + alpha * dataMatrix.transpose() * error
- return weights
(2) 画出决策边界
- #画出决策边界
- def plotBestFit(wei):
- import matplotlib.pyplot as plt
- weights = wei.getA()
- dataMat, labelMat = loadDataSet()
- dataArr = array(dataMat)
- n = shape(dataArr)[0]
- xcord1 = []; ycord1 = []
- xcord2 = []; ycord2 = []
- for i in range(n):
- if int(labelMat[i]) == 1:
- xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
- else: xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
- fig = plt.figure()
- ax = fig.add_subplot(111)
- ax.scatter(xcord1, ycord1, s = 30, c = 'red', marker='s')
- ax.scatter(xcord2, ycord2, s = 30, c = 'green')
- x = arange(-3.0, 3.0, 0.1)
- y = (-weights[0]- weights[1]*x)/weights[2]
- ax.plot(x, y)
- plt.xlabel('X1');
- plt.ylabel('X2');
- plt.show()
(3) 随机梯度上升算法
梯度上升算法在处理100个左右的数据集时尚可,但假设有数十亿样本和成千上万的特征,那么该方法的计算复杂度就太高了。改进方法为随机梯度上升算法,该方法一次仅用一个样本点来更新回归系数。它占用更少的计算资源,是一种在线算法,能够在数据到来时就完毕參数的更新,而不须要又一次读取整个数据集来进行批处理运算。一次处理全部的数据被称为批处理。
- #随机梯度上升算法
- def stocGradAscent0(dataMatrix, classLabels):
- dataMatrix = array(dataMatrix)
- m,n = shape(dataMatrix)
- alpha = 0.1
- weights = ones(n)
- for i in range(m):
- h = sigmoid(sum(dataMatrix[i] * weights))
- error = classLabels[i] - h
- weights = weights + alpha * error * dataMatrix[i]
- return weights
(4) 改进的随机梯度上升算法
- #改进的随机梯度上升算法
- def stocGradAscent1(dataMatrix, classLabels, numInter = 150):
- dataMatrix = array(dataMatrix)
- m,n = shape(dataMatrix)
- weights = ones(n)
- for j in range(numInter):
- dataIndex = range(m)
- for i in range(m):
- alpha = 4 / (1.0+j+i) + 0.01 #alpha值每次迭代时都进行调整
- randIndex = int(random.uniform(0, len(dataIndex))) #随机选取更新
- h = sigmoid(sum(dataMatrix[randIndex] * weights))
- error = classLabels[randIndex] - h
- weights = weights + alpha * error * dataMatrix[randIndex]
- del[dataIndex[randIndex]]
- return weights
注意:主要做了三个方面的改进:<1>alpha在每次迭代的时候都会调整,这会缓解数据波动或者高频波动。<2>通过随机选取样本来更新回归系数,这样能够降低周期性波动<3>添加了一个迭代參数
3:案例—从疝气病症预測病马的死亡率
(1) 处理数据中缺失值方法:
可是对于类别标签丢失的数据,我们仅仅能採用将该数据丢弃。
(2) 案例代码
- #案例-从疝气病症预測病马的死亡率
- def classifyVector(inX, weights):
- prob = sigmoid(sum(inX*weights))
- if prob > 0.5: return 1.0
- else: return 0.0
- def colicTest():
- frTrain = open('horseColicTraining.txt')
- frTest = open('horseColicTest.txt')
- trainingSet = []; trainingLabels = []
- for line in frTrain.readlines():
- currLine = line.strip().split('\t')
- lineArr =[]
- for i in range(21):
- lineArr.append(float(currLine[i]))
- trainingSet.append(lineArr)
- trainingLabels.append(float(currLine[21]))
- trainWeights = stocGradAscent1(trainingSet, trainingLabels, 500)
- errorCount = 0; numTestVec = 0.0
- for line in frTest.readlines():
- numTestVec += 1.0
- currLine = line.strip().split('\t')
- lineArr = []
- for i in range(21):
- lineArr.append(float(currLine[i]))
- if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):
- errorCount += 1
- errorRate = (float(errorCount)/numTestVec)
- print 'the error rate of this test is: %f' % errorRate
- return errorRate
- def multiTest():
- numTests = 10;errorSum = 0.0
- for k in range(numTests):
- errorSum += colicTest()
- print 'after %d iterations the average error rate is: %f' %(numTests, errorSum/float(numTests))
4:总结
Logistic回归的目的是寻找一个非线性函数sigmoid的最佳拟合參数,求解过程能够由最优化算法来完毕。在最优化算法中,最经常使用的就是梯度上升算法,而梯度上升算法又能够简化为随机梯度上升算法。
随机梯度上升算法和梯度上升算法的效果相当,但占用更少的计算资源。此外,随机梯度是一种在线算法,能够在数据到来时就完毕參数的更新,而不须要又一次读取整个数据集来进行批处理运算。
注明:1:本笔记来源于书籍<机器学习实战>
2:logRegres.py文件及笔记所用数据在这下载(http://download.csdn.net/detail/lu597203933/7735821).
- 作者:小村长 出处:http://blog.csdn.net/lu597203933 欢迎转载或分享,但请务必声明文章出处。 (新浪微博:小村长zack, 欢迎交流!)
机器学习实战笔记5(logistic回归)的更多相关文章
- 《机器学习实战》-逻辑(Logistic)回归
目录 Logistic 回归 本章内容 回归算法 Logistic 回归的一般过程 Logistic的优缺点 基于 Logistic 回归和 Sigmoid 函数的分类 Sigmoid 函数 Logi ...
- 机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归 关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
- 机器学习实战笔记-k-近邻算法
机器学习实战笔记-k-近邻算法 目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结 本章介绍了<机器学习实战>这本书中的 ...
- 机器学习实战 - 读书笔记(05) - Logistic回归
解释 Logistic回归用于寻找最优化算法. 最优化算法可以解决最XX问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设计发动机使得油耗最少而功率最大? 我们可以看 ...
- 机器学习实战读书笔记(五)Logistic回归
Logistic回归的一般过程 1.收集数据:采用任意方法收集 2.准备数据:由于需要进行距离计算,因此要求数据类型为数值型.另外,结构化数据格式则最佳 3.分析数据:采用任意方法对数据进行分析 4. ...
- 机器学习实战笔记(Python实现)-04-Logistic回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
- 机器学习实战笔记(Python实现)-08-线性回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
- 机器学习实战笔记(Python实现)-09-树回归
---------------------------------------------------------------------------------------- 本系列文章为<机 ...
- 机器学习实战笔记-5-Logistic回归
Logistic回归 优缺点 适用范围 优点:计算代价不高,易于理解和实现. 缺点:容易欠拟合,分类精度可能不高. 适用于:数值型和标称型数据. 仅用于二分类 原理: 每个特征都乘以一个回归系数> ...
随机推荐
- C#中public、private、protected、internal、protected internal (转载)
在C#语言中,共有五种访问修饰符:public.private.protected.internal.protected internal.作用范围如下表:访问修饰符 说明public 公有访问.不受 ...
- ASP.NET中在线用户统计
统计在线用户的作用不言而喻,就是为了网站管理者可以知道当前用户的多少,然后根据用户数量来观察服务器或者程序的性能,从而可以直观的了解到网站的吸引力或者网站程序的效率.现在,我们就介绍一个简单明了的方法 ...
- WndProc函数(转)
WndProc函数作用: 主要用在拦截并处理系统消息和自定义消息 比如:windows程序会产生很多消息,比如你单击鼠标,移动窗口都会产生消息.这个函数就是默认的消息处理函数.你可以重载这个函数来制定 ...
- SQL Server链接MySQL实践
最近在访问多数据库的时候进行了SQLServer链接MySQL数据的实践,现总结如下: 一. 安装mysql-connector-odbc驱动: 1. 在SQL Server服务器的机器上安装mys ...
- jwplayer修改logo右键版权
jwplayer二次编译,可以自定义自己的logo和右键版权.
- JS文件中加载jquery.js
原文链接:http://blog.csdn.net/whatday/article/details/39553451 最近有一个需求: 1.在一个html中只能引入一个JS文件 不能有JS代码和其他J ...
- unity音频组件
unity 支持的四种音频格式: .AIFF 适用于较短的音乐文件可用作游戏打斗音效 .WAV 适用于较短的音乐文件可用作游戏打斗音效 .MP3 适用于较长的音乐文件可用作游戏背景音乐 .OGG ...
- g++实用技巧
查看代码文件包含了哪些头文件 g++ -M FileName
- LESSCSS
LESSCSS应需求而生 CSS 的语法相对简单,对使用者的要求较低,但同时也带来一些问题:CSS 需要书写大量看似没有逻辑的代码,不方便维护及扩展,不利于复用,尤其对于非前端开发工程师来讲,往往会因 ...
- Android Support Library package简介
转自http://my.oschina.net/chengliqun/blog/148451 N久未做android了,以前做的时候,2.2才刚出来,现在android都更新到了4.3了,而从前一段时 ...