机器学习实战--logistic回归

 #encoding:utf-8

 from numpy import *

 def loadDataSet():  #加载数据

     dataMat = [];

     labelMat = []

     fr = open('testSet.txt')

     for line in fr.readlines():

         lineArr = line.strip().split()

         dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])

         labelMat.append(int(lineArr[2]))

     return dataMat, labelMat

 def sigmoid(inX):    #得到sigmoid函数值

     return 1.0 / (1 + exp(-inX))

 def gradAscent(dataMatIn, classLabels):

     dataMatrix = mat(dataMatIn)  # 转化为numpy矩阵

     labelMat = mat(classLabels).transpose()  # 转化为numpy矩阵，并转置

     m, n = shape(dataMatrix)

     alpha = 0.001

     maxCycles = 500

     weights = ones((n, 1))

     for k in range(maxCycles):  # 迭代maxCycles次   梯度上升算法

         h = sigmoid(dataMatrix * weights)

         error = (labelMat - h)

         weights = weights + alpha * dataMatrix.transpose() * error  # 为什么这么做？参考附件，或者http://download.csdn.net/detail/lewsn2008/6547463，总结的非常好

     return weights

 def plotBestFit(weights):   #画出数据集和最佳拟合曲线

     import matplotlib.pyplot as plt

     dataMat, labelMat = loadDataSet()

     dataArr = array(dataMat)

     #weights = weights.getA()

     n = shape(dataArr)[0]

     xcord1 = [];

     ycord1 = []

     xcord2 = [];

     ycord2 = []

     for i in range(n):

         if int(labelMat[i]) == 1:

             xcord1.append(dataArr[i, 1]);

             ycord1.append(dataArr[i, 2])

         else:

             xcord2.append(dataArr[i, 1]);

             ycord2.append(dataArr[i, 2])

     fig = plt.figure()

     ax = fig.add_subplot(111)

     ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')

     ax.scatter(xcord2, ycord2, s=30, c='green')

     x = arange(-3.0, 3.0, 0.1)

     y = (-weights[0] - weights[1] * x) / weights[2]

     ax.plot(x, y)

     plt.xlabel('X1');

     plt.ylabel('X2');

     plt.show()

 # 梯度上升算法在每次更新回归系数时都需要遍历整个数据集，

 # 该方法在处理100个左右的数据集尚可，但如果数据量增大，那该方法的计算量就太大了，

 # 有一种改进方法是一次仅用一个样本点来更新回归系数，该方法称为随机梯度上升算法，

 # 由于可以在新样本到来时对分类器进行增量式更新，因而随机梯度上升算法是一个在线学习算法。

 def stocGradAscent0(dataMatrix, classLabels):   #随机梯度上升算法

     m, n = shape(dataMatrix)

     alpha = 0.01

     weights = ones(n)  # initialize to all ones

     for i in range(m):

         h = sigmoid(sum(dataMatrix[i] * weights))

         error = classLabels[i] - h

         weights = weights + alpha * error * dataMatrix[i]

     return weights

 def useStocGradAscent0():    #测试随机梯度上升算法

     dataMat, labelMat = loadDataSet()

     weights = stocGradAscent0(array(dataMat), labelMat)

     plotBestFit(weights)

 def useStocGradAscent1():    #测试改进的随机梯度上升算法

     dataMat, labelMat = loadDataSet()

     weights = stocGradAscent1(array(dataMat), labelMat)

     plotBestFit(weights)

 def stocGradAscent1(dataMatrix, classLabels, numIter=150):   #改进的随机梯度上升算法

     m, n = shape(dataMatrix)

     weights = ones(n)

     for j in range(numIter):

         dataIndex = range(m)

         for i in range(m):

             alpha = 4 / (1.0 + j + i) + 0.0001  # alpha每次调整

             randIndex = int(random.uniform(0, len(dataIndex)))  # 随机选取更新

             h = sigmoid(sum(dataMatrix[randIndex] * weights))

             error = classLabels[randIndex] - h

             weights = weights + alpha * error * dataMatrix[randIndex]

             del (dataIndex[randIndex])

     return weights

 def classifyVector(inX, weights):   #得到类别

     prob = sigmoid(sum(inX * weights))

     if prob > 0.5:

         return 1.0

     else:

         return 0.0

 def colicTest():

     frTrain = open('horseColicTraining.txt');   #读取文件

     frTest = open('horseColicTest.txt')

     trainingSet = [];

     trainingLabels = []

     for line in frTrain.readlines():

         currLine = line.strip().split('\t')

         lineArr = []

         for i in range(21):

             lineArr.append(float(currLine[i]))

         trainingSet.append(lineArr)

         trainingLabels.append(float(currLine[21]))

     trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000)  #用改进的随机梯度上升法训练

     errorCount = 0;

     numTestVec = 0.0

     for line in frTest.readlines():

         numTestVec += 1.0

         currLine = line.strip().split('\t')

         lineArr = []

         for i in range(21):

             lineArr.append(float(currLine[i]))

         if int(classifyVector(array(lineArr), trainWeights)) != int(currLine[21]):    #对测试集分类，并判断是否正确

             errorCount += 1

     errorRate = (float(errorCount) / numTestVec)

     print "the error rate of this test is: %f" % errorRate

     return errorRate

 def multiTest():   #测试

     numTests = 10;

     errorSum = 0.0

     for k in range(numTests):

         errorSum += colicTest()

     print "after %d iterations the average error rate is: %f" % (numTests, errorSum / float(numTests))

 if __name__ == '__main__':

     # dataMat, labelMat = loadDataSet()

     # plotBestFit(gradAscent(dataMat, labelMat).getA())

     #useStocGradAscent1()

     multiTest()

附件：http://files.cnblogs.com/files/yzwhykd/Logistic%E5%9B%9E%E5%BD%92%E6%80%BB%E7%BB%93.pdf

机器学习实战--logistic回归的更多相关文章

[机器学习实战-Logistic回归]使用Logistic回归预测各种实例
目录本实验代码已经传到gitee上,请点击查收! 一.实验目的二.实验内容与设计思想实验内容设计思想三.实验使用环境四.实验步骤和调试过程 4.1 基于Logistic回归和Sigmoid ...
机器学习实战-logistic回归分类
基于LR的回归分类实例概念前提理解: 机器学习的三个步骤:模型,损失函数(即样本误差),优化求解(通过损失函数,使得模型的样本误差最小或小于阈值,求出满足条件的参数,优化求解包括:最小二乘法,梯度 ...
机器学习实战 logistic回归 python代码
# -*- coding: utf-8 -*- """ Created on Sun Aug 06 15:57:18 2017 @author: mdz "&q ...
机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...
机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...
机器学习5—logistic回归学习笔记
机器学习实战之logistic回归 test5.py #-*- coding:utf-8 import sys sys.path.append("logRegres.py") fr ...
机器学习笔记—Logistic回归
本文申明:本系列笔记全部为原创内容,如有转载请申明原地址出处.谢谢序言:what is logistic regression? Logistics 一词表示adj.逻辑的;[军]后勤学的n.[逻] ...
机器学习笔记—Logistic 回归
前面我们介绍了线性回归,为捕获训练集中隐藏的线性模型,提高预测准确率,我们寻找最佳参数 θ,使得预测值与真实值误差尽量小,也就是使均方误差最小.而经过验证,最小均方误差是符合最大似然估计理论的. 在 ...
机器学习基础-Logistic回归1
利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 训练分类器时的做法就是寻找最佳拟合参数,使用的时最优化算法. 优点:计算代价不高,利于理解和实现. ...

随机推荐

我理解的OAuth 1.0a 的验证过程
故事梗概: 淘宝店主糖糖在京郊仓库存了一批大白兔奶糖,为了防止仓库钥匙被偷把仓库的钥匙交给了专业的钥匙保管员公司. 糖糖卖了一斤大白兔需要快递公司的小迪送货.快递员小迪找钥匙保管公司借钥匙,然后去京郊 ...
ViewPager的使用小技巧
1.在ViewPager中默认加载当前屏幕上的界面和左右相邻界面的数据从而实现页面滑动的快速切换.可以通过调用setOffscreenPageLimit(int)方法,定制预加载相邻页面的数目. 2. ...
给view添加类似系统上拉快捷菜单的手势
iOS7以后从屏幕最下方上划会滑出快捷菜单,感觉这个效果不错,就想做个类似的效果,这个东西技术含量不高,每次都写一遍的话就太浪费时间了,所以就把它写成了一个分类,用起来会方便一点. demo地址:ht ...
App 即时通讯 SDK
1.网易云信 http://netease.im/ 2.环信 http://www.easemob.com/customer/im 3.融云 http://www.rongcloud.cn/ 4.极光 ...
让UILabel的文字顶部对齐
参考资料 http://stackoverflow.com/questions/1054558/how-do-i-vertically-align-text-within-a-uilabel 方法一 ...
区别和详解：js中call()和apply()的用法
1.关于call()和apply()的疑点: apply和call的区别在哪里什么情况下用apply,什么情况下用call apply的其他巧妙用法(一般在什么情况下可以使用apply) 2.语法和 ...
javascript中，对于this指向的浅见
# this的指向在函数创建的时候确定不了.只有在执行的时候,才可以确定. ## 1 . 这里的this指向window window.fn(); 所以this.user是undefined func ...
驳 GarbageMan 的《一个超复杂的简介递归》——对延迟计算的实验和思考
这是一篇因骂战而起的博文,GarbageMan 在该文章回复中不仅对我进行了侮辱,还涉及了我的母校,特写此文用理性的分析和实验予以回击. 在此也劝告 GarbageMan,没什么本事就别在那叫嚣了,还 ...
go sync.Mutex 设计思想与演化过程（一）
go语言在云计算时代将会如日中天,还抱着.NET不放的人将会被淘汰.学习go语言和.NET完全不一样,它有非常简单的runtime 和类库.最好的办法就是将整个源代码读一遍,这是我见过最简洁的系统类 ...
用SQL语句建库建表建约束(用SQl语句在指定盘符创建文件夹)
一 :创建数据库创建一个数据文件和一个日志文件(MySchool) create database MySchoolon primary --默认属于primary主文件组,可省略(--数 ...

机器学习实战--logistic回归

机器学习实战--logistic回归的更多相关文章

随机推荐

热门专题