Logistic回归小结

1.梯度上升优化

1). 伪代码：

所有回归系数初始化为1-------------------weights = ones((colNum,1))

重复r次：

　　计算整个数据集的梯度gradient

　　使用alpha*gradient更新回归系数的向量

　　返回回归系数weights

2). 迭代r次的代码：

for k in range(r):              #heavy on matrix operations

        h = sigmoid(dataMatrix*weights)     #matrix mult

        error = (labelMat - h)              #vector subtraction

        weights = weights + alpha * dataMatrix.transpose()* error #matrix mult

2.随机梯度上升

梯度上升算法每次更新回归系数都要遍历整个数据集（批处理），样本集数十亿时复杂度相当高。

一种改进方法是一次仅用一个样本点来更新回归系数（在线学习），该方法称为“随机梯度上升算法”。

1). 伪代码：

　　所有回归系数初始化为1

　　对数据集中每个样本：

　　　　计算该样本梯度gradient

　　　　使用alpha*gradient更新回归系数的向量

　　返回回归系数weights

2). 用每个样本点更新回归系数代码：

for i in range(m):

        h = sigmoid(sum(dataMatrix[i]*weights))

        error = classLabels[i] - h

        weights = weights + alpha * error * dataMatrix[i]

3. 1与2比较：

1加载的是列表，用numpy.mat()转成矩阵计算，计算中是向量运算。2加载数据时就已通过numpy.array()转换列表数据为数组数据类型，计算中是数值运算。

4. 改进随机梯度上升

一种判断优化算法优劣的可靠方法是看它是否收敛，也就是说参数是否达到了稳定值，是否还会不断变化。

将2在整个数据集运行200次，绘制出X0，X1，X2三个回归系数的变化情况。发现1）系数2较快达到稳定值，2）大波动停止后，还有周期性小波动，原因是存在一些不能正确分类的样本点（数据及非线性可分），在每次迭代时引发系数剧烈改变。

期望改进：1）避免来回波动，从而收敛到某个值；2）加快收敛速度

改进随机梯度上升算法更新回归系数代码：

for j in range(numIter):

        dataIndex = range(m)

        for i in range(m):

            alpha = 4/(1.0+j+i)+0.0001    #apha decreases with iteration, does not

            randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant

            h = sigmoid(sum(dataMatrix[randIndex]*weights))

            error = classLabels[randIndex] - h

            weights = weights + alpha * error * dataMatrix[randIndex]

            del(dataIndex[randIndex])

改进之处：

1）alpha = 4/(1.0+j+i)+0.0001，alpha在每次迭代中都会作调整，缓解数据波动或高频波动。alpha每次减少1/(j+i)，j是迭代次数，i表示本次迭代中第i个选出来的样本，当j<<max(i)时，alpha就不是严格下降的。类似模拟退火等其他优化算法中避免参数严格下降。另alpha永远不会减小到0，因为存在常数项，保证在多次迭代后新数据仍有影响。如要处理的问题是动态变化，可适当加大上述常数项，确保新值获得更大回归系数。

2）通过随机选取样本更新回归系数，减小周期波动。这种方法每次随机从列表中选出一个值，然后从列表删除改值（再进行下次迭代）。

效果：与梯度上升分割数据效果差不多，但迭代次数远小于后者，前者20次，后者500次。另系数周期性波动有缓解。

5.画图

Andrew Ng在Cousera ML课中用Octave绘制Decision Boundary，本节中用python matplot实现相同分隔线绘制。本节中还有参数在迭代中变化情况的绘制。

6.数据预处理

数据集来自UCI机器学习数据库http://archive.ics.uci.edu/ml/datasets/Horse+Colic。该数据集有的指标比较主观，有的难以测量（如疼痛程度等）。另数据集有30%数据缺失。

比较用Pandas，R，和Excel处理数据集中缺失值，Excel处理如此次数据量不大、结构不复杂的数据集较为方便。

用Excel将数据集保存为文本分隔文件，缺失值全部用0替换，NumPy数据类型不允许包含缺失值。选择0来替换，恰好适用于Logistic回归。回归系数更新公式如下：

weights = weights + alpha * error * dataMatrix[randIndex]

如果dataMatrix某个特征对应值为0，那么系数将不做更新。

Logistic回归小结的更多相关文章

Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
第五章：Logistic回归
本章内容 □sigmod函数和logistic回归分类器 □最优化理论初步□梯度下降最优化算法□数据中的缺失项处理这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常 ...
机器学习实践之Logistic回归
关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2017年12月17日 19:18:31所撰写内容(http://blog.cs ...
第七篇：Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
Logistic回归python实现小样例
假设现在有一些点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,依次进行分类.Lo ...
【4】Logistic回归
前言 logistic回归的主要思想:根据现有数据对分类边界建立回归公式,以此进行分类所谓logistic,无非就是True or False两种判断,表明了这其实是一个二分类问题我们又知道回归就 ...
吴裕雄--天生自然python机器学习：使用Logistic回归从疝气病症预测病马的死亡率
,除了部分指标主观和难以测量外,该数据还存在一个问题,数据集中有 30%的值是缺失的.下面将首先介绍如何处理数据集中的数据缺失问题,然后再利用 Logistic回归和随机梯度上升算法来预测 ...
[机器学习实战-Logistic回归]使用Logistic回归预测各种实例
目录本实验代码已经传到gitee上,请点击查收! 一.实验目的二.实验内容与设计思想实验内容设计思想三.实验使用环境四.实验步骤和调试过程 4.1 基于Logistic回归和Sigmoid ...
神经网络、logistic回归等分类算法简单实现
最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词.看完后有一些自己的小想法,也想做一个玩儿一玩儿.用到的原理是深度学习里 ...

随机推荐

[充电][库]Zlib文件压缩和解压
原文链接: http://www.cnblogs.com/fairycao/archive/2009/12/09/1620414.html 开源代码:http://www.zlib.net/zlib使 ...
关于在官网上查看和下载特定版本的webrtc代码
注:这个方法已经不适用了,帖子没删只是留个纪念而已 gclient:如果不知道gclient是什么东西 ... 就别再往下看了. 下载特定版本的代码: #gclient sync --revision ...
EasyUI关于 numberbox,combobox,validatebox 的几个小问题
在最近的项目中,首次使用到了网页的一个布局框架——EasyUI,感觉这个框架特别牛,兼容性很不错,页面效果也挺不错,可是在使用标题上三个控件过程中遇到几个很奇特的问题,让我头疼不已,所以在此给广大I ...
C语言面试题（三）
这篇主要聚焦在排序算法,包括常见的选择排序,插入排序,冒泡排序,快速排序.会对这四种排序的时间复杂度和空间复杂度进行探究. a.选择排序 int main(int argc,char **argv){ ...
【java】定时器
总结 1.执行计划的任务放在TimerTask的子类中,由Timer进行该任务. 2.创建一个Timer就是启动一个新的线程,直至Timer里的任务执行完毕,才会结束.希望创建的线程为守护线程,则创建 ...
java编写一个可以上下移动的小球：运行后，可以通过上下左右键进行移动
/* * 功能:加深对事件处理机制的理解 * 1.通过控制上下左右键,来控制一个小球的位置 */package com.test1;import java.awt.*;import javax.swi ...
《BI那点儿事》数据流转换——审核
审核转换允许对数据流添加审核审核数据,以往使用HIPPA和Sarbanes-Oxley (SOX)时,必须跟踪谁在什么时插入数据,审核转换可以实现这种功能.例如要跟踪那一个task向表里插入数据,可以 ...
Spring Boot工程发布到Docker
先聊聊闲话搞过企业级的application运维的同仁肯定深有感触,每个application的功能交叉错杂,数据交换就让人焦头烂额(当然这和顶层业务设计有关系), 几十个application发布 ...
bootstrap笔记-布局
1.通过文本对齐类,可以简单方便的将文字重新对齐. <p class="text-left">Left aligned text.</p> <p cl ...
CentOS 6.x 一键安装PPTP VPN脚本
环境 CentOS 6.x 32位/64位XEN/KVM/OpenVZ 步骤依次运行下列命令 #wget http://www.hi-vps.com/shell/vpn_centos6.sh #ch ...

Logistic回归小结

Logistic回归小结的更多相关文章

随机推荐

热门专题