机器学习(1)：Logistic回归原理及其实现

Logistic回归是机器学习中非常经典的一个方法，主要用于解决二分类问题，它是多分类问题softmax的基础，而softmax在深度学习中的网络后端做为常用的分类器，接下来我们将从原理和实现来阐述该算法的思想。

1.原理

a.问题描述

考虑二分类问题，利用回归的思想，拟合特征向量到类别标签的回归,从而将分类问题转化为回归问题，通常通过引入Logistic平滑函数实现。

假设已知训练样本集\(D\)的\(n\)个样本\(\{(x_{i},t_{i})| i=1,...,n\}\) ，其中\(t_{i}\in \left \{ 0,1 \right \}\) 为类别标签，\(x_{i} \in R^{d}\) 为特征向量。

b.Logistic函数

Logistic回归需要用到一个重要的Logistic函数，又称为Sigmod函数，Logistic的重要作用就是通过它建立了特征和类别概率的拟合关系，其形式如下：

\(f\left ( x \right )=\frac{1}{1+exp(-x)}\)

对应的图如下所示：

Logistic函数具有以下两个重要的性质：

i: \(f(-x)=1-f(x)\)

ii: \({f}'(x)=f(x)f(-x)=f(x)(1-f(x))\)

c.目标函数

根据Logistic函数，Logistic回归的回归函数为

\(g(x)=\frac{1}{1+exp(w^{\mathit{T}}x)}\)

其中\(w\) 为回归参数。

我们使用到极大似然估计法，因此需要构造关于每个已知样本 \(\left ( x_{i},t_{i} \right )\)的概率密度：

\(P(x_{i},t_{i};w)=\left\{\begin{matrix}
g(x_{i}),t_{i}=1 &\\
1-g(x_{i}),t_{i}=0 &
\end{matrix}\right.=g(x_{i})^{t_{i}}g(x_{i})^{(1-t_{i})}\)

可进一步表示为：

\(P(x_{i},t_{i};w)=g(x_{i})^{t_{i}}(1-g(x_{i})^{(1-t_{i})}\)

有了以上的定义，我们的目标是希望通过寻找合适的\(w\)，使得每个样本点的似然概率最大，因此接下来就是构造似然函数，然后通过似然函数构造目标函数。

似然函数的构造的思路是假设样本独立前提下，期望每个样本的似然概率最大，换句话而言就是期望所有样本的似然概率乘积最大，即：

\(p(D|w)=\prod_{i=1}^{n}g(x_{i})^{t_{i}}(1-g(x_{i})^{(1-t_{i})}\)

以上乘积通常求导数非常的困难，容易引入关联的变量，通常通过取负对数（-ln）来将乘积转化为求和，以及最大化转化为最小化形式（最优化问题通常转化为最小化问题），因此上述问题可转化为：

\(E(w)=-\left [ \sum_{i=1}^{n} t_{i}ln(g(x_{i})+(1-t_{i})ln(1-g(x_{i}) \right ]\)

以上公式即为目标函数了。

d.优化算法

该优化问题采用Newton-Raphson迭代优化，迭代公式为：

\(w^{new}=w^{old}-\mathbf{H}^{-1}\triangledown E(w)\)

其中\(\mathbf{H}\)为\(E(w)\) 关于\(w\)的二阶导数矩阵。

\(\triangledown E(w)=\sum_{i=1}^{n}(y_{i}-t_{i})x_{i}=\mathbf{X}^{T}(\mathbf{y}-\mathbf{t})\)

\(\mathbf{H}=\triangledown\triangledown E(w)=\sum_{i=1}^{n}y_{i}(y_{i}-t_{i})x_{i}x_{i}^{T}=\mathbf{X}^{T}\mathbf{A}\mathbf{X}\)

其中\(\mathbf{A}\)为正定矩阵，即：

\(\mathbf{A}=\begin{bmatrix}
g(x_1)(1-g(x_1)) & 0 & \cdots & 0\\
0 & g(x_2)(1-g(x_2)) & \cdots & 0\\
\cdots & \cdots & \ddots & \cdots\\
0 & 0 & \cdots & g(x_n)(1-g(x_n))
\end{bmatrix}\)

由于\(\mathbf{A}\)为正定，因此\(\mathbf{H}\)也为正定矩阵。注意，\(g(x_i)\)的计算基于上一次的估计参数\(w^{old}\)来代入Logisti回归函数求解。

2.实现

我们举一个例子，并通过python编程求解它。问题描述为：一门考试,20位考生花费0~6小时备考。现在希望获悉备考时长与是否通过考试的关系，数据如下表格所示：

数据的解释变量仅仅为1维的学习时间,回归参数为2维向量。拟合的结果为：

\(g(time)=\frac{1}{1+exp(1.5046\cdot time-4.0777)}\)

拟合的效果图如下所示：

\(w\)迭代的梯度变化非常快，五次就能达到非常好的结果，如下所示：

[ 4.54704357]

[ 0.19111694]

[ 0.2380104]

[ 0.01743344]

[  8.45306379e-05]

[  1.95907862e-09]

[  1.90137901e-16]

[  1.90137901e-16]

[  1.90137901e-16]

[  1.90137901e-16]

我们使用了python实现Logistic回归，注意：我们这里对\(\mathbf{H}\)是直接的求逆，如果特征维度很高的情况下，这会消耗较大的计算亮，因此我们可以采用更有效的求解方法，如Cholesky分解法，最后贴上马农最爱的代码：

import numpy as np

from matplotlib import pyplot as plt

class LogisticClassifier:

    def __init__(self):

        print("init");

    def logistic(self,Xa,wa):

        val = 1/(1+np.exp(-Xa.dot(wa)));

        return val;

    def train(self,X,t,iter_num):

        print("start to training");

        Xa = np.array(X)

        xsize = Xa.shape

        dim = xsize[1]+1

        num = xsize[0]

        Xa = np.c_[Xa,np.ones([num,1])]

        ta = np.array(t)

        print dim,num

        wa = 0.5*np.ones([dim,1])

        for it in range(iter_num):

            ya = self.logistic(Xa,wa)

            deriv_wa = Xa.T.dot(ya-ta)

            R = np.diag((ya*(1-ya)).flat)

            H = Xa.T.dot(R).dot(Xa)

            delta_w = np.linalg.inv(H).dot(deriv_wa)

            wa = wa - delta_w;

            print np.linalg.norm(delta_w.T, 2, 1)

            #print wa

        return wa

if __name__ == "__main__":

    print ('This is main of module "hello.py"')

    logCls = LogisticClassifier();

    #construct data

    X = [[0.5],[0.75],[1],[1.25],[1.5],[1.75],[1.75],[2],[2.25],[2.5],[2.75],[3],[3.25],[3.5],[4],[4.25],[4.5],[4.75],[5],[5.5]]

    t = [[0],[0],[0],[0],[0],[0],[1],[0],[1],[0],[1],[0],[1],[0],[1],[1],[1],[1],[1],[1]]

    iter_num = 10;

    #training weight

    w = logCls.train(X, t, iter_num)

    print ("learned weight:\n")

    print w

    #draw and show the result

    pos_t = [x for i, x in enumerate(t) if x == [1]]

    pos_X = [X[i] for i, x in enumerate(t) if x == [1]]

    neg_t = [x for i, x in enumerate(t) if x == [0]]

    neg_X = [X[i] for i, x in enumerate(t) if x == [0]]

    plt.scatter(pos_X,pos_t,color="r",marker='o',s = 100)

    plt.scatter(neg_X,neg_t,color="g",marker='o',s = 100)

    Xfitted  = np.array(np.linspace(0,6,100))

    XfittedC = np.c_[Xfitted,np.ones([100,1])]

    Yfitted = logCls.logistic(XfittedC, w)

    plt.plot(Xfitted.flat,Yfitted.flat,color="b",linewidth= 5)

    #reset the axes

    ax = plt.gca()

    #no bonding box

    ax.spines['top'].set_color('none')

    ax.spines['right'].set_color('none')

    #set as zero

    ax.xaxis.set_ticks_position('bottom')

    ax.spines['bottom'].set_position(('data',0.5))

    ax.yaxis.set_ticks_position('left')

    ax.spines['left'].set_position(('data',3))

    plt.xlabel("X",fontsize="xx-large")

    plt.ylabel("t",fontsize="xx-large")

    plt.title("Logistic method,learned weight:[%f,%f]"%(w[0],w[1]),fontsize="xx-large")

    plt.legend(["Fitted function","Postive Samples","Negative Samples"],fontsize="xx-large",loc='upper left');

    plt.show()

3.参考资料

[1].Logistic回归与梯度下降法[2].Logistic回归与牛顿迭代法

机器学习(1)：Logistic回归原理及其实现的更多相关文章

[机器学习实战-Logistic回归]使用Logistic回归预测各种实例
目录本实验代码已经传到gitee上,请点击查收! 一.实验目的二.实验内容与设计思想实验内容设计思想三.实验使用环境四.实验步骤和调试过程 4.1 基于Logistic回归和Sigmoid ...
机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...
机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...
机器学习5—logistic回归学习笔记
机器学习实战之logistic回归 test5.py #-*- coding:utf-8 import sys sys.path.append("logRegres.py") fr ...
logistic回归原理和公式
转自:http://blog.csdn.net/ariessurfer/article/details/41310525 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...
机器学习算法-logistic回归算法
Logistic回归算法调试一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...
机器学习笔记—Logistic回归
本文申明:本系列笔记全部为原创内容,如有转载请申明原地址出处.谢谢序言:what is logistic regression? Logistics 一词表示adj.逻辑的;[军]后勤学的n.[逻] ...
Logistic回归原理及公式推导[转]
原文见 http://blog.csdn.net/acdreamers/article/details/27365941 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...
转载:Logistic回归原理及公式推导
转载自:AriesSurfer 原文见 http://blog.csdn.NET/acdreamers/article/details/27365941 Logistic回归为概率型非线性回归模型,是 ...

随机推荐

Linux学习笔记-文件系统和基本命令
目录分区设备文件名分区挂载文件目录文件处理命令目录处理命令硬件设备文件名 IDE硬盘 /dev/hd[a-d] USB硬盘 /dev/sd[a-p] 光驱 /dev/cdrom或者/de ...
idea中使用tomcat 方式启动spring boot项目
Spring boot 的main 入口启动方式相信都会用,直接运行main直接就启动了,但是往往这种方式并不是最佳的启动方式,比如运维的层面更希望调整tomcat的调优参数,而只使用嵌入启动方式很难 ...
clog，cout，cerr 输出机制
clog:控制输出,使其输出到一个缓冲区,这个缓冲区关联着定义在 <cstdio> 的 stderr. cerr:强制输出刷新,没有缓冲区. cout:控制输出,使其输出到一个缓冲区,这个 ...
Intel大坑之一：丢失的SSE2 128bit/64bit 位移指令，马航MH370？？
缘由最近在写一些字符串函数的优化,兴趣使然,可是写的过程中,想要实现 128bit 的按 bit 逻辑位移,遇到了一个大坑,且听我娓娓道来. 如果要追究标题,更确切的是丢失的SSE2 128 bit ...
关于int *a; int &a;a; int &a; *a; int * &a
int i; int*a =&i;//这里a是一个指针,它指向变量i int&b = i;//这里b是一个引用,它是变量i的引用,引用是什么?它的本质是什么?下面会具体讲述 int*& ...
按书上学写测试pytest
慢慢的,这块知识也补好吧. 系统的学习框架,具体的细节,可以边百度边实现. test_three.py '''Test the Task data type.''' from collections ...
linux ncat命令
netcat是网络工具中的瑞士军刀,它能通过TCP和UDP在网络中读写数据.通过与其他工具结合和重定向,你可以在脚本中以多种方式使用它.使用netcat命令所能完成的事情令人惊讶. netcat所做的 ...
python爬虫+词云图，爬取网易云音乐评论
又到了清明时节,用python爬取了网易云音乐<清明雨上>的评论,统计词频和绘制词云图,记录过程中遇到一些问题爬取网易云音乐的评论一开始是按照常规思路,分析网页ajax的传参情况.看到 ...
【原创】记一次MySQL大表高并发写入引发CPU飙升的排障过程
目录一．故障现象... 1 二．初步分析... 2 三．排障过程... 2 1．排查是否QPS或insert并发请求上升导致问题发生... 2 2．排查是否锁资源等待或block导致了insert变 ...
不可不说的Java“锁”事
前言 Java提供了种类丰富的锁,每种锁因其特性的不同,在适当的场景下能够展现出非常高的效率.本文旨在对锁相关源码(本文中的源码来自JDK 8).使用场景进行举例,为读者介绍主流锁的知识点,以及不同的 ...

机器学习(1)：Logistic回归原理及其实现

机器学习(1)：Logistic回归原理及其实现的更多相关文章

随机推荐

热门专题