逻辑回归（Logistic Regression）二分类原理及python实现

本文目录：

1. sigmoid function (logistic function)

2. 逻辑回归二分类模型

3. 神经网络做二分类问题

4. python实现神经网络做二分类问题

-----------------------------------------------------------------------------------

1. sigmoid unit

对于一个输入样本$X(x_1,x_2, ..., x_n)$，sigmoid单元先计算$x_1,x_2, ..., x_n$的线性组合：

$z = {{\bf{w}}^T}{\bf{x}} = {w_1}{x_1} + {w_2}{x_2} + ... + {w_n}{x_n}$

然后把结果$z$输入到sigmoid函数：

$\sigma (z) = \frac{1}{{1 + {e^{ - z}}}}$

sigmoid函数图像：

sigmoid函数有个很有用的特征，就是它的导数很容易用它的输出表示，即

$\frac{{\partial \sigma (z)}}{{\partial z}} = \frac{{{e^{ - z}}}}{{{{(1 + {e^{ - z}})}^2}}} = \frac{1}{{1 + {e^{ - z}}}} \cdot \frac{{{e^{ - z}}}}{{1 + {e^{ - z}}}} = \frac{1}{{1 + {e^{ - z}}}} \cdot (1 - \frac{1}{{1 + {e^{ - z}}}}) = \sigma (z)(1 - \sigma (z))\begin{array}{*{20}{c}}
{} & {} & {} & {(1)} \\
\end{array}$

2. 逻辑回归二分类模型

把sigmoid函数应用到二分类中，当$\sigma(z)>=0.5$，输出标签$y=1$；当$\sigma(z)<0.5$，输出标签$y=0$。并定义如下条件概率：

$P\{ Y = 1|\bf{x}\} = p(x) = \frac{1}{{1 + {e^{ - {{\bf{w}}^T}\bf{x}}}}}$

$P\{ Y = 0|\bf{x}\} = 1 - p(\bf{x}) = \frac{{{e^{ - {{\bf{w}}^T}\bf{x}}}}}{{1 + {e^{ - {{\bf{w}}^T}\bf{x}}}}}$

一个事件的几率（$odds$）是指该事件发生的概率和该事件不发生的概率的比值。如果事件发生的概率是$p$，那么该事件的几率是$\frac{p}{1-p}$，该事件的对数几率（$log$ $odds$）或$logit$函数是$logit(p)=ln\frac{p}{1-p}$。在逻辑回归二分类模型中，事件的对数几率是

$\ln \frac{{P\{ Y = 1|\bf{x}\} }}{{P\{ Y = 0|\bf{x}\} }} = \ln \frac{{p(x)}}{{1 - p(\bf{x})}} = \ln ({e^{{{\bf{w}}^T}\bf{x}}}) = {{\bf{w}}^T}\bf{x}$

上式表明，在逻辑回归二分类模型中，输出$y=1$的对数几率是输入$\bf{x}$的线性函数。

在逻辑回归二分类模型中，对于给定的数据集$T = \{ ({{\bf{x}}_1},{y_1}),({{\bf{x}}_2},{y_2}),...,({{\bf{x}}_n},{y_n})\}$，可以应用极大似然估计法估计模型参数${{\bf{w}}^T} = ({w_1},{w_2},...,{w_n})$。

设：

$\begin{array}{l}
P\{ Y = 1|\bf{x}\} = \sigma ({{\bf{w}}^T}{\bf{x}}) \\
P\{ Y = 0|\bf{x}\} = 1 - \sigma ({{\bf{w}}^T}{\bf{x}}) \\
\end{array}$

似然函数为：

$\prod\limits_{i = 1}^n {{{[\sigma ({{\bf{w}}^T}{{\bf{x}}_i})]}^{{y_i}}}} {[1 - \sigma ({{\bf{w}}^T}{{\bf{x}}_i})]^{1 - {y_i}}}$

对数似然函数为：

$L({\bf{w}}) = \sum\limits_{i = 1}^n {[{y_i}\log } \sigma ({{\bf{w}}^T}{{\bf{x}}_i}) + (1 - {y_i})\log (1 - \sigma ({{\bf{w}}^T}{{\bf{x}}_i}))]$

对$L({\bf{w}})$取极大值，

$\frac{{\partial L({\bf{w}})}}{{\partial{w_j}}} = \sum\limits_{i = 1}^n {[\frac{{{y_i}}}{{\sigma ({{\bf{w}}^T}{{\bf{x}}_i})}}} - \frac{{1 - {y_i}}}{{1 - \sigma ({{\bf{w}}^T}{{\bf{x}}_i})}}]\frac{{\partial \sigma ({{\bf{w}}^T}{{\bf{x}}_i})}}{{\partial ({{\bf{w}}^T}{{\bf{x}}_i})}}\frac{{\partial ({{\bf{w}}^T}{{\bf{x}}_i})}}{{\partial {w_j}}}$

应用式(1)，有

$\frac{{\partial L({\bf{w}})}}{{\partial{w_j}}} = \sum\limits_{i = 1}^n {[\frac{{{y_i} - \sigma ({{\bf{w}}^T}{{\bf{x}}_i})}}{{\sigma ({{\bf{w}}^T}{{\bf{x}}_i})[1 - \sigma ({{\bf{w}}^T}{{\bf{x}}_i})]}}} ] \cdot \sigma ({{\bf{w}}^T}{{\bf{x}}_i})[1 - \sigma ({{\bf{w}}^T}{{\bf{x}}_i})] \cdot {x_{ij}}$

$\frac{{\partial L({\bf{w}})}}{{\partial{w_j}}} = \sum\limits_{i = 1}^n [ {y_i} - \sigma ({{\bf{w}}^T}{{\bf{x}}_i})] \cdot {x_{ij}}$

令$\frac{{\partial L({\bf{w}})}}{{{w_j}}}=0$即可得到参数${\bf{w}}$的估计值。

3. 神经网络做二分类问题，交叉熵损失函数

在阈值函数是sigmoid函数的神经网络中，针对二分类问题，交叉熵损失函数是比较合适的损失函数，其形式为（和上一节的对数似然函数只相差一个负号）：

$C =- \frac{1}{n}\sum\limits_{i = 1}^n {[{y_i}\log } \sigma ({{\bf{w}}^T}{{\bf{x}}_i}) + (1 - {y_i})\log (1 - \sigma ({{\bf{w}}^T}{{\bf{x}}_i}))]$

在神经网络的训练过程中，权重的迭代过程为：

$w_j^{k + 1} = w_j^k - \eta \frac{{\partial C}}{{\partial w_j^k}}$

在损失函数是交叉熵损失函数的情况下，

$\frac{{\partial C}}{{\partial w_j^k}} = \sum\limits_{i = 1}^n [ \sigma ({{\bf{w}}^T}{{\bf{x}}_i}) - {y_i}] \cdot {x_{ij}} = ({{\bf{x}}^T}[\sigma ({{\bf{w}}^T}{\bf{x}}) - {\bf{y}}] )_j= ({{\bf{x}}^T}{\bf{e}})_j$

其中，${\bf{y}}$是由样本标签构成的列向量，等号后的两个式子的下标$j$表示向量的第$j$个分量。

4. python实现神经网络做二分类问题

神经网络结构：一个sigmoid单元

训练数据：总共500个训练样本，链接https://pan.baidu.com/s/1qWugzIzdN9qZUnEw4kWcww，提取码：ncuj

损失函数：交叉熵损失函数

代码如下：

import numpy as np

import matplotlib.pyplot as plt

class Logister():

    def __init__(self, path):

        self.path = path

    def file2matrix(self, delimiter):

        fp = open(self.path, 'r')

        content = fp.read()              # content现在是一行字符串，该字符串包含文件所有内容

        fp.close()

        rowlist = content.splitlines()   # 按行转换为一维表

        # 逐行遍历

        # 结果按分隔符分割为行向量

        recordlist = [list(map(float, row.split(delimiter))) for row in rowlist if row.strip()]

        return np.mat(recordlist)

    def drawScatterbyLabel(self, dataSet):

        m, n = dataSet.shape

        target = np.array(dataSet[:, -1])

        target = target.squeeze()        # 把二维数据变为一维数据

        for i in range(m):

            if target[i] == 0:

                plt.scatter(dataSet[i, 0], dataSet[i, 1], c='blue', marker='o')

            if target[i] == 1:

                plt.scatter(dataSet[i, 0], dataSet[i, 1], c='red', marker='o')

    def buildMat(self, dataSet):

        m, n = dataSet.shape

        dataMat = np.zeros((m, n))

        dataMat[:, 0] = 1

        dataMat[:, 1:] = dataSet[:, :-1]

        return dataMat

    def logistic(self, wTx):

        return 1.0/(1.0 + np.exp(-wTx))

    def classfier(self, testData, weights):

        prob = self.logistic(sum(testData*weights))   # 求取概率--判别算法

        if prob > 0.5:

            return 1

        else:

            return 0

if __name__ == '__main__':

    logis = Logister('testSet.txt')

    print('1. 导入数据')

    inputData = logis.file2matrix('\t')

    target = inputData[:, -1]

    m, n = inputData.shape

    print('size of input data: {} * {}'.format(m, n))

    print('2. 按分类绘制散点图')

    logis.drawScatterbyLabel(inputData)

    print('3. 构建系数矩阵')

    dataMat = logis.buildMat(inputData)

    alpha = 0.1                 # learning rate

    steps = 600                 # total iterations

    weights = np.ones((n, 1))   # initialize weights

    weightlist = []

    print('4. 训练模型')

    for k in range(steps):

        output = logis.logistic(dataMat * np.mat(weights))

        errors = target - output

        print('iteration: {}  error_norm: {}'.format(k, np.linalg.norm(errors)))

        weights = weights + alpha*dataMat.T*errors  # 梯度下降

        weightlist.append(weights)

    print('5. 画出训练过程')

    X = np.linspace(-5, 15, 301)

    weights = np.array(weights)

    length = len(weightlist)

    for idx in range(length):

        if idx % 100 == 0:

            weight = np.array(weightlist[idx])

            Y = -(weight[0] + X * weight[1]) / weight[2]

            plt.plot(X, Y)

            plt.annotate('hplane:' + str(idx), xy=(X[0], Y[0]))

    plt.show()

    print('6. 应用模型到测试数据中')

    testdata = np.mat([-0.147324, 2.874846])           # 测试数据

    m, n = testdata.shape

    testmat = np.zeros((m, n+1))

    testmat[:, 0] = 1

    testmat[:, 1:] = testdata

    print(logis.classfier(testmat, np.mat(weights)))   # weights为前面训练得出的

训练600个iterations，每100个iterations输出一次训练结果，如下图：

【参考文献】

[1] 《机器学习》Mitshell，第四章

[2] 《机器学习算法原理与编程实践》郑捷，第五章第二节

[3] Neural Network and Deep Learning，Michael Nielsen，chapter 3

逻辑回归（Logistic Regression）二分类原理及python实现的更多相关文章

机器学习 (三) 逻辑回归 Logistic Regression
文章内容均来自斯坦福大学的Andrew Ng教授讲解的Machine Learning课程,本文是针对该课程的个人学习笔记,如有疏漏,请以原课程所讲述内容为准.感谢博主Rachel Zhang 的个人 ...
ML 逻辑回归 Logistic Regression
逻辑回归 Logistic Regression 1 分类 Classification 首先我们来看看使用线性回归来解决分类会出现的问题.下图中,我们加入了一个训练集,产生的新的假设函数使得我们进行 ...
机器学习总结之逻辑回归Logistic Regression
机器学习总结之逻辑回归Logistic Regression 逻辑回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法.简单的说回归问题和分类问题如下: 回归问 ...
Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)” 清晰讲解logistic-good!!!!!!
原文:http://52opencourse.com/125/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D ...
机器学习方法（五）：逻辑回归Logistic Regression，Softmax Regression
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 前面介绍过线性回归的基本知识, ...
逻辑回归(Logistic Regression)详解,公式推导及代码实现
逻辑回归(Logistic Regression) 什么是逻辑回归: 逻辑回归(Logistic Regression)是一种基于概率的模式识别算法,虽然名字中带"回归",但实际上 ...
机器学习（四）--------逻辑回归(Logistic Regression)
逻辑回归(Logistic Regression) 线性回归用来预测,逻辑回归用来分类. 线性回归是拟合函数,逻辑回归是预测函数逻辑回归就是分类. 分类问题用线性方程是不行的线性方程拟合的是连 ...
机器学习入门11 - 逻辑回归 (Logistic Regression)
原文链接:https://developers.google.com/machine-learning/crash-course/logistic-regression/ 逻辑回归会生成一个介于 0 ...
[Machine Learning] 逻辑回归 (Logistic Regression) -分类问题-逻辑回归-正则化
在之前的问题讨论中,研究的都是连续值,即y的输出是一个连续的值.但是在分类问题中,要预测的值是离散的值,就是预测的结果是否属于某一个类.例如:判断一封电子邮件是否是垃圾邮件:判断一次金融交易是否是欺诈 ...

随机推荐

关于博主skywang123456文章——二叉堆(三)之 Java的实现的质疑
博客园博主skywang123456(以下简称s博主)是一个大牛级的人物,相信很多程序员都拜读过他的博客,我也不例外,并且受益匪浅.但是对于文章二叉堆(三)之 Java的实现我有一些疑惑,写在这里,供 ...
RAID 5 是一种存储性能、数据安全和存储成本兼顾的存储解决方案
可用容量:(n-1)/n的总磁盘容量(n为磁盘数) 原因:RAID5把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储于不同的磁盘上,其中任意N-1块 ...
quartz （从原理到应用）详解篇(转)
一.Quartz 基本介绍 1.1 Quartz 概述 1.2 Quartz特点 1.3 Quartz 集群配置二.Quartz 原理及流程 2.1 quartz基本原理 2.2 quartz启动流 ...
斑马105SLPlus串口打印二维码
1.根据说明书调试硬件,校准介质还有色带(很重要),我自己搞了好几天才搞明白. 2.设置好参数,比如打印介质连续.非连续,热敏还是热转质 3.打印机上电后悔自动校准,校准成功后就可以直接通过串口打印, ...
【leetcode】1288. Remove Covered Intervals
题目如下: Given a list of intervals, remove all intervals that are covered by another interval in the li ...
python mysql插入中文乱码
# "INSERT INTO" 语句sql = "INSERT INTO sites (name, url, status, enable) VALUES (%s, %s ...
51 Nod 1449 砝码称重
1449 砝码称重题目来源: CodeForces 基准时间限制:1 秒空间限制:131072 KB 分值: 40 难度:4级算法题收藏关注现在有好多种砝码,他们的重量是 w0,w1, ...
luogu P4843 清理雪道
嘟嘟嘟这其实就是一个最小流的板子题.把每一条边的流量至少为1,然后建立附加源汇跑一遍最大流,连上$t, s$,再跑一遍最大流就是答案. 刚开始我想错了:统计每一个点的出度和入度,去两者较大值\( ...
nginx变量与实列
nginx内置变量内置变量存放在 ngx_http_core_module 模块中,变量的命名方式和apache 服务器变量是一致的.总而言之,这些变量代表着客户端请求头的内容,例如$http_u ...
内部排序总结之----插入类排序（插入和Shell）
一.直接插入排序直接插入排序(straight insertion sort)的做法是: 每次从无序表中取出第一个元素,把它插入到有序表的合适位置,使有序表仍然有序. 第一趟比较前两个数,然后把第二 ...

逻辑回归（Logistic Regression）二分类原理及python实现

逻辑回归（Logistic Regression）二分类原理及python实现的更多相关文章

随机推荐

热门专题