关于多分类

我们常见的逻辑回归、SVM等常用于解决二分类问题，对于多分类问题，比如识别手写数字，它就需要10个分类，同样也可以用逻辑回归或SVM，只是需要多个二分类来组成多分类，但这里讨论另外一种方式来解决多分类——SoftMax。

SoftMax模型

Softmax回归模型是logistic回归模型在多分类问题上的推广，当分类数为2的时候会退化为Logistic分类。.在多分类问题中，类标签 $y$ 可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的，该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的。

在logistic回归中，训练集由 $m$ 个已标记的样本构成：

，，由于logistic回归是针对二分类问题的，因此类标记 $y^{(i)}\in \left\{ 0,1 \right\}$ 。

假设函数如下：

训练模型参数 $\theta$ ，使其能够最小化代价函数：

对于给定的测试输入 $x$ ，用假设函数针对每一个类别 $j$ 估算出概率值 $p(y=j|x)$ ，即，估计 $x$ 的每一种分类结果出现的概率。假设函数将要输出一个 $k$ 维的向量来表示这 $k$ 个估计的概率值。假设函数 $h_{\theta}(x)$ 形式如下：

代价函数

上述公式是logistic回归代价函数的推广。logistic回归代价函数可以改为：

Softmax代价函数与logistic 代价函数在形式上非常类似，只是在Softmax损失函数中对类标记的 $k$ 个可能值进行了累加。注意在Softmax回归中将 $x$ 分类为类别 $j$ 的概率为：

一般使用梯度下降优化算法来最小化代价函数，而其中会涉及到偏导数，即，则对求偏导，得到代价函数对参数权重的梯度就可以优化了。

例子

从下图看，神经网络中包含了输入层，然后通过两个特征层处理，最后通过softmax分析器就能得到不同条件下的概率，这里需要分成三个类别，最终会得到y=0、y=1、y=2的概率值。

继续看下面的图，三个输入通过softmax后得到一个数组[0.05 , 0.10 , 0.85]，这就是soft的功能。

计算过程直接看下图，其中即为，三个输入的值分别为3、1、-3，的值为20、2.7、0.05，再分别除以累加和得到最终的概率值，0.88、0.12、0。

可以看到它有多个值，所有值加起来刚好等于1，每个输出都映射到了0到1区间，可以看成是概率问题。

为多个输入，训练其实就是为了逼近最佳的。

使用场景

在多分类场景中可以用softmax也可以用多个二分类器组合成多分类，比如多个逻辑分类器或SVM分类器等等。该使用softmax还是组合分类器，主要看分类的类别是否互斥，如果互斥则用softmax，如果不是互斥的则使用组合分类器。

参考文献：

https://www.cnblogs.com/hellcat/p/7220536.html?utm_source=itdadao&utm_medium=referral

SoftMax多分类器原理及代码理解的更多相关文章

DeepLearning tutorial（3）MLP多层感知机原理简介+代码详解
本文介绍多层感知机算法,特别是详细解读其代码实现,基于python theano,代码来自:Multilayer Perceptron,如果你想详细了解多层感知机算法,可以参考:UFLDL教程,或者参 ...
免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
机器学习之KNN原理与代码实现
KNN原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9670187.html 1. KNN原理 K ...
机器学习之AdaBoost原理与代码实现
AdaBoost原理与代码实现本文系作者原创,转载请注明出处: https://www.cnblogs.com/further-further-further/p/9642899.html 基本思路 ...
机器学习之决策树三-CART原理与代码实现
决策树系列三—CART原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9482885.html ID ...
机器学习之决策树二-C4.5原理与代码实现
决策树之系列二—C4.5原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9435712.html I ...
机器学习之决策树一-ID3原理与代码实现
决策树之系列一ID3原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9429257.html 应用实 ...
linux io的cfq代码理解
内核版本: 3.10内核. CFQ,即Completely Fair Queueing绝对公平调度器,原理是基于时间片的角度去保证公平,其实如果一台设备既有单队列,又有多队列,既有快速的NVME,又有 ...
基础 | batchnorm原理及代码详解
https://blog.csdn.net/qq_25737169/article/details/79048516 https://www.cnblogs.com/bonelee/p/8528722 ...

随机推荐

mac 安装homobrew 报错解决
按照官网(https://brew.sh/index_zh-cn.html)给的命令: /usr/bin/ruby -e "$(curl -fsSL https://raw.gith ...
Java转Exe
1.Jsmooth Java文件打包成exe文件(可以在没安装JDK的环境下运行):http://www.tuicool.com/articles/byIFJn 2.用JSmooth制作java ja ...
PAT 1083 List Grades[简单]
1083 List Grades (25 分) Given a list of N student records with name, ID and grade. You are supposed ...
Hello 2019 Solution
A. Gennady and a Card Game 签到. #include <bits/stdc++.h> using namespace std; ], t[]; bool solv ...
Java 动态代理是基于什么原理
动态代理 ①动态代理概念理解动态代理是一种方便运行时动态构建代理.动态处理代理方法调用的机制,很多场景都利用类似机制做到的,比如用来包装RPC调用.面向切面的变成(AOP) 实现动态代理的方式很多, ...
WebStorm下使用TypeScript
TypeScript也可使用Visual Studio 进行开发 TypeScript官网地址:(http://www.typescriptlang.org/) 1.先安装WebStorm WebSt ...
Android项目开发第四周学习总结
Android项目开发实战第四周在本周,我们进行了Android项目第四周的项目开发,在本周,我们对原有的项目进行改进,我们的想法是使项目在原有的基础上增加一些新的功能,使得txt阅读器可以更加先进 ...
获取lambda表达式类型，获取attributes是注意事项
1.获取lambda表达式的MemberExpression所属类的类型,要使用:m.Expression.Type 而不要使用 m.Member.DeclaringType: 后者获取的是实际定 ...
Win10累积更新KB3081424安装失败的解决方法
我在个人的PC上多次更新KB3081424都失败了,后来按照网上给出的删除注册表残留项的方法后更新成功了(删除注册表残留项后我还执行了从微软帐户切换到本地帐户的操作,有兴趣的朋友可以试试不切换能否更新 ...
haskell简明入门(一)
本文的主要内容参考自<Haskell趣学指南> 1. What is Haskell? 以下内容引用自Haskell官网: Haskell是一个先进的,纯粹的函数式编程语言.一个典 ...

SoftMax多分类器原理及代码理解

关于多分类

SoftMax模型

代价函数

例子

SoftMax多分类器原理及代码理解的更多相关文章

随机推荐

热门专题