【转】LDA-linear discriminant analysis

分类问题也可以用降维来理解，比如一个D维的数据点x，我们可以采用下面的映射进行线性的降维，

y=θTx

在计算出y后，就可以选择一个阈值h,来进行分类。正如我们在前面的PCA模型中看到的，降维会有信息的损失，可能会在降维过程中，丢失使数据可分的特征，导致分类的效果不理想。

那采用什么样的降维方式，可以尽量的在低维空间中保存原来数据在高维空间中的可分性（区分类别的特征）。一个常用的模型 linear discriminant analysis(LDA)就是用来做这个工作的，下面就具体的看一下LDA模型。

原理

LDA的基本原理就是最大化类间方差（between-class variance）和类内方差（within-class variance）的比率（注意这个variance用来理解，下面用到的定义实际上是variance的一个变形），使得降维后数据有最好的可分性。如果偷用软件工程里面用的术语的话，就是“高内聚，低耦合”，类内的数据内聚，方差小，而类间数据松散，方差大。通常来说，这要比只考虑类间的距离越大要好，如下图所示：

左边图只是考虑最大化每个类期望的最大距离，我们看到有很多点投影后重合了，丧失了标签信息；而右边是LDA投影，重合的点的数目减少了很多，能更好的保存标签信息。

模型

下面我们就来形式化这个过程，首先如何定义between-class variance和within-class variance？在Fisher提出的方法中，没有使用统计中标准的variance的定义，而是使用了一个称为scatter的概念，与variance时等价的，使用这个概念可能是为了后面的推导简洁。设数据集为X=x1,x2,..,xN，则scatter的定义为：

s=∑n=1N(xn−m)T(xn−m)

其中，m=1N∑Nn=1xn。

类内方差很容易形式化，可以直接使用scatter来定义，然后把所有类别的scatter连加；那么类间的方差如何定义才能很好的让类之间的数据分的更开呢？当然应该有很多的数学关系很描述，在LDA中使用了下面这种方式，计算每个类别的期望，求期望之间的距离。先从简单的两类情况开始，然后拓展到多类的情况。

两类

设数据集合为X={x1,x2,..,xN},类别为C1,C2,则这两类的数据期望为m1,m2，计算公式如：

mk=1Nk∑i∈Ckxi

mk表示投影后的数据点的期望，则between-class variance的形式化定义为：

m2−m1=θT(m2−m1)

其中，mk=θTmk。within-class variance用within-scatter这个定义来表示，scatter是variance的变种（不用除以数据的数目），第Ck类的scatter定义为：

S2k=∑i∈Ck(yi−mi)2

其中，yi=θTxi。这样就可以得到目标函数：

J(θ)=(m2−m1)2s21+s22

将上面的定义代入上式，可以得到式子:

maxargθJ(θ)=θTSBθθTSWθ

其中，SB,SW分别称为between-class scatter和within-class scatter，表示如下：

SB=(m2−m1)(m2−m1)T;SW=S1+S2

其中,Sk=∑i∈Ck(xi−mk)(xi−mk)T。下面要做的就是最优化目标函数(x−mk),对上面的式子求导数，让导数为0，则可以得到：

(θTSBθ)SWθ=(θTSWθ)SBθ

由于投影操作，我们只关心θ的方向，上面的式子，可以去掉(θTSBθ),(θTSWθ),根据SB的定义，SBθ的方向与(m2−m1)一致，我们可以得到：

θ∗∝S−1W(m2−m1)

这个式子称为Fisher’s linear discriminant[1936],尽管这个式子不是一个判别式，只是选择了投影方向,不过只要我们选择一个阈值，然后就可以根据这个阈值进行分类了。(ps:使用求解generalized eigenvalue problem的方法求解导数为零的等式，也可以得到这个判别式)

多类

在多类问题时，将D维的向量x投影到M<D维的y,投影矩阵方程为：

y=ΘTx

可以参照PCA文章中提到投影公式，这里Θ是一个投影矩阵，每一个列向量表示一个投影方向Θk。

设数据集合为X={x1,x2,..,xN},类别为C1,C2,..,CK。在多类的时候，过程与上面一样，不过由于between-class scatter 和within-class scatter不再是标量，需要更改一下我们需要优化的目标函数。首先看一下在原空间x的定义，然后就可以类比到y空间。

withinin-class scatter 与二类时的定义一样，如下表示:

SW=∑k=1K∑i∈Ck(xi−mk)(xi−mk)T

mk定义与上面一致。

between-class scatter的定义，这里我们根据PRML里面论述的，首先定义一个ST，然后根据ST=SB+SW，然后分解得到SB。ST的定义类似Sk，不过不在一个类别，而是在所有的数据集上进行计算。

ST=∑n=1N(xn−m)(xn−m)Tm=1N∑n=1Nxn=1N∑k=1KNkmk

所以得到：

SB=======ST−SW∑n=1N(xn−m)(xn−m)T−∑k=1K∑i∈Ck(xi−mk)(xi−mk)T∑k=1K∑i∈Ck(xi−m)(xi−m)T−∑k=1K∑i∈Ck(xi−mk)(xi−mk)T∑k=1K∑i∈Ck{(xi−m)(xi−m)T−(xi−mk)(xi−mk)T}∑k=1K{∑i∈Ck−ximT+∑i∈Ck−mxTi+NkmmT+∑i∈CkximTk+∑i∈CkmkxTi−NkmkmTk}∑k=1K{−NkmkmT−mNkmk+NkmmT+NkmkmTk+Nkmkmk−NkmkmTk}∑k=1KNk(mk−m)(mk−m)T

这样我们就可以类比得到在投影空间的between-class scatter与within-class scatter：

S˜W=∑k=1K∑i∈Ck(yi−mk)(yi−mk)TS˜B=ST−SW=∑k=1KNk(mk−m)(mk−m)T

这样就可以得到目标函数，由于S˜W,S˜B不是标量，在目标函数中使用它们的行列式，

maxargΘJ(Θ)=|S˜B||S˜W|

类似在二类推到中的式子，可以得出：

maxargΘJ(Θ)=|S˜B||S˜W|=|ΘTSBΘ||ΘTSWΘ|

然后优化上面的函数(很直接，但是这里就不推导了，可能比较麻烦)，可以得出结论，投影矩阵由S−1WSB的特征最大特征向量决定，这样我们就可到了一个很简洁的公式，与PCA不同的是，这里考虑到了类别信息,得到的投影方向对一些数据集合来说，会有很大不同，如下图：

从上图中也可以看到，使用PCA投影后，数据在黑色的直线上基本不可分，而使用LDA投影，则可分性要比PCA好很多，这也说明了LDA在降维过程中保留了标签信息。

需要注意的地方是：

由于SB的秩最大为K−1,所以S−1WSB的特征向量数目不会超过K−1，所以我们投影后的M<=(K−1)。
LDA也可以从normal class Density 通过最大似然估计得出。
S−1WSB中，用到了SW的逆，但是SW的最大秩为N−K，在很多计算中，特征数远大于样本数，使得SW是奇异矩阵，所以这时候我们需要在LDA计算前，进行降维（采用PCA），使得SW是非奇异的。

模型的局限性，主要体现在下面两个方面：

根据上面的分析，LDA投影后最多只能保留K−1个特征，可能对一些问题来说，特征数目太少。
LDA本是参数估计方法，假设分布符合单峰的高斯分布，对于数据集合不符合的情况，没法保留标签信息。
对那些由方差，而不是均值来区分的数据来说，LDA同样也没法处理，如下图所示:

应用

在人脸识别中，使用LDA降维，是一种常用的方法，形成的特征向量，称为fisher-face；此外，LDA也可以用在破产预测等方面。

引用：

[1]prml

[2]http://research.cs.tamu.edu/prism/lectures/pr/pr_l10.pdf

[3]http://www.intechopen.com/books/speech-technologies/nonlinear-dimensionality-reduction-methods-for-use-with-automatic-speech-recognition

[4]http://en.wikipedia.org/wiki/Linear_discriminant_analysis

参看http://webdancer.is-programmer.com/posts/37867.html

【转】LDA-linear discriminant analysis的更多相关文章

线性判别分析（Linear Discriminant Analysis，LDA）
一.LDA的基本思想线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD) ...
线性判别分析(Linear Discriminant Analysis, LDA）算法分析
原文来自:http://blog.csdn.net/xiazhaoqiang/article/details/6585537 LDA算法入门一． LDA算法概述: 线性判别式分析(Lin ...
线性判别分析(Linear Discriminant Analysis, LDA）算法初识
LDA算法入门一． LDA算法概述: 线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discrimin ...
机器学习： Linear Discriminant Analysis 线性判别分析
Linear discriminant analysis (LDA) 线性判别分析也是机器学习中常用的一种降维算法,与 PCA 相比, LDA 是属于supervised 的一种降维算法.PCA考虑的 ...
Linear Discriminant Analysis Algorithm
线性判别分析算法. 逻辑回归是一种分类算法,传统上仅限于两类分类问题. 如果有两个以上的类,那么线性判别分析算法是首选的线性分类技术.LDA的表示非常直接.它包括数据的统计属性,为每个类计算.对于单个 ...
Max-Mahalanobis Linear Discriminant Analysis Networks
目录概主要内容 Pang T, Du C, Zhu J, et al. Max-Mahalanobis Linear Discriminant Analysis Networks[C]. inte ...
OpenCV LDA(Linnear Discriminant analysis)类的使用---OpenCV LDA演示样例
1.OpenCV中LDA类的声明 //contrib.hpp class CV_EXPORTS LDA { public: // Initializes a LDA with num_componen ...
线性判别分析（Linear Discriminant Analysis）转载
1. 问题之前我们讨论的PCA.ICA也好,对样本数据来言,可以是没有类别标签y的.回想我们做回归时,如果特征太多,那么会产生不相关特征引入.过度拟合等问题.我们可以使用PCA来降维,但PCA没有将 ...
LDA(Linear discriminate analysis)线性判别分析
LDA 线性判别分析与Fisher算法完全不同 LDA是基于最小错误贝叶斯决策规则的. 在EMG肌电信号分析中,... 未完待续:.....
线性判别分析（Linear Discriminant Analysis）
1. 问题之前我们讨论的PCA.ICA也好,对样本数据来言,可以是没有类别标签y的.回想我们做回归时,如果特征太多,那么会产生不相关特征引入.过度拟合等问题.我们可以使用PCA来降维,但PCA没有将 ...

随机推荐

Python学习笔记（yield与装饰器）
yeild:返回一个生成器对象: 装饰器:本身是一个函数,函数目的装饰其他函数(调用其他函数) 功能:增强被装饰函数的功能装饰器一般接受一个函数对象作为参数,以便对其增强 @原函数名来调用其他函 ...
关于Struts漏洞工具的使用
最新struts-scan资源: https://www.cesafe.com/3486.html 一,将资源下载后,放入liunx系统中,并且需要具备python2的操作环境二,打开终端使用如下命 ...
BZOJ3622（容斥+dp）
思路 "恰k个"考虑求至少k.k+1--个容斥题面说所有数字都不同,可以将所求转化为糖比药多的组数恰为\((n+k)/2\)的方案数 \(f[i][j]\)数组我觉得更好的理解方 ...
CodeForces - 581B-Luxurious Houses
The capital of Berland has n multifloor buildings. The architect who built up the capital was very c ...
如何使用在Windows 下AspNetCore Api 和 consul
在Windows 下如何使用 AspNetCore Api 和 consul https://blog.csdn.net/sD7O95O/article/details/80750803 一.概念:什 ...
066 Plus One
给定一个非负整数组成的非空数组,给整数加一.可以假设整数不包含任何前导零,除了数字0本身.最高位数字存放在列表的首位.详见:https://leetcode.com/problems/plus-one ...
postgresql修改数据库名
alter database abc rename to cba;
Java 数字数组随机数工具类 NumberUtils、ArrayUtils、RandomUtils用法
commons-lang3-3-3.8.1 //----------------------------------------------------------------------- /** ...
Spring Task ABC
配置说明 <task:annotation-driven scheduler="xxxScheduler" /> <task:scheduler id=" ...
Linux mount实际使用
查看所有文件系统(设备):fdisk -l 1.当要重新挂载一个文件系统时(设备):可以直接 #mount -o remount,rw /dev/sdb9/(文件系统) /mnt/sdb9/(目录) ...

【转】LDA-linear discriminant analysis

原理

模型

应用

【转】LDA-linear discriminant analysis的更多相关文章

随机推荐

热门专题