特征选择（三）-K-L变换

上一讲说到，各个特征（各个分量）对分类来说，其重要性当然是不同的。

舍去不重要的分量，这就是降维。

聚类变换觉得：重要的分量就是能让变换后类内距离小的分量。

类内距离小，意味着抱团抱得紧。

可是，抱团抱得紧，真的就一定easy分类么？

如图1所看到的，依据聚类变换的原则，我们要留下方差小的分量，把方差大（波动大）的分量丢掉，所以两个椭圆都要向y轴投影，这样悲剧了，两个重叠在一起，根本分不开了。而还有一种情况却能够这么做，把方差大的分量丢掉，于是向x轴投影，非常顺利就能分开了。因此，聚类变换并非每次都能成功的。

图1

摧枯拉朽的K-L变换

K-L变换是理论上“最好”的变换：是均方误差（MSE，MeanSquare Error）意义下的最佳变换，它在数据压缩技术中占有重要地位。

聚类变换另一个问题是，必须一类一类地处理，把每类分别变换，让它们各自抱团。

K-L变换要把全部的类别放在一起变换，希望通过这个一次性的变换，让它们分的足够开。

K-L变换觉得：各类抱团紧不一定好区分。目标应该是怎么样让类间距离大，或者让不同类好区分。因此相应于2种K-L变换。

其一：最优描写叙述的K-L变换（沿类间距离大的方向降维）

首先来看个二维二类的样例，如图2所看到的。

图2

$P\left( {{\omega _1}} \right) = P\left( {{\omega _2}} \right) = 0.5$

假设使用聚类变换， ${\Phi _1}$ 方向是方差最小的方向，因此降维向 ${\Phi _1}$ 方向投影，得到2类之间的距离即为2条红线之间的距离，可是这并非相隔最远的投影方向。将椭圆投影到 ${P_{K - L}}$ 方向，得到2类之间的距离为2条绿线之间的距离。这个方向就是用自相关矩阵的统计平均得到的特征向量 ${\Phi _{K - L}}$

设共同拥有M个类别，各类出现的先验概率为

$P({\omega _i}),i = 1,2, \cdots M$

以 ${x_i}$ 表示来自第i类的向量。则第i类集群的自相关矩阵为：

${R_i} = E\left\{ {{x_i}{x_i}^T} \right\}$

混合分布的自相关矩阵R是：

$R = \sum\limits_{i = 1}^M {P({w_i}){R_i}} = \sum\limits_{i = 1}^M {P({w_i})E\left\{ {{x_i}{x_i}^T} \right\}}$

然后求出R的特征向量和特征值：

$\begin{array}{l}\Lambda = \left( {\begin{array}{*{20}{c}}{{\lambda _1}}& \ldots &0\\ \vdots & \ddots & \vdots & \cdots &{{\lambda _n}}\end{array}} \right)\\\Phi = \left( {{\Phi _1},{\Phi _2}, \cdots {\Phi _n}} \right)\end{array}$

将特征值降序排列（注意与聚类变换差别）

为了降到m维，取前m个特征向量，构成变换矩阵A

$A = {\left( \begin{array}{l}{\Phi _1}^T\\ \vdots \\{\Phi _m}^T\end{array} \right)_{m \times n}} \Rightarrow y = {A_{m \times n}}{x_{n \times 1}}$

以上便完毕了最优描写叙述的K-L变换。

为什么K-L变换是均方误差（MSE，MeanSquare Error）意义下的最佳变换？

$\begin{array}{l}{y^{(n)}} = {\Phi ^T}x\\x = \Phi \cdot {y^{(n)}} = \sum\limits_{j = 1}^n {{y_j}^{(n)}{\Phi _j}} \end{array}$

当中 ${y_j}^{(n)}$ 表示n维向量y的第j个分量， ${\Phi _j}$ 表示第个特征分量。

引入的误差

$\Delta x = x - \hat x = \sum\limits_{j = m + 1}^n {{y_j}^{(n)}{\Phi _j}}$

均方误差为

$\begin{array}{l}{e^2}(m) = E\left\{ {{{\left\| {\Delta x} \right\|}^2}} \right\} = E\left\{ {{{[\Delta x]}^T}[\Delta x]} \right\} = E\left\{ {[\sum\limits_{j = m + 1}^n {{y_j}^{(n)}{\Phi _j}^T} ][\sum\limits_{k = m + 1}^n {{y_k}^{(n)}{\Phi _k}} ]} \right\}\\ = \sum\limits_{j = m + 1}^n {E\left\{ {{{[{y_j}^{(n)}]}^2}} \right\}} = \sum\limits_{j = m + 1}^n {E\left\{ {{{[{\Phi _j}^Tx]}^2}} \right\}} = \sum\limits_{j = m + 1}^n {{\Phi _j}^TR{\Phi _j}} = \sum\limits_{j = m + 1}^n {{\lambda _j}} \end{array}$

从m+1開始的特征值都是最小的几个，所以均方误差得到最小。

以上方法称为最优描写叙述的K-L变换，是沿类间距离大的方向降维，从而均方误差最佳。

本质上说，最优描写叙述的K-L变换扔掉了最不显著的特征，然而，显著的特征事实上并不一定对分类有帮助。我们的目标还是要找出对分类作用大的特征，而不应该管这些特征本身的强弱。这就诞生了第2种的K-L变换方法。

其二：最优区分的K-L变换（混合白化后抽取特征）

针对上述问题，最优区分的K-L变换先把混合分布白化，再来依据特征值的分离程度进行排序。

最优区分的K-L变换步骤

首先还是混合分布的自相关矩阵R

$R = \sum\limits_{i = 1}^M {P({w_i}){R_i}} = \sum\limits_{i = 1}^M {P({w_i})E\left\{ {{x_i}{x_i}^T} \right\}}$

然后求出R的特征向量和特征值：

以上是主轴变换，实际上是坐标旋转，之前已经介绍过。

令变换矩阵

${A_1} = {\Lambda ^{ - \frac{1}{2}}}{\Phi ^T}$

则有

${A_1}R{A_1}^T = {\Lambda ^{ - \frac{1}{2}}}{\Phi ^T}R\Phi {\Lambda ^{ - \frac{1}{2}}} = I$

这个 ${A_1}$ 作用是白化R矩阵，这一步是坐标尺度变换，相当于把椭圆整形成圆，如图3所看到的。

图3

以二类混合分布问题为例。

${R_1} + {R_2} = {A_1}{R_1}{A_1}^T + {A_1}{R_2}{A_1}^T = {A_1}R{A_1}^T = I$

分别求出二类的特征向量和特征值，有

$\begin{array}{*{20}{c}}{{S_1} = {\Phi _1}{\Lambda _1}{\Phi _1}^T}\\{{S_2} = I - {S_1} = {\Phi _1}[I - {\Lambda _1}]{\Phi _1}^T}\end{array} \Rightarrow \begin{array}{*{20}{c}}{{\Phi _2} = {\Phi _1}}\\{{\Lambda _1} + {\Lambda _2} = I}\end{array}$

则二者的特征向量全然同样，唯一的据别在于其特征根，并且还负相关，即假设 ${\Lambda _1}$ 取降序排列时，则 ${\Lambda _2}$ 以升序排列。

为了获得最优区分，要使得两者的特征值足够不同。因此，须要舍弃特征值接近0.5的那些特征，而保留使 $\left| {{\lambda _{1i}} - {\lambda _{2i}}} \right|$ 大的那些特征，按这个原则选出了m个特征向量记作

${A_2}^T{\rm{ = }}{\Phi _{11}},{\Phi _{12}}, \ldots ,{\Phi _{1m}}$

则总的最优区分的K-L变换就是：

$A = {A_2}^T{A_1} = {A_1}^T{\Lambda ^{ - \frac{1}{2}}}{\Phi ^T}$

欢迎參与讨论并关注本博客和微博以及知乎个人主页，兴许内容继续更新哦~

转载请您尊重作者的劳动，完整保留上述文字以及本文链接，谢谢您的支持！

特征选择（三）-K-L变换的更多相关文章

Introduction to 3D Game Programming with DirectX 12 学习笔记之 --- 第三章：变换
原文:Introduction to 3D Game Programming with DirectX 12 学习笔记之 --- 第三章:变换学习目标理解如何用矩阵表示线性变换和仿射变换: 学习在 ...
ACM ICPC 2018 青岛赛区部分金牌题题解(K,L,I,G)
目录: K Airdrop I Soldier Game L Sub-cycle Graph G Repair the Artwork ———————————————————— ps:楼主脑残有点严 ...
HDU 多校对抗第三场 L Visual Cube
Problem L. Visual Cube Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 524288/524288 K (Java ...
用DirectX实现魔方（三）视角变换及缩放（附源码）
在本系列第一篇介绍过鼠标按键的功能,如下. 左键拖拽 - 旋转魔方右键拖拽 - 变换视角滚轮 - 缩放魔方今天研究一下如何实现后面两个功能,用到的技术主要是Arcball,Arcball是实现M ...
《统计学习方法》笔记三 k近邻法
本系列笔记内容参考来源为李航<统计学习方法> k近邻是一种基本分类与回归方法,书中只讨论分类情况.输入为实例的特征向量,输出为实例的类别.k值的选择.距离度量及分类决策规则是k近邻法的三个 ...
Gym 101606 - A/B/C/D/E/F/G/H/I/J/K/L - (Undone)
链接:https://codeforces.com/gym/101606 A - Alien Sunset 暴力枚举小时即可. #include<bits/stdc++.h> using ...
离散傅立叶变换与快速傅立叶变换（DFT与FFT）
自从去年下半年接触三维重构以来,听得最多的词就是傅立叶变换,后来了解到这个变换在图像处理里面也是重点中的重点. 本身自己基于高数知识的理解是傅立叶变换是将一个函数变为一堆正余弦函数的和的变换.而图像处 ...
$\mathcal{FFT}$·$\mathcal{Fast \ \ Fourier \ \ Transformation}$快速傅立叶变换
$2019.2.18upd:$ $LINK$ 之前写的比较适合未接触FFT的人阅读--但是有几个地方出了错,大家可以找一下233 啊-本来觉得这是个比较良心的算法没想到这么抽搐这个算法真是将一 ...
《Real Time Rendering》第四章图形变换
图形变换是一个将例如点.向量或者颜色等实体进行某种转换的操作.对于计算机图形学的先驱者,掌握图形变换是极为重要的.有了他们,你就可以对象.光源以及摄像机进行定位,变形以及动画添加.你也可以确认所有的计 ...

随机推荐

pdftk的使用介绍
首先像下面的一页pdf,如果想把它分成两页,每一页只是一个ppt页面(为了在kindle里读比较方便), 那么可以首先用A-pdf page cut, 将pdf 切成这样12个部分然后我们现在要的只 ...
不错的C++框架: Thrift（2）-传输和网络相关
不错的C++框架: Thrift(2)-传输和网络相关 - ang639 - 博客频道 - CSDN.NET 不错的C++框架: Thrift(2)-传输和网络相关
ON、WHERE、HAVING的差别
ON .WHERE.HAVING都能通过限制条件筛选数据,但他们的使用及其不同.以下我们来分析三者之间的差别. 1. ON 和WHERE 全部的查询都回产生一个中间暂时报表,查询结果就是从 ...
番外：android模拟器连不上网
1.删除你PC端得备用DNS,只留一个即可.确保能够上网. 注意:这个虽然不是必须的,出错点也不一定在他,但是我建议这样做,因为我们不确定到底模拟器和我们的PC是否使用的是一个DNS,不是的话,就会造 ...
读书笔记：《为什么大猩猩比专家高明, How We Decide》
读书笔记:<为什么大猩猩比专家高明, How We Decide> 英文的书名叫<How We Decide>,可能是出版社的原因,非要弄一个古怪的中文书名<为什么大猩猩 ...
2 WAN 和1 Evo/3g Routeros PCC 方法负载平衡
陕西中际现代包装科技:Routeros 2 WAN 和1 Evo/3g PCC 方法负载平衡 (Routeros多线负载平衡) 我们将要讨论2Wan和1个Evo/3G 的负载平衡.负载平衡就是在不同 ...
TCP closing a connection
client closes socket: clientSocket.close(); step1 :client sends TCP FIN control segment to server st ...
（017）将一棵二叉查找树重构成链表（keep it up）
给定一棵二叉查找树,设计算法,将每一层的全部结点构建为一个链表(也就是说, 假设树有D层,那么你将构建出D个链表). 这个题实质是个BFS,可是实现起来有点麻烦,又不像常见的BFS, 所以编写代码时 ...
Oracle基础（五）pl/sql进阶(分页过程)
编写分页过程通过pl/sql实现分页过程,再该过程中由简单到难一步步深入,目的在于通过该案例熟悉pl/sql的各种存储过程,包,游标.怎样在java中调用等内容的学习. 1.无返回值 ...
Java-UrlRewrite中文api文档
安装 1. 下载jar包, 并加入到WEB-INF/lib下 2. 在WEB-INF/web.xml中增加下面的配置 <filter> <filter-name>UrlRewr ...

特征选择（三）-K-L变换

特征选择（三）-K-L变换的更多相关文章

随机推荐

热门专题