主成分分析Principal Component Analysis

降维除了便于计算,另一个作用就是便于可视化。

主成分分析-->降维-->

方差:描述样本整体分布的疏密,方差越大->样本越稀疏,方差越小->样本越紧密

所以问题转化成了 -->

与线性回归对比,似乎有些类似。但它们是不同的!

不仅是公式上有区别,且对于线性回归来说,其纵轴轴 对应的是输出标记。而PCA中其两个轴都是表示特征。

且这些点是垂直于特征轴,而不是红线轴


PCA第一步:将样例的均值归为0(demean),即在每个维度上的均值为0,如下图,

因此,可化为

对于该式,X(i) 是所有样本点已经映射到新的坐标轴上之后,得到的新的样本,蓝点。

步骤-->

1. 对所有样本进行demean处理

2. 求一个轴的方向 w = (w1, w2)

3. 使得所有样本映射到w以后,有:

 最大

映射后样本方差 = (映射后每一个样本 i 的值 - 映射后整体均值)的平方和 / m

注意: 对X可能有n个维度,即使对于二维,每一个样本本身也是包含有2个数的向量。所以,该式更应该表示成以下形式:

 (双杠 表示 模)

Xproject_bar = X_bar (他俩平均值其实是一样的)

又因为我们已经进行了demean处理,其平均值为0,有,

 ----------(1)


假设红线代表我们要找的方向 w = (w1, w2), 蓝色的样本点对应X中的第 i 行 X(i) = (X1(i) , X2(i)), X(i) 此时也是一个向量。 X(i) 映射到 w 上, 即向w表示的轴做一个垂线,有交点,交点位置的这一点即

要求模的平方,其实就是求蓝色轴的长度对应的平方

也可理解成,把一个向量映射到另一个向量上,对应的映射长度是多少。实际上这种映射就是点乘的定义。,两个红线的夹角即 西塔。

由于要找的 w 是一个轴,它是一个方向,可用方向向量来表示,即 w 的模 为 1. 因此上式可化简为,

此时X(i) 的模 是 表示X(i) 的向量 对应的长度, 再乘以 cos西塔, 得到的就是蓝色向量的长度。即,

因此(1)式可化简为,

由于两个向量点乘是一个数,所以可以不用取模的符号了,即


梯度上升法求解PCA问题

与线性回归中推导的公式很像,可化成,

这个矩阵相乘,即,

注,Xw 本身是(m* n) * (n*1) = m * 1 的列向量。在这里我们写成行向量的形式,所以做了一个转置。又因为得到的结果 (1*m) * (m*n) = 1 * n 的行向量,而我们其实想要的是 n*1 的梯度。所以我们再对整个结果做一个转置,即,

 (注: (A*B) 的 转置 = B的转置乘以A的转置)

铛铛! 得到向量化的结果啦!


求数据的前n个主成分

主成分分析:一组坐标系 转移到 另一组坐标系,进行重新排列。 原先n维特征n个轴,转移后仍然是n个轴。使得其在第一个轴上方差最大,第二个轴次之,以此类推。

求出第一主成分后,如何求出下一个主成分?


高维数据向低维数据映射

第一个样本X(1)和w(1)相乘,就是第一个数据在第一个主成分上的映射。W(1)也有n维,是因为原来的X中每个样本都是n维,所以转换后也还是在一个n维的空间中。

但我们将原来m*n 维 降到了 m*k维,k 表示前k个主成分。(k<n)。完成了高维数据到低维数据的映射。

也可完成从低维恢复到高维,用Xk中每一行 乘以 Wk 每一列。 (m*k) * (k*n) = m*n

但这也是不可能恢复的和原数据一样,因为降维的过程中丢失了一些数据。

(4)主成分分析Principal Component Analysis——PCA的更多相关文章

  1. Principal Component Analysis(PCA) algorithm summary

    Principal Component Analysis(PCA) algorithm summary mean normalization(ensure every feature has sero ...

  2. Principal Component Analysis(PCA)

    Principal Component Analysis(PCA) 概念 去中心化(零均值化): 将输入的特征减去特征的均值, 相当于特征进行了平移, \[x_j - \bar x_j\] 归一化(标 ...

  3. 主成分分析 | Principal Components Analysis | PCA

    理论 仅仅使用基本的线性代数知识,就可以推导出一种简单的机器学习算法,主成分分析(Principal Components Analysis, PCA). 假设有 $m$ 个点的集合:$\left\{ ...

  4. [zz] Principal Components Analysis (PCA) 主成分分析

    我理解PCA应该分为2个过程:1.求出降维矩阵:2.利用得到的降维矩阵,对数据/特征做降维. 这里分成了两篇博客,来做总结. http://matlabdatamining.blogspot.com/ ...

  5. 从矩阵(matrix)角度讨论PCA(Principal Component Analysis 主成分分析)、SVD(Singular Value Decomposition 奇异值分解)相关原理

    0. 引言 本文主要的目的在于讨论PAC降维和SVD特征提取原理,围绕这一主题,在文章的开头从涉及的相关矩阵原理切入,逐步深入讨论,希望能够学习这一领域问题的读者朋友有帮助. 这里推荐Mit的Gilb ...

  6. PCA(Principal Component Analysis)主成分分析

    PCA的数学原理(非常值得阅读)!!!!   PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可 ...

  7. 主成分分析(principal components analysis, PCA)——无监督学习

    降维的两种方式: (1)特征选择(feature selection),通过变量选择来缩减维数. (2)特征提取(feature extraction),通过线性或非线性变换(投影)来生成缩减集(复合 ...

  8. Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)

    网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的 这里介绍的是另外一种降维的方法,Principal Compo ...

  9. 《principal component analysis based cataract grading and classification》学习笔记

    Abstract A cataract is lens opacification caused by protein denaturation which leads to a decrease i ...

随机推荐

  1. adb shell getprop,setprop,watchprops更改,查看,监听系统属性

    1.简介 每个属性都有一个名称和值,他们都是字符串格式.属性被大量使用在Android系统中,用来记录系统设置或进程之间的信息交换.属性是在整个系统中全局可见的.每个进程可以get/set属性.  在 ...

  2. [已读]图解CSS3核心技术与案例实战

    买的时候犹豫了好久,也征询了下几个前端朋友.我一直蛮怕买华章的书,好在这本内容很不错,买得值了. 大漠的css功底很深厚,这本书也很厚= =,读完之后对css圆角以及background-origin ...

  3. scau 17967 大师姐唱K的固有结界 分类暴力 + RMQ

    由于能放两次,那么分类, 1.连续使用,(这个直接O(n^2)暴力) 2.分开使用. 分开使用的话,首先暴力枚举,用T时间,能从第1个位置,唱到第几首歌,然后剩下的就是从pos + 1, n这个位置, ...

  4. RHEL 6.5----SCSI存储

    主机名 IP master 192.168.30.130 node-1 192.168.30.131 node-2 192.168.30.132 安装并启动 [root@master ~]# ll / ...

  5. Java并发——结合CountDownLatch源码、Semaphore源码及ReentrantLock源码来看AQS原理

    前言: 如果说J.U.C包下的核心是什么?那我想答案只有一个就是AQS.那么AQS是什么呢?接下来让我们一起揭开AQS的神秘面纱 AQS是什么? AQS是AbstractQueuedSynchroni ...

  6. Eclipse项目转Android Studio

    刚来某公司的时候,发现Android开发仍然还在使用Eclipse,编码无规范,渠道打包竟然手动,svn版本主干分支管理混乱,总之各种low... 对于有强迫症的我来说,属实不可忍.但无奈,新人一个, ...

  7. 【HEVC帧间预测论文】P1.9 Coding Tree Depth Estimation for Complexity Reduction of HEVC

    Coding Tree Depth Estimation for Complexity Reduction of HEVC <HEVC标准介绍.HEVC帧间预测论文笔记>系列博客,目录见: ...

  8. easybcd 支持 windows 10 和 ubuntu 14.04 双系统启动

    家里计算机系统 windows 10 全新安装. 原本是双系统的,还有一个ubuntu. windows 10 安装以后,恢复ubuntu就是问题了. (事后经验:请不要立刻安装bcd修改工具) 最初 ...

  9. 机器学习在SAP Cloud for Customer中的应用

    关于机器学习这个话题,我相信我这个公众号1500多位关注者里,一定有很多朋友的水平比Jerry高得多.如果您看过我以前两篇文章,您就会发现,我对机器学习仅仅停留在会使用API的层面上. 使用Java程 ...

  10. SDUT_2146:最小子序列和

    题目描述 给你一个长为n(10<=n<=10000)的数组,数组中的每一个数大于等于1小于等于1000000.请你找出一个长为k(1<=k<=1000)的子序列.找序列时,假如 ...