PCA要做什么?       我们想将数据从二维降到一维,那么怎么找到这条好的直线对数据进行投影呢? 上图中红色的那条直线是个不错的选择,因为点到投影到这条直线上的点之间的距离(蓝色的线)非常小;反之那条粉红色的线,数据投影到这条线上的距离非常大,所以PCA会选择红色的那条线而不是粉色的那条线. PCA要做的就是寻找一个低维的面(本例中为直线),数据投影到上面,使得这些蓝色小线段的平方和达到最小值 这些蓝色线段的长度称为投影误差(projection error) 在应用PCA之前,通常进行fe…
主成分分析Principal Component Analysis 降维除了便于计算,另一个作用就是便于可视化. 主成分分析-->降维--> 方差:描述样本整体分布的疏密,方差越大->样本越稀疏,方差越小->样本越紧密 所以问题转化成了 --> 与线性回归对比,似乎有些类似.但它们是不同的! 不仅是公式上有区别,且对于线性回归来说,其纵轴轴 对应的是输出标记.而PCA中其两个轴都是表示特征. 且这些点是垂直于特征轴,而不是红线轴 PCA第一步:将样例的均值归为0(demean…
0. 引言 本文主要的目的在于讨论PAC降维和SVD特征提取原理,围绕这一主题,在文章的开头从涉及的相关矩阵原理切入,逐步深入讨论,希望能够学习这一领域问题的读者朋友有帮助. 这里推荐Mit的Gilbert Strang教授的线性代数课程,讲的非常好,循循善诱,深入浅出. Relevant Link:  Gilbert Strang教授的MIT公开课:数据分析.信号处理和机器学习中的矩阵方法 https://mp.weixin.qq.com/s/gi0RppHB4UFo4Vh2Neonfw 1.…
PCA的数学原理(非常值得阅读)!!!!   PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,…
目录 问题 上的PCA Hron K, Menafoglio A, Templ M, et al. Simplicial principal component analysis for density functions in Bayes spaces[J]. Computational Statistics & Data Analysis, 2016: 330-350. 问题 我们知道一般的PCA,其数据是\(x \in \mathbb{R}^n\)的,事实上,已经有很多关于函数类数据的PC…
@ 目录 问题 细节 的损失函数 算法 投影 坐标系 载荷向量 A pure L1-norm principal component analysis 虽然没有完全弄清楚其中的数学内涵,但是觉得有趣,记录一下. 问题 众所周知,一般的PCA(论文中以\(L_2-PCA\)表示)利用二范数构造损失函数并求解,但是有一个问题就是会对异常值非常敏感. 所以,已经有许多的PCA开始往\(\ell_1\)范数上靠了,不过我所知道的和这篇论文的有些不同. 像是Zou 06年的那篇SPCA中: 注意到,\(\…
Principal Component Analysis(PCA) algorithm summary mean normalization(ensure every feature has sero mean) Sigma = 1/m∑(xi)(xi)T [U,S,V] = svd(Sigma)  ureduce = u(:,1:K) Z = ureduce ' * X Pick smallest value of k for which  ∑ki=1 Sii / ∑i=mi=1 Sii  >…
目录 引 一些微弱的假设: 问题的解决 理论 去随机 Dual Certificates(对偶保证?) Golfing Scheme 数值实验 代码 Candes E J, Li X, Ma Y, et al. Robust principal component analysis[J]. Journal of the ACM, 2011, 58(3). 引 这篇文章,讨论的是这样的一个问题: \[ M = L_0 + S_0 \] 有这样的一个矩阵\(M \in \mathbb{R}^{n_1…
目录 对以往一些SPCA算法复杂度的总结 Notation 论文概述 原始问题 问题的变种 算法 固定\(X\),计算\(R\) 固定\(R\),求解\(X\) (\(Z =VR^{\mathrm{T}}\)) \(T-\ell_0\)(新的初始问题) T-sp 考虑稀疏度的初始问题 T-en 考虑Energy的问题 代码 SPCArt算法,利用旋转(正交变换更为恰当,因为没有体现出旋转这个过程),交替迭代求解sparse PCA. 对以往一些SPCA算法复杂度的总结 注:\(r\)是选取的主成…
Abstract A cataract is lens opacification caused by protein denaturation which leads to a decrease in vision and even results in complete blindness at later stages. The concept of a classification system of automatic cataract detecting based on retin…