目录 问题 上的PCA Hron K, Menafoglio A, Templ M, et al. Simplicial principal component analysis for density functions in Bayes spaces[J]. Computational Statistics & Data Analysis, 2016: 330-350. 问题 我们知道一般的PCA,其数据是\(x \in \mathbb{R}^n\)的,事实上,已经有很多关于函数类数据的PC…
Principal Component Analysis(PCA) algorithm summary mean normalization(ensure every feature has sero mean) Sigma = 1/m∑(xi)(xi)T [U,S,V] = svd(Sigma)  ureduce = u(:,1:K) Z = ureduce ' * X Pick smallest value of k for which  ∑ki=1 Sii / ∑i=mi=1 Sii  >…
目录 引 一些微弱的假设: 问题的解决 理论 去随机 Dual Certificates(对偶保证?) Golfing Scheme 数值实验 代码 Candes E J, Li X, Ma Y, et al. Robust principal component analysis[J]. Journal of the ACM, 2011, 58(3). 引 这篇文章,讨论的是这样的一个问题: \[ M = L_0 + S_0 \] 有这样的一个矩阵\(M \in \mathbb{R}^{n_1…
目录 对以往一些SPCA算法复杂度的总结 Notation 论文概述 原始问题 问题的变种 算法 固定\(X\),计算\(R\) 固定\(R\),求解\(X\) (\(Z =VR^{\mathrm{T}}\)) \(T-\ell_0\)(新的初始问题) T-sp 考虑稀疏度的初始问题 T-en 考虑Energy的问题 代码 SPCArt算法,利用旋转(正交变换更为恰当,因为没有体现出旋转这个过程),交替迭代求解sparse PCA. 对以往一些SPCA算法复杂度的总结 注:\(r\)是选取的主成…
Abstract A cataract is lens opacification caused by protein denaturation which leads to a decrease in vision and even results in complete blindness at later stages. The concept of a classification system of automatic cataract detecting based on retin…
PCA的数学原理(非常值得阅读)!!!!   PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,…
Principal Component Analysis(PCA) 概念 去中心化(零均值化): 将输入的特征减去特征的均值, 相当于特征进行了平移, \[x_j - \bar x_j\] 归一化(标准化): 将输入的特征减去特征的均值, 得到的差在除以特征的标准差, \[{{x_j-\bar x_j}\over{std(x_j)}}\]在进行PCA之前, 一定要进行零均值化或者标准化 用途 数据压缩(Data Compression) 数据可视化(Data Visualization) 提高算…
主成分分析Principal Component Analysis 降维除了便于计算,另一个作用就是便于可视化. 主成分分析-->降维--> 方差:描述样本整体分布的疏密,方差越大->样本越稀疏,方差越小->样本越紧密 所以问题转化成了 --> 与线性回归对比,似乎有些类似.但它们是不同的! 不仅是公式上有区别,且对于线性回归来说,其纵轴轴 对应的是输出标记.而PCA中其两个轴都是表示特征. 且这些点是垂直于特征轴,而不是红线轴 PCA第一步:将样例的均值归为0(demean…
To summarize, principal component analysis involves evaluating the mean x and the covariance matrix S of the data set and then finding the M eigenvectors of S corresponding to the M largest eigenvalues. If we plan to project our data onto the first M…
0. 引言 本文主要的目的在于讨论PAC降维和SVD特征提取原理,围绕这一主题,在文章的开头从涉及的相关矩阵原理切入,逐步深入讨论,希望能够学习这一领域问题的读者朋友有帮助. 这里推荐Mit的Gilbert Strang教授的线性代数课程,讲的非常好,循循善诱,深入浅出. Relevant Link:  Gilbert Strang教授的MIT公开课:数据分析.信号处理和机器学习中的矩阵方法 https://mp.weixin.qq.com/s/gi0RppHB4UFo4Vh2Neonfw 1.…
目录 引 主要内容 EM算法求解 附录 极大似然估计 代码 Tipping M E, Bishop C M. Probabilistic Principal Component Analysis[J]. Journal of The Royal Statistical Society Series B-statistical Methodology, 1999, 61(3): 611-622. 引 PPCA 通过高斯过程给出了普通PCA一个概率解释,这是很有意义的.论文还利用PPCA进行缺失数据…
目录 问题 重要的定义 距离 支撑树 交树 序 tree-line path 重要的性质 其它 Alfaro C A, Aydin B, Valencia C E, et al. Dimension reduction in principal component analysis for trees[J]. Computational Statistics & Data Analysis, 2014: 157-179. Aydin B, Pataki G, Wang H, et al. A p…
@ 目录 问题 细节 的损失函数 算法 投影 坐标系 载荷向量 A pure L1-norm principal component analysis 虽然没有完全弄清楚其中的数学内涵,但是觉得有趣,记录一下. 问题 众所周知,一般的PCA(论文中以\(L_2-PCA\)表示)利用二范数构造损失函数并求解,但是有一个问题就是会对异常值非常敏感. 所以,已经有许多的PCA开始往\(\ell_1\)范数上靠了,不过我所知道的和这篇论文的有些不同. 像是Zou 06年的那篇SPCA中: 注意到,\(\…
本文摘自:http://www.cnblogs.com/longzhongren/p/4300593.html 以表感谢. 综述: 主成分分析 因子分析 典型相关分析,三种方法的共同点主要是用来对数据降维处理.经过降维去除了噪声. #主成分分析 是将多指标化为少数几个综合指标的一种统计分析方法. 是一种通过降维技术把多个变量化成少数几个主成分的方法,这些主成分能够反映原始变量的大部分信息,表示为原始变量的线性组合. 作用:1,解决自变量之间的多重共线性: 2,减少变量个数, 3,确保这些变量是相…
参考资料:Mastering Machine Learning With scikit-learn 降维致力于解决三类问题.第一,降维可以缓解维度灾难问题.第二,降维可以在压缩数据的同时让信息损失最 小化.第三,理解几百个维度的数据结构很困难,两三个维度的数据通过可视化更容易理解 PCA简介 主成分分析也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结 构的技术.PCA通常用于高维数据集的探索与可视化.还可以用于数据压缩,数据预处理等.PCA可…
主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是什么?我们可能还记得之前尼采兄讲过的9.2节的高斯混合模型.它有一个K维二值隐变量z,不仅只能取0-1两个值,而且K维中只能有1维为1.其他维必须为0,表示我们观察到的x属于K类中的哪一类.显然,这里的隐变量z就是个离散隐变量.不过我们容易想到,隐变量未必像kmeans或GMM这种聚类算法那样,非此…
主成分分析(PCA)是最常见的降维算法. 在PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都投射到该向量上时,我们希望投射平均均方误差能尽可能地小.方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度. 下面给出主成分分析问题的描述:问题是要将…
论文背景: 面对来袭的数据,连续样本不一定是不相关的,甚至不是同分布的. 当前,大部分在线PCA都只关注准确性,而忽视时效性! 噪声?数据缺失,观测有偏,重大异常? 论文内容: Section 2 Online Settings Online PCA, 就是在观察到\(x1, x2, x3, \dots, x_{t-1}\)后,"构造"一个\(k-\)维的子空间,通常用投影矩阵\(P^{(t)}\)表示--为了最小化残差\(\|x_t - P^{(t)}\|^2\) 这篇论文重点在于界…
目录 背景: 部分符号 创新点 文章梗概 The LASSO AND THE ELASTIC NET 将PCA改造为回归问题 定理二 单个向量(无需进行SVD版本) 定理三 多个向量(无需进行SVD, 非LASSO,非elastic net) 目标函数(最终版) 算法一 方差计算 复杂度 \(p \gg n\) 算法改进 数值实验(pitprops) 背景: sparse PCA 较 PCA来说更具可解释性,泛化性. 部分符号 \(\mathrm{X} \in \mathbb{R}^{n \ti…
目录 背景 Notation Sparse PCA Semidefinite Relaxation Low Rank Optimization Sorting and Thresholding 背景 懒得说了,毕竟和上一篇作者都是一个人,有特殊的情况是,上次做的复杂度过大,这次降低了复杂度. Notation Sparse PCA 在上篇论文里面,也提到了这个式子.上次是用它来进行一个robust的解释,这一次,是来试图解决这个问题. \(\Sigma_{ii} \quad i=1,2,\ldo…
目录 重点 算法 这篇文章,看的晕晕的,但是被引用了400多次了,就简单地记一笔. 这个东西,因为\(\ell_1\)范数,所以会稀疏化,当然,和\(\gamma\)有关. 重点 我想重点写的地方是下面这个改写: 他们这些人都太会玩了. 还有一些别的约束方法,比如\(\ell_0\): 这个问题不知道该怎么求解, 接下来,把单一向量的求解扩展到了块求解,这里只做一个记号. 算法…
目录 前言 文章概述 固定\(\widetilde{\mathrm{v}}\) 固定\(\widetilde{\mathrm{u}}\) Adjusted Variance 前言 这篇文章用的也是交替算法,不得不说,这个东西太好用了,变来变去怎么都能玩出花来.这篇论文的关键之处,我感觉是对adjusted variance的算法,比较让人信服. 文章概述 \(X是中心化的样本矩阵\) 考虑下面的一个最优分解(F-范数). 本文采取的也是一种搜索算法,每次计算一个载荷向量,所以,每次都处理的是ra…
最近太忙,又有一段时间没写东西了. pca是机器学习中一个重要的降维技术,是特征提取的代表.关于pca的实现原理,在此不做过多赘述,相关参考书和各大神牛的博客都已经有各种各样的详细介绍. 如需学习相关数学理论,请移驾.T_T 简单说一下pca的实现,首先对于一个矩阵X,我们计算X·XT,显然这个一个半正定矩阵,可以做特征值分解,然后取出k个最大的特征值及其对应的特征向量就可以表达整个原矩阵.若X·XT=p-1Λp,因为p是单位矩阵,所以p-1=pT,即X·XT=p-1·Λ1/2·(p-1·Λ1/…
KPCA,中文名称”核主成分分析“,是对PCA算法的非线性扩展,言外之意,PCA是线性的,其对于非线性数据往往显得无能为力,例如,不同人之间的人脸图像,肯定存在非线性关系,自己做的基于ORL数据集的实验,PCA能够达到的识别率只有88%,而同样是无监督学习的KPCA算法,能够轻松的达到93%左右的识别率(虽然这二者的主要目的是降维,而不是分类,但也可以用于分类),这其中很大一部分原因是,KPCA能够挖掘到数据集中蕴含的非线性信息. 今天突然心血来潮,想重新推导一下KPCA的公式,期间遇到了几个小…
KPCA,中文名称”核主成分分析“,是对PCA算法的非线性扩展,言外之意,PCA是线性的,其对于非线性数据往往显得无能为力,例如,不同人之间的人脸图像,肯定存在非线性关系,自己做的基于ORL数据集的实验,PCA能够达到的识别率只有88%,而同样是无监督学习的KPCA算法,能够轻松的达到93%左右的识别率(虽然这二者的主要目的是降维,而不是分类,但也可以用于分类),这其中很大一部分原因是,KPCA能够挖掘到数据集中蕴含的非线性信息. 1. 理论部分 KPCA的公式推导和PCA十分相似,只是存在两点…
作业文件 machine-learning-ex7 1. K-means聚类 在这节练习中,我们将实现K-means聚类,并将其应用到图片压缩上.我们首先 从二维数据开始,获得一个直观的感受K-means算法是如何工作的.之后我们将K-means算法应用到图片压缩上,通过减少出现在图片上的颜色的数量. 1.1 实现K-means K-means算法是一种聚类算法,自动将相似的的数据聚成一类.具体来说,给定一个数据集,我们想要将这些数据集聚成一个个簇,K-means的一个直观理解就是从猜测初始聚类…
PCA要做什么?       我们想将数据从二维降到一维,那么怎么找到这条好的直线对数据进行投影呢? 上图中红色的那条直线是个不错的选择,因为点到投影到这条直线上的点之间的距离(蓝色的线)非常小;反之那条粉红色的线,数据投影到这条线上的距离非常大,所以PCA会选择红色的那条线而不是粉色的那条线. PCA要做的就是寻找一个低维的面(本例中为直线),数据投影到上面,使得这些蓝色小线段的平方和达到最小值 这些蓝色线段的长度称为投影误差(projection error) 在应用PCA之前,通常进行fe…
PCA是机器学习中recognition中的传统方法,今天下午遇到了,梳理记一下 提出背景: 二维空间里,2个相近的样本,有更大概率具有相同的属性,但是在高维空间里,由于样本在高维空间里,呈现越来越稀疏的特性,即使相同属性的样本,距离也是随着维度提高,越来越远. 如100 * 100的照片分析,数据维度10000维,数据维度太高,计算机处理复杂度高,需要将维度降低(因为10000维里面数据之间存在相关关系,所以可以除去重复维度信息,而保持信息不丢失) 降维方法 1.以二维空间的5个样本X为例…
网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的 这里介绍的是另外一种降维的方法,Principal Components Analysis (PCA), 比Factor Analysis更为直接,计算也简单些 参考,A Tutorial on Principal Component Analysis, Jonathon Shlens   主成分分析基于, 在现实中,对于高维的数据,其中有很多维都是扰动噪音,…
我理解PCA应该分为2个过程:1.求出降维矩阵:2.利用得到的降维矩阵,对数据/特征做降维. 这里分成了两篇博客,来做总结. http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html 英文Principal Components Analysis的博客,这种思路挺好,但是有2处写错了,下面有标注. http://www.cnblogs.com/denny402/p/4020831.html 这个…