目录 引 kernel PCA kernel 的选择 性质 一些问题 代码 Scholkopf B, Smola A J, Muller K, et al. Nonlinear component analysis as a kernel eigenvalue problem[J]. Neural Computation, 1998, 10(5): 1299-1319. 引 普通的PCA将下式进行特征分解(用论文的话讲就是对角化): \[ C = \frac{1}{M} \sum \limits…
论文题目:<Domain Adaptation via Transfer Component Analysis> 论文作者:Sinno Jialin Pan, Ivor W. Tsang, James T. Kwok and Qiang Yang 论文链接:https://www.cse.ust.hk/~qyang/Docs/2009/TCA.pdf 会议期刊:IJCAI 2009 / IEEE Transactions on Neural Networks 2010 简介 领域自适应(Dom…
PCA的数学原理(非常值得阅读)!!!!   PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,…
目录 问题 重要的定义 距离 支撑树 交树 序 tree-line path 重要的性质 其它 Alfaro C A, Aydin B, Valencia C E, et al. Dimension reduction in principal component analysis for trees[J]. Computational Statistics & Data Analysis, 2014: 157-179. Aydin B, Pataki G, Wang H, et al. A p…
Principal Component Analysis(PCA) algorithm summary mean normalization(ensure every feature has sero mean) Sigma = 1/m∑(xi)(xi)T [U,S,V] = svd(Sigma)  ureduce = u(:,1:K) Z = ureduce ' * X Pick smallest value of k for which  ∑ki=1 Sii / ∑i=mi=1 Sii  >…
目录 引 一些微弱的假设: 问题的解决 理论 去随机 Dual Certificates(对偶保证?) Golfing Scheme 数值实验 代码 Candes E J, Li X, Ma Y, et al. Robust principal component analysis[J]. Journal of the ACM, 2011, 58(3). 引 这篇文章,讨论的是这样的一个问题: \[ M = L_0 + S_0 \] 有这样的一个矩阵\(M \in \mathbb{R}^{n_1…
目录 对以往一些SPCA算法复杂度的总结 Notation 论文概述 原始问题 问题的变种 算法 固定\(X\),计算\(R\) 固定\(R\),求解\(X\) (\(Z =VR^{\mathrm{T}}\)) \(T-\ell_0\)(新的初始问题) T-sp 考虑稀疏度的初始问题 T-en 考虑Energy的问题 代码 SPCArt算法,利用旋转(正交变换更为恰当,因为没有体现出旋转这个过程),交替迭代求解sparse PCA. 对以往一些SPCA算法复杂度的总结 注:\(r\)是选取的主成…
Abstract A cataract is lens opacification caused by protein denaturation which leads to a decrease in vision and even results in complete blindness at later stages. The concept of a classification system of automatic cataract detecting based on retin…
Principal Component Analysis(PCA) 概念 去中心化(零均值化): 将输入的特征减去特征的均值, 相当于特征进行了平移, \[x_j - \bar x_j\] 归一化(标准化): 将输入的特征减去特征的均值, 得到的差在除以特征的标准差, \[{{x_j-\bar x_j}\over{std(x_j)}}\]在进行PCA之前, 一定要进行零均值化或者标准化 用途 数据压缩(Data Compression) 数据可视化(Data Visualization) 提高算…
摘要:PCA为非监督分类方法,常用于数据降维.为监督分类数据预处理,本例采用PCA对人脸特征提取先做降维处理,然后使用KNN算法对图片进行分类 ##1.PCA简介 设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法.在本例中,主要用于降维处理. PCA 官方文档 2.KNN 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算…
主成分分析Principal Component Analysis 降维除了便于计算,另一个作用就是便于可视化. 主成分分析-->降维--> 方差:描述样本整体分布的疏密,方差越大->样本越稀疏,方差越小->样本越紧密 所以问题转化成了 --> 与线性回归对比,似乎有些类似.但它们是不同的! 不仅是公式上有区别,且对于线性回归来说,其纵轴轴 对应的是输出标记.而PCA中其两个轴都是表示特征. 且这些点是垂直于特征轴,而不是红线轴 PCA第一步:将样例的均值归为0(demean…
To summarize, principal component analysis involves evaluating the mean x and the covariance matrix S of the data set and then finding the M eigenvectors of S corresponding to the M largest eigenvalues. If we plan to project our data onto the first M…
0. 引言 本文主要的目的在于讨论PAC降维和SVD特征提取原理,围绕这一主题,在文章的开头从涉及的相关矩阵原理切入,逐步深入讨论,希望能够学习这一领域问题的读者朋友有帮助. 这里推荐Mit的Gilbert Strang教授的线性代数课程,讲的非常好,循循善诱,深入浅出. Relevant Link:  Gilbert Strang教授的MIT公开课:数据分析.信号处理和机器学习中的矩阵方法 https://mp.weixin.qq.com/s/gi0RppHB4UFo4Vh2Neonfw 1.…
ICA是一种用于在统计数据中寻找隐藏的因素或者成分的方法.ICA是一种广泛用于盲缘分离的(BBS)方法,用于揭示随机变量或者信号中隐藏的信息.ICA被用于从混合信号中提取独立的信号信息.ICA在20世纪80年代提出来,但是知道90年代中后期才开始逐渐流行起来. ICA的起源可以来源于一个鸡尾酒会问题,我们假设三个观测点x1,x2,x3,放在房间里同时检测三个人说话,另三个人的原始信号为s1,s2,s3,则求解的过程可以如下图所示: 定义 假设n个随机变量x1,x2,-.xn,由n个随机变量s1,…
目录 引 主要内容 EM算法求解 附录 极大似然估计 代码 Tipping M E, Bishop C M. Probabilistic Principal Component Analysis[J]. Journal of The Royal Statistical Society Series B-statistical Methodology, 1999, 61(3): 611-622. 引 PPCA 通过高斯过程给出了普通PCA一个概率解释,这是很有意义的.论文还利用PPCA进行缺失数据…
目录 问题 上的PCA Hron K, Menafoglio A, Templ M, et al. Simplicial principal component analysis for density functions in Bayes spaces[J]. Computational Statistics & Data Analysis, 2016: 330-350. 问题 我们知道一般的PCA,其数据是\(x \in \mathbb{R}^n\)的,事实上,已经有很多关于函数类数据的PC…
@ 目录 问题 细节 的损失函数 算法 投影 坐标系 载荷向量 A pure L1-norm principal component analysis 虽然没有完全弄清楚其中的数学内涵,但是觉得有趣,记录一下. 问题 众所周知,一般的PCA(论文中以\(L_2-PCA\)表示)利用二范数构造损失函数并求解,但是有一个问题就是会对异常值非常敏感. 所以,已经有许多的PCA开始往\(\ell_1\)范数上靠了,不过我所知道的和这篇论文的有些不同. 像是Zou 06年的那篇SPCA中: 注意到,\(\…
KPCA,中文名称”核主成分分析“,是对PCA算法的非线性扩展,言外之意,PCA是线性的,其对于非线性数据往往显得无能为力,例如,不同人之间的人脸图像,肯定存在非线性关系,自己做的基于ORL数据集的实验,PCA能够达到的识别率只有88%,而同样是无监督学习的KPCA算法,能够轻松的达到93%左右的识别率(虽然这二者的主要目的是降维,而不是分类,但也可以用于分类),这其中很大一部分原因是,KPCA能够挖掘到数据集中蕴含的非线性信息. 今天突然心血来潮,想重新推导一下KPCA的公式,期间遇到了几个小…
主成分分析(PCA)是最常见的降维算法. 在PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都投射到该向量上时,我们希望投射平均均方误差能尽可能地小.方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度. 下面给出主成分分析问题的描述:问题是要将…
KPCA,中文名称”核主成分分析“,是对PCA算法的非线性扩展,言外之意,PCA是线性的,其对于非线性数据往往显得无能为力,例如,不同人之间的人脸图像,肯定存在非线性关系,自己做的基于ORL数据集的实验,PCA能够达到的识别率只有88%,而同样是无监督学习的KPCA算法,能够轻松的达到93%左右的识别率(虽然这二者的主要目的是降维,而不是分类,但也可以用于分类),这其中很大一部分原因是,KPCA能够挖掘到数据集中蕴含的非线性信息. 1. 理论部分 KPCA的公式推导和PCA十分相似,只是存在两点…
catalog . 程序功能概述 . 感染文件 . 前置知识 . 获取ROOT权限: Linux Kernel <= - Local Privilege Escalation 1. 程序功能概述 . 得到root权限 . 感染文件 . 进行破坏 Relevant Link: https://github.com/karottc/linux-virus 2. 感染文件 该病毒采取感染.C源代码文件的方式进行传播感染,即在每个被感染的源代码的主函数中插入恶意函数的调用,以及在文件的其他位置插入恶意逻…
作者:桂. 时间:2017-05-22 12:12:43 链接:http://www.cnblogs.com/xingshansi/p/6884273.html 前言 今天群里冒出这样一个问题:群里谁有INFORMAX语音分离源程序?看到要程序的就头大,这是一个盲源分离问题,之前没有推导过,借此过一遍思路. 一.问题描述 经典的鸡尾酒宴会问题(cocktail party problem).假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里共放置了n个声音接收器(Microp…
本文摘自:http://www.cnblogs.com/longzhongren/p/4300593.html 以表感谢. 综述: 主成分分析 因子分析 典型相关分析,三种方法的共同点主要是用来对数据降维处理.经过降维去除了噪声. #主成分分析 是将多指标化为少数几个综合指标的一种统计分析方法. 是一种通过降维技术把多个变量化成少数几个主成分的方法,这些主成分能够反映原始变量的大部分信息,表示为原始变量的线性组合. 作用:1,解决自变量之间的多重共线性: 2,减少变量个数, 3,确保这些变量是相…
[引言]--PCA降维的作用 面对海量的.多维(可能有成百上千维)的数据,我们应该如何高效去除某些维度间相关的信息,保留对我们"有用"的信息,这是个问题. PCA给出了我们一种解决方案和思路. PCA给我的第一印象就是去相关,这和数据(图像.语音)压缩的想法是一致的.当然,PCA像是一种有损的压缩算法.但是不要紧,去除掉的信息也许是噪声呢,而且损失的信息不是"主要成分". PCA 降维的概念不是简单的去除原特征空间的某些维度,而是找出原特征空间的新的正交基,并且这个…
主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是什么?我们可能还记得之前尼采兄讲过的9.2节的高斯混合模型.它有一个K维二值隐变量z,不仅只能取0-1两个值,而且K维中只能有1维为1.其他维必须为0,表示我们观察到的x属于K类中的哪一类.显然,这里的隐变量z就是个离散隐变量.不过我们容易想到,隐变量未必像kmeans或GMM这种聚类算法那样,非此…
论文背景: 面对来袭的数据,连续样本不一定是不相关的,甚至不是同分布的. 当前,大部分在线PCA都只关注准确性,而忽视时效性! 噪声?数据缺失,观测有偏,重大异常? 论文内容: Section 2 Online Settings Online PCA, 就是在观察到\(x1, x2, x3, \dots, x_{t-1}\)后,"构造"一个\(k-\)维的子空间,通常用投影矩阵\(P^{(t)}\)表示--为了最小化残差\(\|x_t - P^{(t)}\|^2\) 这篇论文重点在于界…
目录 背景: 部分符号 创新点 文章梗概 The LASSO AND THE ELASTIC NET 将PCA改造为回归问题 定理二 单个向量(无需进行SVD版本) 定理三 多个向量(无需进行SVD, 非LASSO,非elastic net) 目标函数(最终版) 算法一 方差计算 复杂度 \(p \gg n\) 算法改进 数值实验(pitprops) 背景: sparse PCA 较 PCA来说更具可解释性,泛化性. 部分符号 \(\mathrm{X} \in \mathbb{R}^{n \ti…
目录 背景 Notation Sparse PCA Semidefinite Relaxation Low Rank Optimization Sorting and Thresholding 背景 懒得说了,毕竟和上一篇作者都是一个人,有特殊的情况是,上次做的复杂度过大,这次降低了复杂度. Notation Sparse PCA 在上篇论文里面,也提到了这个式子.上次是用它来进行一个robust的解释,这一次,是来试图解决这个问题. \(\Sigma_{ii} \quad i=1,2,\ldo…
目录 重点 算法 这篇文章,看的晕晕的,但是被引用了400多次了,就简单地记一笔. 这个东西,因为\(\ell_1\)范数,所以会稀疏化,当然,和\(\gamma\)有关. 重点 我想重点写的地方是下面这个改写: 他们这些人都太会玩了. 还有一些别的约束方法,比如\(\ell_0\): 这个问题不知道该怎么求解, 接下来,把单一向量的求解扩展到了块求解,这里只做一个记号. 算法…
目录 前言 文章概述 固定\(\widetilde{\mathrm{v}}\) 固定\(\widetilde{\mathrm{u}}\) Adjusted Variance 前言 这篇文章用的也是交替算法,不得不说,这个东西太好用了,变来变去怎么都能玩出花来.这篇论文的关键之处,我感觉是对adjusted variance的算法,比较让人信服. 文章概述 \(X是中心化的样本矩阵\) 考虑下面的一个最优分解(F-范数). 本文采取的也是一种搜索算法,每次计算一个载荷向量,所以,每次都处理的是ra…