数据分析--降维--LDA和PCA】的更多相关文章

一.因子分析 因子分析是将具有错综复杂关系的变量(或样本)综合为少数几个因子,以再现原始变量和因子之间的相互关系,探讨多个能够直接测量,并且具有一定相关性的实测指标是如何受少数几个内在的独立因子所支配,并且在条件许可时借此尝试对变量进行分类. 因子分析的基本思想 根据变量间相关性的大小把变量分组,使得同组内的变量之间的相关性(共性)较高,并用一个公共因子来代表这个组的变量,而不同组的变量相关性较低(个性). 因子分析的目的¶ 因子分析的目的,通俗来讲就是简化变量维数.即要使因素结构简单化,希望以…
四大机器学习降维算法:PCA.LDA.LLE.Laplacian Eigenmaps 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中.降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式. y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的).f可能是显式的或隐式的.线性的或非线性的. 目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量表达的数据.之所以使用降维…
一.特征向量/特征值 Av = λv 如果把矩阵看作是一个运动,运动的方向叫做特征向量,运动的速度叫做特征值.对于上式,v为A矩阵的特征向量,λ为A矩阵的特征值. 假设:v不是A的速度(方向) 结果如上,不能满足上式的. 二.协方差矩阵 方差(Variance)是度量一组数据分散的程度.方差是各个样本与样本均值的差的平方和的均值. 协方差(Covariance)是度量两个变量的变动的同步程度,也就是度量两个变量线性相关性程度.如果两个变量的协方差为0,则统计学上认为二者线性无关.而方差是协方差的…
 LDA算法的主要优点有: 在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识. LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优. LDA算法的主要缺点有: LDA不适合对非高斯分布样本进行降维,PCA也有这个问题. LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA.当然目前有一些LDA的进化版算法可以绕过这个问题. LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好. LDA可能过度拟合数据…
一.LDA算法 基本思想:LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的.这点和PCA不同.PCA是不考虑样本类别输出的无监督降维技术. 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大. 浅显来讲,LDA方法的考虑是,对于一个多类别的分类问题,想要把它们映射到一个低维空间,如一维空间从而达到降维的目的,我们希望映射之后的数据间,两个类别之间“离得越远”,且类别内的数据点之间“离得越近”,这样…
线性模型之LDA和PCA 线性判别分析LDA LDA是一种无监督学习的降维技术. 思想:投影后类内方差最小,类间方差最大,即期望同类实例投影后的协方差尽可能小,异类实例的投影后的类中心距离尽量大. 二分类推导 给定数据集\(D=\{(x_i,y_i)\}_{i=1}^m\),令\(X_i,\mu_i,\sum_i\)分别表示第\(i\in \{0,1\}\)类实例的集合,均值,和协方差矩阵 则两类样本中心点在\(w\)方向直线的投影分别为\(w^Tu_0,w^Tu_1\):若将所有的样本点都投影…
本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式都是出自该书. 本博客仅为个人总结学习,非商业用途,侵删. 网址 http://www.ptpress.com.cn 目录: PCA最大方差理论 PCA最小平方误差理论 在机器学习中, 数据通常需要被表示成向量形式以输入模型进行训练. 但是在对向维向量进行处理和分析时, 会极大地消耗系统资源, 甚至产生维度灾难. 因此, 对特征向量进行降维, 即用一个低维度的向量表示原始高维度的特征就显得尤为重要. PCA(Principal C…
最近在找降维的解决方案中,发现了下面的思路,后面可以按照这思路进行尝试下: 链接:http://www.36dsj.com/archives/26723 引言 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中.降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式. y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的).f可能是显式的或隐式的.线性的或非线性的. 目前大部分降维算法…
转自github: https://github.com/heucoder/dimensionality_reduction_alo_codes 网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码:在此通过借鉴资料实现了一些经典降维算法的Demo(python),同时也给出了参考资料的链接. 降维算法 资料链接 展示 PCA https://blog.csdn.net/u013719780/article/details/78352262 https://blog.csdn.net/we…
大家看了之后,可以点一波关注或者推荐一下,以后我也会尽心尽力地写出好的文章和大家分享. 本文先导:在我们平时看NBA的时候,可能我们只关心球员是否能把球打进,而不太关心这个球的颜色,品牌,只要有3D效果,看到球员扣篮的动作就可以了,比如下图: 如果我们直接对篮球照片进行几百万像素的处理,会有几千维甚至几万维的数据要计算,计算量很大.而往往我们只需要大概勾勒出篮球的大概形状就可以描述问题,所以必须对此类数据降维,这样会使处理数据更加轻松.这个在人脸识别中必须要降维,因为我们在做特征提取的时候几万维…