特征值 特征向量 正交分解 PCA】的更多相关文章

无意间想到的,有时间会补充内容. 还记得学线性代数时计算矩阵的特征值和特征向量,然后这个矩阵就可以用这个特征值和特征向量表示. 这样就可以理解成矩阵其实是多个向量拼在一起的,这样就可以将矩阵和向量建立联系. 特征值和特征向量其实就是寻求原向量组合的最简单表示,因为向量是可以分解和组合的. 为什么要用特征值和特征向量:原因是解耦合.等价变换. PCA又是什么呢:主成分分析,就是选取特征值较大的特征向量代替原特征值和特征向量实现降维, 降维的优点是减少计算量,缺点是损失精度.…
PCA, Principle Component Analysis, 主成份分析, 是使用最广泛的降维算法. ...... (关于PCA的算法步骤和应用场景随便一搜就能找到了, 所以这里就不说了. ) 假如你要处理一个数据集, 数据集中的每条记录都是一个\(d\)维列向量. 但是这个\(d\)太大了, 所以你希望把数据维度给降下来, 既可以去除一些冗余信息, 又可以降低处理数据时消耗的计算资源(用computation budget 来描述可能更形象). 用稍微正式点的语言描述: 已知:一个数据…
一.复习几个矩阵的基本知识 1. 向量 1)既有大小又有方向的量成为向量,物理学中也被称为矢量,向量的坐标表示a=(2,3),意为a=2*i + 3*j,其中i,j分别是x,y轴的单位向量. 2)向量的点乘:a · b 公式:a · b = b · a = |a| * |b| * cosθ = x1 * x2 + y1 * y2点乘又叫向量的内积.数量积,是一个向量a和它在另一个向量b上的投影的长度的乘积,结果是一个标量: 如果两个向量的点乘是零, 那么这两个向量正交. 2)向量的叉乘:a X …
一.SVD    1.含义: 把矩阵分解为缩放矩阵+旋转矩阵+特征向量矩阵. A矩阵的作用是将一个向量从V这组正交基向量的空间旋转到U这组正交基向量的空间,并对每个方向进行了一定的缩放,缩放因子就是各个奇异值,如果V维度比U大,则说明进行了投影. SVD分解表示把旋转.缩放.特征向量分离出来. 二.SVD与奇异值   1.计算上: U的列为AAT的正交特征向量 V的列为ATA的正交特征向量 2.含义上: 都是抽取一个矩阵的主要部分 3.不同点: 特征值分解只有缩放,没有旋转:所有矩阵都可以奇异值…
一.理论概述 1)问题引出 先看如下几张图: 从上述图中可以看出,如果将3个图的数据点投影到x1轴上,图1的数据离散度最高,图3其次,图2最小.数据离散性越大,代表数据在所投影的维度上具有越高的区分度,这个区分度就是信息量.如果我们用方差来形容数据的离散性的话,就是数据方差越大,表示数据的区分度越高,也就是蕴含的信息量是越大的. 基于这个知识,如果对数据进行降维的话,图1投影到x1轴上面,数据的离散度最大:图2投影到x2轴上离散度最大,图3呢?图3需要找到一个新的坐标轴,使其投影到上面的数据方差…
写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了.本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法解释PCA,并举一个实例一步步计算,然后再进行数学推导,最后再介绍一些变种以及相应的程序.(数学推导及变种下次再写好了) 正文: 在数据处理中,经常会遇到特征维度比样本数量多得多的情况,如果拿到实际工程中去跑,效果不一定好.一是因为冗余的特征会带来一些噪音,影响计算的结果:二是因为无关的特征会加大计…
先看一眼PCA与KPCA的可视化区别: 在PCA算法是怎么跟协方差矩阵/特征值/特征向量勾搭起来的?里已经推导过PCA算法的小半部分原理. 本文假设你已经知道了PCA算法的基本原理和步骤. 从原始输入空间到特征空间 普通PCA算法的输入: 训练数据集\(D={x_1, \dots, x_m}\), \(x_i \in R^n\). 目标降维维度: \(d\) 新的测试数据\(x\) Kernel PCA则需要在输入中加入一个指定的 kernel function \(\kappa\). 我们已经…
A tutorial on Principal Components Analysis 原著:Lindsay I Smith, A tutorial on Principal Components Analysis, February 26, 2002. 翻译:houchaoqun.时间:2017/01/18.出处:http://blog.csdn.net/houchaoqun_xmu  |  http://blog.csdn.net/Houchaoqun_XMU/article/details…
第13章 利用 PCA 来简化数据 降维技术 场景 我们正通过电视观看体育比赛,在电视的显示器上有一个球. 显示器大概包含了100万像素点,而球则可能是由较少的像素点组成,例如说一千个像素点. 人们实时的将显示器上的百万像素转换成为一个三维图像,该图像就给出运动场上球的位置. 在这个过程中,人们已经将百万像素点的数据,降至为三维.这个过程就称为降维(dimensionality reduction) 数据显示 并非大规模特征下的唯一难题,对数据进行简化还有如下一系列的原因: 使得数据集更容易使用…
一.定义 主成分分析(principal components analysis)是一种无监督的降维算法,一般在应用其他算法前使用,广泛应用于数据预处理中.其在保证损失少量信息的前提下,把多个指标转化为几个综合指标的多元统计方法.这样可达到简化数据结构,提高分信息效率的目的. 通常,把转化生成的综合指标称为主成分,其中每个成分都是原始变量的线性组合,且每个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能. 一般,经主成分分析分析得到的主成分与原始变量之间的关系有: (1)每个主成分都…