最近在回顾PCA方面的知识,发现对于之前的很多东西有了新的理解,下面和大家分享下我的一些个人的理解

1.我们为什么要用PCA,它能解决我什么问题?

  PCA(Principal Component Analysis),主成成分分析,常用于高维数据的降维。在企业级环境中,最终用于模型训练的数据集往往维度很高,占用内存空间更大。PCA的出现,能保证尽量保留数据更完整信息的同时,将数据降低到更低的维度,这样不仅占用内存空间更小,模型训练速度也明显加快! (这里的模型训练的速度的加快是   降维之前训练所用的时间  对比 降维所用的时间 + 降维之后训练所用的时间 )

2.PCA的理论分析

  PCA的目标:

        2.1:将原始数据集通过降维的方式,在新的坐标系下表示,新的坐标系的维度远低于原始维度。

        2.2:在新的坐标系下的表示应尽量保留相对完整的信息。

  对于2.2我们知道,完整的信息指的是数据间的差异。例如我们在做模型训练的时候,往往希望训练数据的分布是涵盖了所有的情况一样。我们用方差来衡量数据间的离散程度,这也是新坐标下的衡量指标,我们要找到这样的一组坐标系,使得原始数据在新坐标系下的方差最大。同时我们考虑到,如果从高维降低到一维,上面的论述是没有问题的,如果降低到k维度(1<k<n),那么每次都去寻找使方差最大的那条坐标轴得到的结果是k条结果是重合的。得到的新的坐标轴应该是在已得到坐标轴的基础之上,对原有数据未展示的信息做补充(为了最大化展示原有信息),所以我们期望得到的一组坐标系之间的坐标轴是两两互不相关的。

3.准备工作

  进行降维之前,让我们来做些准备工作。首先对数据进行0均值归一化,之后再做标准化处理。使得所有数据在同一量纲。

4.数学推导

  

上式中的μ为空间中的一个向量,x为经过特征工程处理过后的矩阵。第一个式子为我们的目标函数,第二个为最优解的约束,问题为在约束空间内求最优解的问题,用拉格朗日乘子来求解。

    得到下面的结果:

    

    其中我们使,为协方差矩阵。所以我们知道μ就是e的主特征向量。(关于特征向量和特征值的一些概念,可以参靠一些资料来复习下)

    我们的原始问题在此刻即转变为求e矩阵的TOPk个特征值对应的k个特征向量的问题

5.选几个?

对应最终的特征向量,我们选取几个,最终数据降低到几维度,那么,我们要怎么选取?

    

    假设上式为降维后对应的特征向量,那么根据特征值占比来选择最终保留的维度,即如果降低到1维  此时的特征值占比为(3/3+2+0.1),如果降低到二维度,此时的特征值占比为(3+2/3+2+0.1)

    如果要求信息量保留95%,那么根据特征值占比与目标值做比较,达到要求即可。

6.代码的实现

    

    上图代码是根据降低到最终的维度来做的,感兴趣的同学可以实现一下按照保留信息量来实现

    主播水平有限,如果有错的地方,欢迎大家批评指正!

参考资料:吴恩达机器学习公开课

     马同学高等数学公众号

        

浅谈PCA的更多相关文章

  1. [转]浅谈PCA的适用范围

    线性代数主要讲矩阵,矩阵就是线性变换,也就是把直线变成直线的几何变换,包括过原点的旋转.镜射.伸缩.推移及其组合.特征向量是对一个线性变换很特殊的向量:只有他们在此变换下可保持方向不变,而对应的特征值 ...

  2. 浅谈 PCA与SVD

    前言 在用数据对模型进行训练时,通常会遇到维度过高,也就是数据的特征太多的问题,有时特征之间还存在一定的相关性,这时如果还使用原数据训练模型,模型的精度会大大下降,因此要降低数据的维度,同时新数据的特 ...

  3. 浅谈 Fragment 生命周期

    版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/Fragment 文中如有纰漏,欢迎大家留言指出. Fragment 是在 Android 3.0 中 ...

  4. 浅谈 LayoutInflater

    浅谈 LayoutInflater 版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/View 文中如有纰漏,欢迎大家留言指出. 在 Android 的 ...

  5. 浅谈Java的throw与throws

    转载:http://blog.csdn.net/luoweifu/article/details/10721543 我进行了一些加工,不是本人原创但比原博主要更完善~ 浅谈Java异常 以前虽然知道一 ...

  6. 浅谈SQL注入风险 - 一个Login拿下Server

    前两天,带着学生们学习了简单的ASP.NET MVC,通过ADO.NET方式连接数据库,实现增删改查. 可能有一部分学生提前预习过,在我写登录SQL的时候,他们鄙视我说:“老师你这SQL有注入,随便都 ...

  7. 浅谈WebService的版本兼容性设计

    在现在大型的项目或者软件开发中,一般都会有很多种终端, PC端比如Winform.WebForm,移动端,比如各种Native客户端(iOS, Android, WP),Html5等,我们要满足以上所 ...

  8. 浅谈angular2+ionic2

    浅谈angular2+ionic2   前言: 不要用angular的语法去写angular2,有人说二者就像Java和JavaScript的区别.   1. 项目所用:angular2+ionic2 ...

  9. iOS开发之浅谈MVVM的架构设计与团队协作

    今天写这篇博客是想达到抛砖引玉的作用,想与大家交流一下思想,相互学习,博文中有不足之处还望大家批评指正.本篇博客的内容沿袭以往博客的风格,也是以干货为主,偶尔扯扯咸蛋(哈哈~不好好工作又开始发表博客啦 ...

随机推荐

  1. Unity 游戏框架搭建 2018 (二) 单例的模板与最佳实践

    Unity 游戏框架搭建 2018 (二) 单例的模板与最佳实践 背景 很多开发者或者有经验的老手都会建议尽量不要用单例模式,这是有原因的. 单例模式是设计模式中最简单的也是大家通常最先接触的一种设计 ...

  2. struts2-笔记

    文件下载http://struts.apache.org/download.cgi 第一步导入jar 包 在lib中有jar 包,不能把这些都导入到项目中 在apps 目录里面,找到实例程序,程序中直 ...

  3. Python图像处理:图像腐蚀与图像膨胀

    图像的膨胀(Dilation)和腐蚀(Erosion)是两种基本的形态学运算,主要用来寻找图像中的极大区域和极小区域.其中膨胀类似于“领域扩张”,将图像中的高亮区域或白色部分进行扩张,其运行结果图比原 ...

  4. hadoop jobhistory访问界面长时间打不开

    1.浏览器无法直接通过url访问 可能原因 :主机名未配置,因此无法识别,在 c:\windows\system32\drivers\etc 目录添加主机名和对应ip hostname1[主机名 ] ...

  5. Ubuntu12.04下zxing源码编译

    1.下载zxing源码 git clone https://github.com/15903016222/zxing-cpp.git 2.安装依赖工具cmake sudo apt-get instal ...

  6. DMVPN的实验模拟与分析

    此篇博客正在介绍的是下图中的DMVPN: 为什么会出现DMVPN这个技术呢? 在这篇博客中https://www.cnblogs.com/huwentao/p/9355240.html介绍过Dynam ...

  7. Python 爬虫 (三)

    #对第一章的百度翻译封装的函数进行更新 1 from urllib import request, parse from urllib.error import HTTPError, URLError ...

  8. STM32_2 简单分析startup函数

    ;******************** (C) COPYRIGHT STMicroelectronics ******************** ;* File Name : startup_s ...

  9. 【数据结构】循环链表&&双向链表详解和代码实例

    喜欢的话可以扫码关注我们的公众号哦,更多精彩尽在微信公众号[程序猿声] 01 循环链表 1.1 什么是循环链表? 前面介绍了单链表,相信大家还记得相关的概念.其实循环链表跟单链表也没有差别很多,只是在 ...

  10. 2017Facebook面试题改编“一面砖墙 ”

    题目:一面砖墙 这道题改编自网上Facebook去年的一道面试题,是hihoCoder的1494题(https://hihocoder.com/problemset/problem/1494) 这道题 ...