吴恩达机器学习笔记（八） —— 降维与主成分分析法(PCA)

主要内容：

一.降维与PCA

二.PCA算法过程

三.PCA之恢复

四.如何选取维数K

五.PCA的作用与适用场合

一.降维与PCA

1.所谓降维，就是将数据由原来的n个特征(feature)缩减为k个特征(可能从n个中直接选取k个，也能根据这n个重新组合成k个)。可起到数据压缩的作用（因而也就存在数据丢失）。

2.PCA，即主成分分析法，属于降维的一种方法。其主要思想就是：根据原始的n个特征（也就是n维），重新组合出k个特征，且这k个特征能最大量度地涵盖原始的数据信息（虽然会导致信息丢失）。有一个结论：当某一维的方差越大时，其所包含的信息量也越大，表明其越重要；反之则反。所以，PCA的主要工作就是：重构出k个特征，使其所包含的信息量最大。

3.以下两个例子：

第一幅图：将平面上（二维）的点映射到一直线或向量上（一维），其丢失的信息量就是：每个点到直线上的距离。因为降维之后，就认为所有点都在直线上了。同理第二幅图将空间上投影到一个平面上。注意：这两个例子都选取了与原始数据尽可能“靠近”的直线或者平面，使得其保存下来的信息量最大。

二.PCA算法过程

1.首先，需要对数据特征进行归一化

2.求出特征的协方差矩阵

3.求出协方差矩阵的特征值及特征向量，这里可直接调用函数库

其中，S为对角矩阵，其对角线上的数就是协方差矩阵的特征值，而U就是协方差矩阵的特征向量。

而U的前k列就是我们要求的新特征（用于代替原来的n个特征，起到数据压缩的作用）。

所以，假设原始的数据特征为x（n维），经过用变换后变为z（k维），则有如下公式：

综上，PCA算法可总结为：

注：至于为什么要用到协方差矩阵，以及为什么要求特征向量等等一系列数学问题，这篇博客：PCA算法原理:为什么用协方差矩阵可以很好地解释。

（自己还没看懂，只有个感性的认识）

三.PCA之恢复

1.对人脸图像进行降维压缩的效果如下：

（这里只取了部分）

2.那么压缩后，是否可以再还原了？是可以的，只是在压缩时丢失的那部分数据找不回来了。恢复方式如下：

即：X(approx) = U(reduce) * Z

由图像可知：恢复后，所有的点后落在了直线上，所以丢失的数据即为原始点与直线的距离。

四.如何选取维数K

如果可能，k当然越小越好，k越小表明压缩的程度越高，但同时又要保证足够多的数据量。因此，选出最小的k，满足：

以下为其求解求解过程，并且我们可以直接调用函数库：

五.PCA的作用与适用场合

1.PCA用甚好好处？或者说有哪些应用？

1) 可以减少内存空间

2) 可以对算法进行提速

3) 可以用于数据可视化

2.既然PCA这么好用？那是不是可以随便用呢？答案否：

个人认为，PCA其实是个辅助工具，用不用它，从功能上而言没有太大区别，其区别就在于性能。也就是说，在用线性回归或者Logistic回归做一些事情时，如果直接运行，其效果或者说性能都比价可观了，那就无谓使用PCA了。当出现占用内存过大，或者运算时间过长等，这时就可以利用PCA来提升一下算法的性能了。

吴恩达机器学习笔记（八） —— 降维与主成分分析法(PCA)的更多相关文章

[吴恩达机器学习笔记]14降维5-7重建压缩表示/主成分数量选取/PCA应用误区
14.降维觉得有用的话,欢迎一起讨论相互学习~Follow Me 14.5重建压缩表示 Reconstruction from Compressed Representation 使用PCA,可以把 ...
[吴恩达机器学习笔记]14降维3-4PCA算法原理
14.降维觉得有用的话,欢迎一起讨论相互学习~Follow Me 14.3主成分分析原理Proncipal Component Analysis Problem Formulation 主成分分析( ...
吴恩达机器学习笔记（六） —— 支持向量机SVM
主要内容: 一.损失函数二.决策边界三.Kernel 四.使用SVM (有关SVM数学解释:机器学习笔记(八)震惊!支持向量机(SVM)居然是这种机) 一.损失函数二.决策边界对于: 当C非常 ...
[吴恩达机器学习笔记]12支持向量机5SVM参数细节
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.5 SVM参数细节标记点选取标记点(landma ...
[吴恩达机器学习笔记]12支持向量机3SVM大间距分类的数学解释
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.3 大间距分类背后的数学原理- Mathematic ...
[吴恩达机器学习笔记]12支持向量机2 SVM的正则化参数和决策间距
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.2 大间距的直观理解- Large Margin I ...
[吴恩达机器学习笔记]12支持向量机1从逻辑回归到SVM/SVM的损失函数
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.1 SVM损失函数从逻辑回归到支持向量机为了描述 ...
[吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数
11. 机器学习系统的设计觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 11.3 偏斜类的误差度量 Error Metr ...
Coursera-AndrewNg(吴恩达)机器学习笔记——第三周
一.逻辑回归问题(分类问题) 生活中存在着许多分类问题,如判断邮件是否为垃圾邮件:判断肿瘤是恶性还是良性等.机器学习中逻辑回归便是解决分类问题的一种方法.二分类:通常表示为yϵ{0,1},0:&quo ...

随机推荐

转: 微信开源C/C++ RPC框架PhxRPC
转自: http://mp.weixin.qq.com/s?__biz=MzI4NDMyNTU2Mw==&mid=2247483734&idx=1&sn=da364812eca ...
Web终端之使用shellinabox在浏览器进行ssh登录
shellinbox有一个内建的web server作为基本的web ssh client,允许你通过指定的端口访问linux服务器的ssh shell,只要你的浏览器支持AJAX/JS/CSS就可以 ...
java把一个文件的内容复制到另外一个文件
/** * java把一个文件的内容复制到另外一个文件 */import java.io.File;import java.io.FileInputStream;import java.io.File ...
微信小程序 - 考试状态不同显示
未开考 .已交卷. 考试中 .考试结束 #ddd #f00 #ff0 默认禁用色禁用的button仅有style起作用,四个状态,通过wx:if ... elif ... e ...
[LeetCode] Decode Ways 解码方法个数、动态规划
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' - ...
Android · 获取网络图片
import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileOutputStream; import j ...
ASP.NET MVC深入浅出系列(持续更新) ORM系列之Entity FrameWork详解（持续更新）第十六节：语法总结(3)(C#6.0和C#7.0新语法) 第三节：深度剖析各类数据结构(Array、List、Queue、Stack)及线程安全问题和yeild关键字各种通讯连接方式设计模式篇第十二节: 总结Quartz.Net几种部署模式(IIS、Exe、服务部署【借
ASP.NET MVC深入浅出系列(持续更新) 一. ASP.NET体系从事.Net开发以来,最先接触的Web开发框架是Asp.Net WebForm,该框架高度封装,为了隐藏Http的无状态模 ...
【Java】事件驱动模型和观察者模式
你有一件事情,做这件事情的过程包含了许多职责单一的子过程.这样的情况及其常见.当这些子过程有如下特点时,我们应该考虑设计一种合适的框架,让框架来完成一些业务无关的事情,从而使得各个子过程的开发可以专注 ...
Linux进入单用户模式
有时候配置linux的过程中,因为一些误操作导致系统初始化时堵塞或挂起而无法进入系统,原因往往是因为配置文件设置错误,部分文件被误删之类.遇到这种情况一般新手的做法就是重装(虚拟机不装白不装),但在实 ...
CentOS Python 安装MySQL-python
一.安装mysql yum list | grep mysql >>yum install -y mysql-server mysql mysql-devel CentOS 7的yum源中 ...

吴恩达机器学习笔记（八） —— 降维与主成分分析法(PCA)

吴恩达机器学习笔记（八） —— 降维与主成分分析法(PCA)的更多相关文章

随机推荐

热门专题