机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
[comment]: # 机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言
最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第13章 - 利用PCA来简化数据。
这里介绍,机器学习中的降维技术,可简化样品数据。
降维技术的用途
- 使得数据集更易使用;
- 降低很多算法的计算开销;
- 去除噪声;
- 使得结果易懂。
基本概念
降维(dimensionality reduction)。
如果样本数据的特征维度很大,会使得难以分析和理解。我们可以通过降维技术减少维度。
降维技术并不是将影响少的特征去掉,而是将样本数据集转换成一个低维度的数据集。协方差(covariance)
协方差用于衡量两个变量的总体误差.协方差矩阵(covariance matrix)
对于一个N维的样品数据,\(X=[x_1, x_2, ..., x_n]^T\),其协方差矩阵是一个n * n的matrix,
元素\(C_{ij}\)是\(x_i\)和\(x_j\)的协方差。协方差矩阵的特征值(Eigenvalues)和特征向量(eigenvectors)
特征值:表示特征向量对应列的权重,越大说明特征向量对应列的影响越大。
特征向量:是一个n * n 的matrix,n是样本数据的特征数。用于降维转换。
降维转换过程:
在特征向量中,选出特征值最大的m列,形成一个m * n的降维向量矩阵。
对(去除平均值的)样本数据的每行数据,和降维矩阵相乘,得到一个m维的**降维数据**。
重构的数据 = **降维数据** * **降维矩阵的转置** + 平均值
核心算法解释
主成分分析(Principal Component Analysis,PCA)
- 基本原理
线性代数的理论:- 对一个n维的样本数据,通过其协方差矩阵,可以计算出特征值和特征向量。
- 选择特征值最大的前m项,可以将样本数据和特征向量进行计算,得到一个m维的降维数据集。
- 输入
- 数据集
- 应用的Feature数
- 输出
- 降维数据集
- 重构的数据集(可用于与原数据集比较)
- 逻辑过程
对数据集的每个Feature的数据,减去Feature的平均值。
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值从大到小排序
保留最上面的N个特征向量
使用前面提到的降维转换过程,转换数据集为降维数据集和重构的数据集
核心公式
协方差(covariance)
协方差用于衡量两个变量的总体误差.
cov(X, Y) & = E[(X-E(X))(Y-E(Y))] \\
& = E[XY] - E[X]E[Y]
\end{align} \\
where \\
\qquad E(X): mean(X)
\]
Matrix乘法运算
a * b^T = [a_{11}b_{11} + a_{12}b_{12} + ... + a_{1n}b_{1n}, ..., a_{11}b_{1m} + a_{12}b_{2m} + ... + a_{1n}b_{nm}] \\
where \\
\qquad \text{a: a is a n-dimensions vector.} \\
\qquad \text{b: b is a m * n of matrix).}
\]
参考
- Machine Learning in Action by Peter Harrington
- Covariance
- numpy.cov
- Eigenvalues and eigenvectors
机器学习实战 - 读书笔记(13) - 利用PCA来简化数据的更多相关文章
- 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想 在使用某个特定的算法是, ...
- 【转载】 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
- 机器学习实战 - 读书笔记(14) - 利用SVD简化数据
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...
- 【机器学习实战】第13章 利用 PCA 来简化数据
第13章 利用 PCA 来简化数据 降维技术 场景 我们正通过电视观看体育比赛,在电视的显示器上有一个球. 显示器大概包含了100万像素点,而球则可能是由较少的像素点组成,例如说一千个像素点. 人们实 ...
- 机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念 关联分析(associat ...
- 机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
- 《机器学习实战》学习笔记第十三章 —— 利用PCA来简化数据
相关博文: 吴恩达机器学习笔记(八) —— 降维与主成分分析法(PCA) 主成分分析(PCA)的推导与解释 主要内容: 一.向量內积的几何意义 二.基的变换 三.协方差矩阵 四.PCA求解 一.向量內 ...
- 机器学习实战 - 读书笔记(06) – SVM支持向量机
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第6章:SVM 支持向量机. 支持向量机不是很好被理解,主要是因为里面涉及到了许多数学知 ...
- 机器学习实战读书笔记(二)k-近邻算法
knn算法: 1.优点:精度高.对异常值不敏感.无数据输入假定 2.缺点:计算复杂度高.空间复杂度高. 3.适用数据范围:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训 ...
随机推荐
- 解决URL路径包含+等特殊符号,编码也无效的办法
<?xml version="1.0" encoding="UTF-8"?><configuration> <syste ...
- alt属性和title属性差异---终于分清楚了!
凡是接触过前端的开发者,相信都会接触到<img>标签,自然alt title更是不会陌生,但对他们真正的含义和使用方法,你确定了解吗? 参考: http://www.junchenwu.c ...
- ODAC(V9.5.15) 学习笔记(十九)主键值自动生成
ODAC支持通过Oracle的序列来自动生成表的主键功能.这个过程允许在客户端自动完成,不需要过多代码.这个对一些要求自动增长字段做主键的场合非常有用.其实现步骤为: 1.数据库必须先建立生成主键的序 ...
- WCF关于svcutil生成关于绑定出现 元数据包含无法解析的引用的解决方案
元数据包含无法解析的引用. 没有终结点在侦听可以接受消息的 net.tcp://localhost:8000/service.这通常是由于不正确的地址或者 SOAP 操作导致的.如果存在此情况,请参阅 ...
- Jquery实现ready()的源码
function bindReady(){ if ( readyBound ) return; readyBound = true; // Mozilla, Opera and webkit nigh ...
- 用Jekyll在github上写博客——《搭建一个免费的,无限流量的Blog》的注脚
本来打算买域名,买空间,用wordpress写博客的.后来问了一个师兄,他说他是用github的空间,用Jekyll写博客,说很多人都这么做.于是我就研究了一下. 比较有价值的文章有这么几篇: htt ...
- 年底奉献-QT编写视频监管平台(开源)
忙忙碌碌又是一年,算算自己毕业四年半,一直在现在这家公司做研发外加总经理助理,研发起初用的VB.NET,而后全面转为C#,最后又全面转为QT,都是由于项目需要,算下来自己搞QT编程也已经四年了,201 ...
- Maximum Entropy Markov Models for Information Extraction and Segmentation
1.The use of state-observation transition functions rather than the separate transition and observat ...
- 十二、EnterpriseFrameWork框架核心类库之与EntLib结合
从本章开始对框架的讲叙开始进入核心类库的讲解,前面都是对框架外在功能讲解,让人有个整体的概念,知道包含哪些功能与对系统开发有什么帮助.以后多章都是讲解核心类库的,讲解的方式基本按照代码的目录结构,这样 ...
- java中静态代码块的用法 static用法详解(转)
(一)java 静态代码块 静态方法区别一般情况下,如果有些代码必须在项目启动的时候就执行的时候,需要使用静态代码块,这种代码是主动执行的;需要在项目启动的时候就初始化,在不创建对象的情况下,其他程序 ...