测绘线性代数（四）：数学期望、协方差、PCA

数学期望

E(X) = ∑p_ix_i，X为所有xi的集合，p_i为x_i对应的概率。

通常来说，xi都是离散的，除非像高斯分布，假设xi不是离散的，才用上式。

当xi是离散的，那么：

E(X) = 1 / n * ∑ x_i，因为xi的概率都为 1 / n，这时数学期望相当于均值。

（那么高斯分布，E(X) = ∫ p(x)*x dx，∫其实就是sum中的s，只不过每次x的变化是dx，无限小。所以对于∫的看法，近似看作∑操作）

方差

D(X) = E{ [ X - E (X) ]²} （注：“{}”、“[]”只是代表括号的一个层次，不代表一种新的运算）

为了方便，令E(X) = μ

D(X) = E[ (X -μ )²]

等价于

D(X) = ∑ pi * ( x_i - μ )²

当X为离散集合时，等价于

D(X) = 1/ n ∑ ( x_i - μ )²

使用矩阵运算，代替∑操作，等价于

D(x) = 1 / n * [ x₁- μ , x₂- μ ... x_n- μ ][ x₁- μ , x₂- μ ... x_n- μ ] ^T

(那么高斯分布，自然是 D(X) = ∫ f(x) * [ x - E(X) ]² dx)

通常，令 σ_x²= D(x)， σ_x又叫中误差

数学意义：

1、仅仅考虑离散的时候，当 ( x_i - μ )² ，相当于x_i偏离均值μ的距离平方

2、1/ n ∑ ( x_i - μ )² ，相当于【偏离均值的距离平方】的均值。本质依然是【偏离均值μ的距离平方】。（平均身高，依然还叫身高的意思）

3、对以上开根号，即：sqrt ( D(X) )或 σ_x，那么，相当于【偏离均值μ的距离】

4、可以想象，其中x_j..x_k波动特别大，甚至符号相反， σ_x也会特别大（即使E(X)=0）, 所以， σ_x 一般用来形容数据的稳定程度 )

5、在高斯分布中，x 落在 [ μ - σ , μ + σ] 的概率大概是0.68

协方差

参考：马同学 (matongxue.com)

假如有：

	X	Y
样本1	152	45
样本2	160	54
样本3	172	44
样本4	175	64
样本5	180	80

如何表示这种数据？

表示一：

表示二：

协方差定义：

Cov(x,y) = Var(X) = σ_xy= E{ [ X - E(X) ] [ Y - E(Y) ] } （(x,y)代表X和Y的集合，X代表样本点）

当XY均为离散点时：

σ_xy= 1 / n ∑ ( x_i - μ_x ) ( y_i - μ_y )，（单位：x的单位*y的单位）

其中

( x_i - μ_x ) ( y_i - μ_y ) 正正是面积，分正负，那么σ_xy视为加权面积和

相关系数

ρ =σ_xy / (σ_x σ_y) ，没有单位， -1 ≤ ρ ≤ 1

协方差矩阵

协方差矩阵，其实和协方差不是同样的东西，它包含了方差、协方差的数据，正确来说，应该称为【方差-协方差矩阵】

xx的意思是，两个不同的集合

计算办法：

n为样本数量

XX_2*n= [ X,Y ]^T = [ [x1,x2,...xn] , [y1,y2,...yn] ]^T

X - E(X) = [ X - E(X) , Y - E(Y)] ^T，2 * n

Dxx = E { [ X - E(X) ][ X - E(X) ]^T}

降维

SVD分解：SVD分解 - 耀礼士多德 - 博客园 (cnblogs.com)

奇异值分解，可视为：

A_m*n= U_m*nΣ_n*nV^T_n*m= σ₁u₁v₁^T + σ₂u₂v₂^T + σ₃u₃v₃^T +....

σ₁ > σ₂ > σ₃

当σ₁>> σ₂时， A_m*n ≈ σ₁u₁v₁^T

其中，u₁ 为 m*1向量，v₁^T为 1 * n 向量，因此，对数据实现了降维，或者主成分提取

引用：(11 封私信 / 11 条消息) 如何通俗易懂地讲解什么是 PCA 主成分分析？ - 知乎 (zhihu.com)

PCA

y = x，那么其实只要保留y就可以了

进行中心化，即 X = X - E(X)

达到了降维，注意，降维了之后，就不是“面积”、“房价”了。

（直觉有一个向量是(1,1)或者(1,0)，不知道这个向量是什么含义）

非理想降维

总有一组e₁,e₂,正交单位向量，使得：

对于每个样本数据 a_i = [ x_i , y_i ][ e₁, e₂]^T = x_ie₁ + y_ie₂

注意：

1、a是一个向量，维度和样本点的维度是一样的。

2、无论e₁,e₂ 是哪两个，只要附合正交单位向量，那么【a的长度】是固定的

3、【a的长度】，应该就是【降维】后的主元1，它的值恒等于一个值 d_i² = x_i² + y_i²

那么，降维的理想情况，要x_i尽量的大，即分配给e1尽量多，那么，在计算a_i 时， y_ie_2、z_ie₃ 等等项，可以去掉。

最终要的成果是e1，以及降维后的一维数组[d1,d2,d3...]。

(如果多维，那么要e1,e2，以及两个数组D、E等)

设想：

（一）一个很扁的橄榄球，降维后只要一个平面，这个平面依然很像橄榄球。

（二）一堆二维点集，近似一条直线，降维后，只保留了D和e1，原来的数据量为 2 *n，现在只要 n + 2，d * e1依然看着是一条直线，只是部分偏离直线的样本失真了。

[X,Y]_n*2 = [d_i] _n*1e₁^T, e₁为 2*1的列向量

这里先考虑二维：

那么，有如下目标： ∑ x_i²最大（等价于∑di²最大），i由1~n，表示有n个样本。而且这里的x_i，是以e₁、e₂为基的坐标。

(假设样本，在e1,e2基下的坐标，为(x_i,y_i))

e₁ = [e₁₁,e₁₂]^T

x_i²，其实就是各个样本中心化向量a、b、c、d，投影在e₁ 上的长度平方

假设有样本：

a = [a₁,b₁]^T

b = [a₂,b₂]^T

c = [a₃,b₃]^T

（按照上边的原理，各个样本向量，应该是中心化后的）

∑ x_i²= (a^Te₁)² + (b^Te₁)²+ (c^Te₁)²

（a^Te₁就是点积操作，点积的几何意义，ab = |a||b|cosθ，当|b|等于1时，就是a投影在b上的长度）

等价于

∑ x_i²= (a₁e₁₁ + b₁e₁₂)²+(a₂e₁₁ + b₂e₁₂)²+ (a₃e₁₁ + b₃e₁₂)2

=( a₁²e₁₁²+ 2a₁b₁e₁₁e₁₂+ b₁²e₁₂²) + ( a₂²e₁₁²+ 2a₂b₂e₁₁e₁₂+ b₂²e₁₂²) + ( a₃²e₁₁²+ 2a₃b₃e₁₁e₁₂+ b₃²e₁₂²)

= ( a₁²+ a₂²+ a₃²)e₁₁²+ 2 (a₁b₁+ a₂b₂+a₃b₃)e₁₁e₁₂+ (b₁²+b₂²+b₃²+)e₁₂²

等价于：

(a_i = x_i - μ_x , 相当于上面介绍的，就是X、Y的方差-协方差矩阵，只是没有乘以1/n，对于向量而然，各个分量乘以一个常数是不影响的)

那么，令中间的矩阵为P，因为P为【对称矩阵】，那么就可以对角化成：

P = UΣU^T

U为正交矩阵

∑为对角矩阵，对角元素为 σ₁， σ₂ , 且 σ₁> σ₂

三个都为2*2矩阵

代入P ，得到：

∑ x_i² = e₁^TUΣU^Te₁=(U^Te₁)^TΣ (U^Te₁)

N = [n₁,n₂]^T = U^Te₁ = [u1,u2] [e₁₁,e₁₂]^T

(单位正交向量，被单位正交向量的分量线性组合，也是单位向量，也即是 |n| = 1)

∑ x_i² = N^TΣ N = σ₁ n₁+ σ₂ n₂

综合上述，需要满足如下条件，求得e₁ ：（求得e₁后，样本向量点积，就能求得各个xi，实现降维）

（目标是求 n1,n2，又从P = UΣU^T得到向量u1、u2，就可以求得e11,e12了）

（1）∑ x_i² = N^TΣ N = σ₁ n₁²+ σ₂ n₂²最大

（2）σ₁> σ₂

（3）|n| =1，也就是 n₁² + n₂² = 1

使用【拉格朗日乘数法】求【条件极值】：条件极值杀手——拉格朗日乘数法 - 知乎 (zhihu.com)

F = σ₁ n₁²+ σ₂ n₂²

条件：

φ = n₁² + n₂² - 1 = 0

解方程组：

F/dx + λ φ/dx = 0

F/dy + λ φ/dy = 0

φ = 0

解出x,y,λ，λ又叫【拉格朗日乘数】

当n1 =1 ,n2 =0 时，满足条件（怎么解以后再算）

那么：

n = [1,0]^T = U^Te₁ = [u1,u2] [e₁₁,e₁₂]^T

Un =UU^Te₁

因为U是正交单位阵，所以UU^T= I

因此：

e₁=U[1,0]^T

也就是e1, 取U的第一列，也就是奇异值最大的列。

（同理，如果令∑ x_i² 最小，可以得到e2）

求得：

e₁=(-0.78,-0.62)^T

e₂=(-0.62,0.78)^T

然后，用点积操作 x₁ = a^Te₁ = [a₁,b₁] e₁， y₁= a^Te₂= [a₁,b₁] e₂，点积，求出在以（e1, e2）基下的坐标。

例如：

x₁ = 5.4*(-0.78) + 4.4*(-0.62) = -6.94

x₁*e1 = (-6.94*-0.78 , -6.94*-0.62)^T= (5.4132,4.3)^T≈ a

还原：

a = x₁ e₁ + y₁ e₂

a = (a₁e₁₁+b₁e₁₂)e₁ + (a₁e₂₁ + b₁e₂₂) e₂

现在可以忽略掉y₁ e₂ ，因为y₁ 是微小值，起不到什么作用，最终实现了降维，保留了新的X集合，以及最大奇异值对应的特征向量。

在几何上，e₁ 向量为直线方向，e₂向量为垂直于直线方向。

测绘线性代数（四）：数学期望、协方差、PCA的更多相关文章

Lecture5_1&5_2.随机变量的数字特征（数学期望、方差、协方差）
一.数学期望 1.离散型随机变量的数学期望设X为离散随机变量,其概率分布为:P(X=xk)=pk 若无穷级数$\sum_{k=1}^{+\infty}x_kp_k$绝对收敛 (即满足$\sum_{k ...
【整理】简单的数学期望和概率DP
数学期望 P=Σ每一种状态*对应的概率. 因为不可能枚举完所有的状态,有时也不可能枚举完,比如抛硬币,有可能一直是正面,etc.在没有接触数学期望时看到数学期望的题可能会觉得很阔怕(因为我高中就是这么 ...
动态规划之经典数学期望和概率DP
起因:在一场训练赛上.有这么一题没做出来. 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6829 题目大意:有三个人,他们分别有$X,Y,Z$块钱 ...
[BZOJ 3143][HNOI2013]游走（数学期望）
题目:http://www.lydsy.com:808/JudgeOnline/problem.php?id=3143 分析: 易得如果知道了每条边经过的数学期望,那就可以贪心着按每条边的期望的大小赋 ...
Codeforces Round #259 (Div. 2) C - Little Pony and Expected Maximum （数学期望）
题目链接题意 : 一个m面的骰子,掷n次,问得到最大值的期望. 思路 : 数学期望,离散时的公式是E(X) = X1*p(X1) + X2*p(X2) + …… + Xn*p(Xn) p(xi)的是 ...
数学期望和概率DP题目泛做（为了对应AD的课件）
题1: Uva 1636 Headshot 题目大意: 给出一个000111序列,注意实际上是环状的.问是0出现的概率大,还是当前是0,下一个还是0的概率大. 问题比较简单,注意比较大小: A/C & ...
[2013山东ACM]省赛 The number of steps （可能DP，数学期望）
The number of steps nid=24#time" style="padding-bottom:0px; margin:0px; padding-left:0px; ...
【BZOJ2134】单位错选（数学期望，动态规划）
[BZOJ2134]单位错选(数学期望,动态规划) 题面 BZOJ 题解单独考虑相邻的两道题目的概率就好了没了呀.. #include<iostream> #include<cs ...
【BZOJ1415】【NOI2005】聪聪和可可（动态规划，数学期望）
[BZOJ1415][NOI2005]聪聪和可可(动态规划,数学期望) 题面 BZOJ 题解先预处理出当可可在某个点,聪聪在某个点时聪聪会往哪里走然后记忆化搜索一下就好了 #include< ...
【Luogu1291】百事世界杯之旅（动态规划，数学期望）
[Luogu1291]百事世界杯之旅(动态规划,数学期望) 题面洛谷题解设$f[i]$表示已经集齐了$i$个名字的期望现在有两种方法: 先说我自己的: \[f[i]=f[i-1]+1+ ...

随机推荐

diff算法是如何比较的，保证让你看的明明白白的！
更新dom节点,最小力度去跟新 index.html <body> <h1>你好啊!</h1> <button id="btn">该 ...
手写promise实现自定义封装多个回调函数的执行
自定义封装多个回调函数的执行 <script src="./Promise.js"></script> let p = new Promise((resol ...
【发现一个问题】VictoriaMetrics中，所有vmstorage在中午12:00切换索引，导致所有vm-insert发生oom
请看我提的issue: https://github.com/VictoriaMetrics/VictoriaMetrics/issues/2464 bug: vm v1.70.0, all vmst ...
AspnetCore接入Nacos配置中心
一.什么是nacos Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service的首字母简称,一个更易于构建云原生应用的动态服务发现.配置管理 ...
C/C++ 常用的四种查找算法
在计算机科学中,搜索算法是一种用于在数据集合中查找特定元素的算法.C语言作为一种强大的编程语言,提供了多种搜索算法的实现方式.本文将介绍C语言中的四种常见搜索算法其中包括(线性查找,二分法查找,树结构 ...
驱动开发：内核MDL读写进程内存
MDL内存读写是最常用的一种读写模式,通常需要附加到指定进程空间内然后调用内存拷贝得到对端内存中的数据,在调用结束后再将其空间释放掉,通过这种方式实现内存读写操作,此种模式的读写操作也是最推荐使用的相 ...
LeetCode刷题日记 2020/8/23
题目描述给定范围 [m, n],其中 0 <= m <= n <= 2147483647,返回此范围内所有数字的按位与(包含 m, n 两端点). 示例 1: 输入: [5,7] ...
【Python】一篇拿下类属性与类方法详解【超详细的注释和解释】
文章目录前言类的实例化类的非静态属性或方法(实例属性和方法) 类的静态属性和方法静态属性(静态成员变量) 静态方法类方法(静态成员函数) 总结属性的访问权限尾声前言先赞后看好习惯打 ...
P4103 [HEOI2014] 大工程题解
题目链接:大工程先考虑只有一次查询,很显然我们可以暴力树上 dp 处理出答案. 对于每个节点而言,有: 容易看出类似点分治逐个遍历子树计算前面一堆子树对后面子树的贡献思想,我们可以很容易的知道: 对 ...
小知识：Flex ASM特性对集群资源显示的影响
有客户咨询,认为19c RAC集群资源状态和11g RAC大不一样,比如在他们的19c集群,也是只部署2节点,却显示3个资源状态,其中第三个还是offline状态,担心是否有影响. 实际上这和Flex ...

测绘线性代数（四）：数学期望、协方差、PCA

测绘线性代数（四）：数学期望、协方差、PCA的更多相关文章

随机推荐

热门专题