起源:协方差自然是由方差衍生而来的,方差反应的是一个变量(一维)的离散程度,到二维了,我们可以对每个维度求其离散程度,但我们还想知道更多.我们想知道两个维度(变量)之间的关系,直观的举例就是身高和体重(青少年),我们采集到的数据里面有一种固有的性质,那就是身高越高的样本似乎总有着更大的体重,那我们如何衡量这种关系呢,单独求两个方差是不行的. 因此协方差应运而生,它的公式也与方差极度同源,方差是每个样本减去均值的平方后去平均(n-1),协方差就把平方的2拆成1+1,就是x减去x的平均,乘以,y减去…
covariance, co本能的想到双变量,用于描述两个变量之间的关系. correlation,相关性,covariance标准化后就是correlation. covariance的定义: 期望,实例减去均值,积 covariance matrix也就是相关性矩阵的原始形式,描述了一群变量之间的相互关系 一下是一个例子: For eg here’s an example : Covariance matrix is of dimension #cols * #cols, diagonal…
https://www.jianshu.com/p/e1c8270477bc?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation 三个式子分别表示了样本的平均值.样本方差无偏估计值.样本协方差的无偏估计值,如果把S.C中的N-1换做N就成了表示方差与协方差了. 函数名称:cov函数功能: 求协方差矩阵函数用法: cov(X)  % cov(X,0) = cov(…
今天想了一下关于概率论的一维数据期望.方差以及高维数据的矩阵表示,突然想到为什么在一维中 方差的表示为:V(x) = E((x-E(x))2) 而到了高维,这样的表述就成了协方差呢?V(X) = E((X-µ)(X-µ)T), 它为什么可以表示协方差呢?于是拿出笔自己推到了一下,果然! 详细推导过程见下图: 所以,我们可以得出 V(X) = E((X-µ)(X-µ)T) 其实就是描述了变量之间的协方差,就是协方差矩阵.…
title: [概率论]4-6:协方差和相关性(Covariance and Correlation) categories: - Mathematic - Probability keywords: - Covariance - Correlation - Properties of Covariance and Correlation toc: true date: 2018-03-26 10:44:07 Abstract: 本文介绍协方差和相关性的基础知识,以及部分性质 Keywords:…
基本理论 Correlation Are there correlations between variables? Correlation measures the strength of the linear association between two numerical variables. For example, you could imagine that for children, age correlates with height: the older the child,…
github:PCA代码实现.PCA应用 本文算法均使用python3实现 1. 数据降维   在实际生产生活中,我们所获得的数据集在特征上往往具有很高的维度,对高维度的数据进行处理时消耗的时间很大,并且过多的特征变量也会妨碍查找规律的建立.如何在最大程度上保留数据集的信息量的前提下进行数据维度的降低,是我们需要解决的问题.   对数据进行降维有以下优点:   (1)使得数据集更易使用   (2)降低很多算法的计算开销   (3)去除噪声   (4)使得结果易懂   降维技术作为数据预处理的一部…
在实际的问题中,我们往往想要通过已有的数据来分析判断两个事件的发生是否有相关性.当然一个角度去寻找这两个事件内在的逻辑关系,这个角度需要深究两个事件的本质,而另外一个角度就是概率论提供的简单方法:基于两个事件发生的概率,我们就能够描述两个随机变量的相关性. 其实通过后边的计算式我们能够好的理解协方差为什么在一定程度上表征了两个随机变量的相关性,感性的来讲,E[XY]就是一个实际的X.Y同时发生的事件,而E[X]E[Y]则是我们为了进行比较给出的一个“假想X.Y独立”的模型,比较实际情况与理想情况…
概率和信息论. 概率论,表示不确定性声明数学框架.提供量化不确定性方法,提供导出新不确定性声明(statement)公理.人工智能领域,概率法则,AI系统推理,设计算法计算概率论导出表达式.概率和统计理论分析AI系统行为.概率论提出不确定声明,在不确定性存在情况下推理.信息论量化概率分布不确定性总量.Jaynes(2003).机器学习经常处理不确定量,有时处理随机(非确定性)量.20世纪80年代,研究人员对概率论量化不确定性提出信服论据.Pearl(1998). 不确定性来源.被建模系统内存的随…
最近老是有人跟我提web service接口,怎么,怎么滴,我觉得很扎耳朵,web service是一种将服务器的服务封装起来的技术,表现为对外提供接口,所以,web service不是一种接口 !!!!!! 转载地址: http://blog.csdn.net/qq_19916577/article/details/44988015 一.序言 大家或多或少都听过WebService(Web服务),有一段时间很多计算机期刊.书籍和网站都大肆的提及和宣传WebService技术,其中不乏很多吹嘘和…
1. 卡尔曼滤波器介绍 卡尔曼滤波器的介绍, 见 Wiki 这篇文章主要是翻译了 Understanding the Basis of the Kalman Filter Via a Simple and Intuitive Derivation 感谢原作者. 如果叙述有误,欢迎指正! 2. 基本模型 2.1 系统模型 卡尔曼滤波模型假设k时刻的真实状态是从(k − 1)时刻的状态演化而来,符合下式: (1) Fk 是作用在 Xk−1 上的状态变换模型(/矩阵/矢量). Bk 是作用在控制器向量…
1. 卡尔曼滤波器介绍 卡尔曼滤波器的介绍, 见 Wiki 这篇文章主要是翻译了 Understanding the Basis of the Kalman Filter Via a Simple and Intuitive Derivation 感谢原作者. 如果叙述有误,欢迎指正! 2. 基本模型 2.1 系统模型 卡尔曼滤波模型假设k时刻的真实状态是从(k − 1)时刻的状态演化而来,符合下式: (1) Fk 是作用在 Xk−1 上的状态变换模型(/矩阵/矢量). Bk 是作用在控制器向量…
主成分分析(PCA)是一种基于变量协方差矩阵对数据进行压缩降维.去噪的有效方法,PCA的思想是将n维特征映射到k维上(k<n),这k维特征称为主元,是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关. 相关知识 介绍一个PCA的教程:A tutorial on Principal Components Analysis ——Lindsay I Smith 1.协方差 Covariance 变量X和变量Y的协方差公式如下,协方差是描述不同变量之间的相关关系,协方差>0时说…
一个例子: 两个盒子: 一个红色:2个苹果,6个橘子; 一个蓝色:3个苹果,1个橘子; 如下图: 现在假设随机选取1个盒子,从中.取一个水果,观察它是属于哪一种水果之后,我们把它从原来的盒子中替换掉.重复多次. 假设我们40%的概率选到红盒子,60%的概率选到蓝盒子.并且当我们把取出的水果拿掉时,选择盒子中任何一个水果还是等可能的. 问题: 1.整个过程中,取得苹果的概率有多大? 2.假设已经去的了一个橘子的情况下,这个橘子来自蓝盒子的可能性有多大? (这里,推荐一篇好文:数学之美番外篇:平凡而…
原理: 主成分分析 - stanford 主成分分析法 - 智库 主成分分析(Principal Component Analysis)原理 主成分分析及R语言案例 - 文库 主成分分析法的原理应用及计算步骤 - 文库 主成分分析之R篇 [机器学习算法实现]主成分分析(PCA)--基于python+numpy scikit-learn中PCA的使用方法 Python 主成分分析PCA 机器学习实战-PCA主成分分析.降维(好) 关于主成分分析的五个问题 多变量统计方法,通过析取主成分显出最大的个…
主成分分析PCA 降维的必要性 1.多重共线性--预测变量之间相互关联.多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯. 2.高维空间本身具有稀疏性.一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%. 3.过多的变量会妨碍查找规律的建立. 4.仅在变量层面上分析可能会忽略变量之间的潜在联系.例如几个预测变量可能落入仅反映数据某一方面特征的一个组内. 降维的目的: 1.减少预测变量的个数 2.确保这些变量是相互独立的 3.提供一个框架来解释结果 降维的方法有:主成…
Data Mining 主成分分析PCA 降维的必要性 1.多重共线性--预测变量之间相互关联.多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯. 2.高维空间本身具有稀疏性.一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%. 3.过多的变量会妨碍查找规律的建立. 4.仅在变量层面上分析可能会忽略变量之间的潜在联系.例如几个预测变量可能落入仅反映数据某一方面特征的一个组内. 降维的目的: 1.减少预测变量的个数 2.确保这些变量是相互独立的 3.提供一个框架来解释…
主成分分析PCA 降维的必要性 1.多重共线性--预测变量之间相互关联.多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯. 2.高维空间本身具有稀疏性.一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%. 3.过多的变量会妨碍查找规律的建立. 4.仅在变量层面上分析可能会忽略变量之间的潜在联系.例如几个预测变量可能落入仅反映数据某一方面特征的一个组内. 降维的目的: 1.减少预测变量的个数 2.确保这些变量是相互独立的 3.提供一个框架来解释结果 降维的方法有:主成…
Basic Concepts Probability concepts Terms Random variable A quantity whose possible values are uncertain. Outcomes The possible values of a random variable. Event A specified set of outcomes. Properties 0 <= P(E) <=1 Events Odds (赔率) Odds for the ev…
1.角度和弧度之间的转换公式? 设角度为 angle,弧度为 radian radian = angle * pi / 180; angle = radian * 180 / pi; 所以在matlab中经常设置一个参数,用于角度与弧度之间的转换:deg_rad=0.01745329252e0; 2.注意下面角度Angint的表示方法: Angint=[0,10,0]*deg_rad: 则:Angint(0) = 0;Angint(1) = 0.0175;Angint(2) = 0; 这种表示方…
Pearson's r,称为皮尔逊相关系数(Pearson correlation coefficient),用来反映两个随机变量之间的线性相关程度. 用于总体(population)时记作ρ (rho)(population correlation coefficient): 给定两个随机变量X,Y,ρ的公式为:  其中:   是协方差 是X的标准差 是Y的标准差 用于样本(sample)时记作r(sample correlation coefficient): 给定两个随机变量x,y,r的公…
如果你的职业定位是数据分析师/计算生物学家,那么不懂PCA.t-SNE的原理就说不过去了吧.跑通软件没什么了不起的,网上那么多教程,copy一下就会.关键是要懂其数学原理,理解算法的假设,适合解决什么样的问题.学习可以高效,但却没有捷径,你终将为自己的思维懒惰和行为懒惰买单. 2019年04月25日 不该先说covariacne matrix协方差矩阵的,此乃后话,先从直觉理解PCA.先看一个数据实例,明显的两个维度之间有一个相关性,大部分的方差可以被斜对角的维度解释,少数的noise则被虚线解…
目录 一.引言 1.什么是.为什么需要深度学习 2.简单的机器学习算法对数据表示的依赖 3.深度学习的历史趋势 最早的人工神经网络:旨在模拟生物学习的计算模型 神经网络第二次浪潮:联结主义connectionism 神经网络的突破 二.线性代数 1. 标量.向量.矩阵和张量的一般表示方法 2. 矩阵和向量的特殊运算 3. 线性相关和生成子空间 I. 方程的解问题 II. 思路 III. 结论 IV.求解方式 4. 范数norm I. 定义和要求 II. 常用的\(L^2\)范数和平方\(L^2\…
动机 在机器学习领域中,我们常常会遇到维数很高的数据,有些数据的特征维度高达上百万维,很显然这样的数据是无法直接计算的,而且维度这么高,其中包含的信息一定有冗余,这时就需要进行降维,总的来说,我们降维的主要目的有如下几条: 在原始的高维空间中,包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差,降低了准确率:而通过降维,我们希望减少冗余信息所造成的误差,提高识别(或其他应用)的精度. 希望通过降维算法来寻找数据内部的本质结构特征. 通过降维来加速后续计算的速度 还有其他很多目的,如解…
PCA(Principal Component Analysis)不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式. PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关.从旧特征到新特征的映射捕获数据中的固有变异性. 预备知识 样本X和样本Y的协方差(Covariance): Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)(n−1)Cov(X,Y)=∑i=1n(Xi−X…
前言            以下内容是个人学习之后的感悟,转载请注明出处~ 简介 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性.人们自然希望变量个数较少而得到的 信息较多.在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反 映此课题的信息有一定的重叠.主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立 尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有…
官方文档 1. 安装Pandas windos下cmd:pip install pandas 导入pandas包:import pandas as pd 2. Series对象 带索引的一维数组 创建: s = pd.Series([12,-4,7,9]) print (s) 0 12 1 -4 2 7 3 9 dtype: int64 s = pd.Series([12,-4,7,9], index = ['a', 'b', 'c', 'd']) print (s) a 12 b -4 c 7…
1. 皮尔逊相关系数(Pearson Correlation Coefficient) 1.1 衡量两个值线性相关强度的量 1.2 取值范围[-1, 1] 正相关:>0, 负相关:<0, 无相关:=0 1.3 要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下: 方差: Pearson相关系数公式如下: 注意:有了协方差,为什么还使用…
什么是pandas pandas是一种Python数据分析的利器,是一个开源的数据分析包,最初是应用于金融数据分析工具而开发出来的,因此pandas为时间序列分析提供了很好的支持.pandas是PyData项目的一部分. 官网:http://pandas.pydata.org/ 官方文档:http://pandas.pydata.org/pandas-docs/stable/ 安装pandas Python版本要求:2.7.3.4.3.5.3.6 依赖Python库:setuptools.Num…
一.WebService到底是什么 一言以蔽之:WebService是一种跨编程语言和跨操作系统平台的远程调用技术. 所谓跨编程语言和跨操作平台,就是说服务端程序采用java编写,客户端程序则可以采用其他编程语言编写,反之亦然!跨操作系统平台则是指服务端程序和客户端程序可以在不同的操作系统上运行. 所谓远程调用,就是一台计算机a上 的一个程序可以调用到另外一台计算机b上的一个对象的方法,譬如,银联提供给商场的pos刷卡系统,商场的POS机转账调用的转账方法的代码其实是跑在银 行服务器上.再比如,…