参考:<深度学习500问> 期望 ​在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和.它反映随机变量平均取值的大小. 线性运算: \(E(ax+by+c) = aE(x)+bE(y)+c\) ​推广形式: \(E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}\) 函数期望:设\(f(x)\)为\(x\)的函数,则\(f(x)\)的期望为 离散函数: \(E(f(x))=\sum_{k=…
一起啃PRML - 1.2.2 Expectations and covariances 期望和协方差 @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ 涉及到概率的一个重要的操作是寻找函数的加权平均值.在概率分布p(x)下,函数f(x)的平均值被称为f(x)的期望(expectation),记作E[f].对于一个离散变量,它的定义为: 因此平均值根据x的不同值的相对概率加权.在连续变量的情形下,期望以对应的概率密度的积分的形式表示: 类似的,我们…
2.特征工程 2.1 数据集 2.1.1 可用数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci.edu/ml/ scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets 2.1.2 安装scikit-learn工具 pip3 install Scikit-learn==0.19.1 安装好之后可以通过…
题目: 题目要我们,在m个数中,选取n个数,求出这n个数的方差,求方差的最小值. 1.我们知道,方差是描述稳定程度的,所以肯定是着n个数越密集,方差越小. 所以我们给这m个数排个序,从连续的n个数中找. 2.方差公式D(x^2) = E(x^2)- E(x)^2; E(x) = x*f(x) dx (从负无穷到正无穷积分) E (x^2) = x^2*f(x) dx (从负无穷到正无穷积分) 3.对于这道题,相当于每个数的权值相同,也就是f(x)相同,都等于1/n.(可以理解f(x)表示概率)…
以下是我对张量的理解,备注是具体解释,Xmind导出的图片没法显示出来,主要还是将张量间的关系画出来,方便理解. 图1 张量…
最大似然估计 似然与概率 在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)和概率(Probability)是两个不同的概念.概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,抛之前我们不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%,这个概率只有在抛硬币之前才是有意义的,抛完硬币后的结果便是确定的:而似然刚好相反,是在确定的结果下去推测产…
然而很多时候,被筛选的特征在模型上线的预测效果并不理想,究其原因可能是由于特征筛选的偏差. 但还有一个显著的因素,就是选取特征之间之间可能存在高度的多重共线性,导致模型对测试集预测能力不佳. 为了在筛选特征之初就避免陷入这样的误区.介绍一种VIF(方差膨胀检验)方法,来对特征之间的线性相关关系进行检验,从而选取到独立性更好的特征,增强模型的解释能力. 1.可决系数R^2 1.1什么是可决系数 可决系数,亦称测定系数.决定系数.可决指数. 与复相关系数类似的,表示一个随机变量与多个随机变量关系的数…
https://www.quora.com/How-do-I-learn-mathematics-for-machine-learning   How do I learn mathematics for machine learning? Promoted by Time Doctor Software for productivity tracking. Time tracking and productivity improvement software with screenshots…
概率基础和R语言 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器.随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长.现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言. 要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域.让我们一起…
User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐.上文简单的介绍了相似性的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍: 1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity 皮尔森相关系数反应了两个变量之间的线性相关程度,它的取值在[-1, 1]之间.当两个变量的线性关系增强时,相关系数趋于1或-1:当一个变量增大,另一个变量也增大时…
第1章 组合分析 1.1 引言 1.2 计数基本法则 1.3 排列 1.4 组合 1.5 多项式系数 *1.6 方程的整数解个数 第2章 概率论公里 2.1 引言 2.2 样本空间和事件 2.3 概率论公里 2.4 几个简单命题 2.5 等可能结果的样本空间 *2.6 概率:连续集函数 2.7 概率:确信程度的度量 第3章 条件概率和独立性 3.1 引言 3.2 条件概率 3.3 贝叶斯公式 3.4 独立事件 3.5 P(●|F)是概率 第4章 随机变量 4.1 随机变量 4.2 离散型随机变量…
  上图讲述的两组数据,可以看到左图的数据离散度比较大,相关性比较弱,右图数据的相关性比较强:我们在使用PCA的时候,就是要将相关性强的数据进行降维,以减少处理的数据量. 那么怎么描述数据的相关性呢?使用期望,协方差以及相关系数:下面分别是左图和右图的数字特征:   其实其关键性做得是R,R说明了点间的相关性,但是想要知道R你必须要知道Sigma(X),想要知道Sigma(X)你有必须要知道期望,所以获取点间的关系,必须要求得期望和协方差. 协方差的价值有量个: 1.协方差大于零说明两套数据变化…
最近重新看了一下概率论,感觉很多东西都遗忘了,还会陷入各种误区,赶紧的纠正回来. 概率论这块,主要内容包括: 事件.条件概率.随机变量.随机变量的分布函数.概率密度.联合分布.期望.方差.协方差. 我自己的误区总结: 1.事件和随机变量 首先要明确样本空间是所有可能发生的事件的集合,它由全部基本事件组成.而事件是基本时间的集合,是样本空间的子集,事件是固定的,或者说事件的概率是固定的(贝叶斯学派加入的先验概率先不考虑).而随机变量一个映射,是从事件到实数的映射,随机变量表达了整个样本空间,描述了…
苏金明.2005.电子工业     1 语句末尾加 : 可以不显示到屏. who 查看变量 whos 列出变量信息 exist t 判断变量是否在空间中. help 函数 doc 函数 : doc format ;   2 数据类型 常数 : ans, eps浮点相对精度, realmax  relmin ,  pi ,   ij  虚数单位, inf 无限值, NaN 不合法值,computer计算机类型, version 版本. 变量名长度 namelengthmax 保留字 iskeywo…
皮尔逊相关系数 斯皮尔曼等级相关(Spearman Rank Correlation) http://wiki.mbalib.com/wiki/斯皮尔曼等级相关 从表中的数字可以看出,工人的考试成绩愈高其产量也愈高,二者之间的联系程度是很一致的,但是相关系数r=0.676 并不算太高,这是由于它们之间的关系并不是线性的,如果分别按考试成绩和产量高低变换成等级(见上表第3.4列),则可以计算它们之间的等级相关系数为1. Kendall tau rank correlation coefficien…
本文首发自公众号:RAIS,期待你的关注. 前言 本系列文章为 <Deep Learning> 读书笔记,可以参看原书一起阅读,效果更佳. 概率论 机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了. 概念 离散型 概率质量函数:是一个数值,概率,\(0\leq P(x)\leq 1\): 边缘概率分布:\(P(X=x)=\s…
主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是什么?我们可能还记得之前尼采兄讲过的9.2节的高斯混合模型.它有一个K维二值隐变量z,不仅只能取0-1两个值,而且K维中只能有1维为1.其他维必须为0,表示我们观察到的x属于K类中的哪一类.显然,这里的隐变量z就是个离散隐变量.不过我们容易想到,隐变量未必像kmeans或GMM这种聚类算法那样,非此…
一个例子: 两个盒子: 一个红色:2个苹果,6个橘子; 一个蓝色:3个苹果,1个橘子; 如下图: 现在假设随机选取1个盒子,从中.取一个水果,观察它是属于哪一种水果之后,我们把它从原来的盒子中替换掉.重复多次. 假设我们40%的概率选到红盒子,60%的概率选到蓝盒子.并且当我们把取出的水果拿掉时,选择盒子中任何一个水果还是等可能的. 问题: 1.整个过程中,取得苹果的概率有多大? 2.假设已经去的了一个橘子的情况下,这个橘子来自蓝盒子的可能性有多大? (这里,推荐一篇好文:数学之美番外篇:平凡而…
典型关联分析(Canonical Correlation Analysis,以下简称CCA)是最常用的挖掘数据关联关系的算法之一.比如我们拿到两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据.那么我们能不能说这两组数据是相关的呢?CCA可以帮助我们分析这个问题. 1. CCA概述 在数理统计里面,我们都知道相关系数这个概念.假设有两组一维的数据集X和Y,则相关系数$\rho$的定义为:$$\rho(X,Y) = \frac{cov(X,Y)}{\sqrt{D(X)}\…
本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ==================================================================== 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(ANOVA).因变量不只一个时,称为多元方差分析(MANOVA).有协变量时,称为协方差分析(ANCOVA)或多元协方差分析…
背景 经典MLP不能充分利用结构化数据,本文提出的DIN可以(1)使用兴趣分布代表用户多样化的兴趣(不同用户对不同商品有兴趣)(2)与attention机制一样,根据ad局部激活用户兴趣相关的兴趣(用户有很多兴趣,最后导致购买的是小部分兴趣,attention机制就是保留并激活这部分兴趣).   评价指标 按照user聚合样本,累加每个user组的sum(shows*AUC)/sum(shows).paper说实验表明GAUC比AUC准确稳定.   DIN算法         左边是基础模型,也…
在数据建模时,经常会用到多元高斯分布模型,下面就这个模型的公式并结合它的几何意义,来做一个直观上的讲解. 1, 标准高斯函数 高斯函数标准型: $f(x) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}$ 这个函数描述了变量 x 的一种分布特性,变量x的分布有如下特点: Ⅰ, 均值 = 0 Ⅱ, 方差为1 Ⅲ, 概率密度和为1 2, 一元高斯函数一般形式 一元高斯函数一般形式: $f(x) = \frac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)…
很好的入门资料 向面试官一句话解释卡尔曼滤波: 用上一次的最优状态估计和最优估计误差去计算这一次的先验状态估计和先验误差估计: 用1得到的本次先验误差估计和测量噪声,得到卡尔曼增益: 用1,2步骤得到所有先验误差估计和测量噪声,得到本次的最优估计. 一句话解释:对模型的预测值和实际的观测值进行加权,迭代计算出未来的状态. 对于上面三句话的一些解释: 先验:根据以往的结果去推导 后验:得到当前结果之后再去修正 卡尔曼增益作用:将"粗略估计"变成"最准确的估计" 卡尔曼…
一.基本名词 泛化(generalization) 训练集所训练的模型对新数据的适用程度. 监督学习(supervised learning) 训练数据的样本包含输入向量以及对应的目标向量. 分类( classification ):给每个输入向量分配到有限数量离散标签中的一个. 回归( regression ):输出由一个或者多个连续变量组成. 无监督学习(unsupervised learning) 训练数据由一组输入向量 x 组成,没有任何对应的目标值. 聚类(clustering):发现…
1.引言 在高斯混合和EM算法中,我们运用EM算法拟合混合模型,但是我们得考虑得需要多少的样本数据才能准确识别出数据中的多个高斯模型!看下面两种情况的分析: 第一种情况假如有 m 个样本,每个样本的维度是 n, 如果 n » m, 这时哪怕拟合出一个高斯模型都很困难,更不用说高斯混合, 为什么呢? 这和解多元线性方程组是一样的道理,就是自变量的个数多于非线性相关的方程的个数,这必然导致解的不唯一,虽然在解方程的时候可以随便选一个解满足方程组,但是对于某一实际数据集,往往样本对应的概率分布在客观上…
本文是斯坦福大学CS229机器学习课程的基础材料,原始文件下载 原文作者:Arian Maleki , Tom Do 翻译:石振宇 审核和修改制作:黄海广 备注:请关注github的更新. CS229 机器学习课程复习材料-概率论 目录 CS229 机器学习课程复习材料-概率论 概率论复习和参考 1. 概率的基本要素 1.1 条件概率和独立性 2. 随机变量 2.1 累积分布函数 2.2 概率质量函数 2.3 概率密度函数 2.4 期望 2.5 方差 2.6 一些常见的随机变量 3. 两个随机变…
若已知参考点(landmarks)的坐标,则状态向量中不必含有xL, 从而实现的仅为机器人在已知环境中的定位,求解大大减少(状态向量维度仅为运动状态).若想实现完整SLAM,必须将xL加入状态向量中. 扩展卡尔曼滤波(EKF)相对于卡尔曼滤波,可以进一步求解非线性问题(通过在目标点附近做泰勒展开的一级近似),但是依然建立在输入噪声和测量噪声均为高斯的前提下.高斯噪声的好处是它的e指数形式使得高斯与高斯的卷积.乘法结果依然是高斯,从Bayes理论推导出的EKF结果中,我们只用计算高斯分布的期望mu…
· 来源:http://www.dxy.cn/bbs/thread/6492633#6492633 6楼: “据我所知,SD( standard deviation )反应的是观测值的变异性,其表示平均数的代表性,而SEM是 standard error of mean, 是平均数的抽样误差,反应平均数的抽样准确性,由于真实值是不知道的,统计估计值的准确性无法度量,但利用统计学方法可以度量精确性.试验的误差来源有系统误差和抽样误差(随机误差),系统误差易于克服,抽样误差由许多无法控制的内因和外因…
(一)数据处理统计 一.最大值和最小值 1.求向量的最大值和最小值 y=max(X); %返回向量X的最大值存入y,如果X中含有复数则按模最大的存入y [y,I]=max(X);%返回向量X的最大值存入y,如果X中含有复数则按模最大的存入y:最大值的序号存入I. 求最小值min的用法与max完全相同. 2.求矩阵的最大值和最小值 max(A); %返回一个行向量,向量的第i个元素是矩阵A的第i列上的最大值 [Y,U]=max(A); %返回行向量A和U,Y向量记录A的每列的最大值,Y记录每列的最…
二项分布 | Binomial distribution 泊松分布 | Poisson Distribution 正态分布 | Normal Distribution | Gaussian distribution 负二项分布  | Negative binomial distribution 指数分布 | Exponential Distribution Βeta分布 | beta distribution Βeta二项分布 | Beta-binomial distribution 几何分布…