• 本文首发自公众号:RAIS,期待你的关注。

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

概率论

机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了。

概念

离散型

  • 概率质量函数:是一个数值,概率,\(0\leq P(x)\leq 1\);
  • 边缘概率分布:\(P(X=x)=\sum_{y} P(X=x, Y=y)\)
  • 期望:\(EX=\sum_xP(x)f(x)\)

连续型

  • 概率密度函数:是一个积分,\(F_X(x)=\int_{-\infty}^xf_X(t)dt\);
  • 边缘概率分布:\(p(x)=\int p(x,y)dy\)
  • 期望:\(EX=\int P(x)f(x)dx\)

条件概率

\[P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
\]

相互独立

\[P(X=x,Y=y)=P(X=x)P(Y=y)
\]

条件独立

\[P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z)
\]

方差

\[D(X)=Var(X)=E\{[X-E(X)]^2\}
\]

标准差

\[\sigma(X)=\sqrt{D(X)}
\]

协方差

\[Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}
\]

相关系数

\[\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
\]

常用分布

分布 分布律或概率密度 期望 方差
(0-1)分布 \(P\{X=k\}=p^k(1-p)^{1-k},k=0,1\) \(p\) \(p(1-p)\)
二项分布 \(P\{X=k\}=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k}\) \(np\) \(np(1-p)\)
均匀分布 \(f(x)=\begin{cases}\frac{1}{b-1},\,\,\,\,\,a<x<b\\0,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\)
几何分布 \(P\{X=k\}=(1-p)^{k-1}p\) \(\frac{1}{p}\) \(\frac{1-p}{p^2}\)
泊松分布 \(P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!}\) \(\lambda\) \(\lambda\)
指数分布 \(f(x)=\begin{cases}\frac{1}{\theta}e^{-\frac{x}{\theta}},\,\,x>0\\0,\,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\theta\) \(\theta^2\)
正态分布 \(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(\mu\) \(\sigma^2\)

这里需要特别说一下 正态分布,也叫 高斯分布。当我们先验知识不足而不知道该选择什么样的分布时,正态分布是比较好的默认分布:第一,由 中心极限定理 知道,许多随机变量在大量重复试验时都会近似服从正态分布;第二,在具有相同方差的所有可能分布中,正态分布在实数上具有最大的不确定性,因此我们认为正态分布是对模型加入先验知识最少的分布。

以上这些是大学概率论中就已经介绍过的了,下面这些是大学较少接触的,但是在机器学习的领域是很有用的。

范畴分布(Multinoulli 分布)

范畴分布是指在具有 k 个不同状态的单个离散型随机变量上的分布。什么意思呢?我们对比来说这个问题:

分布 英文名 试验次数 结果可能数 例子
伯努利分布 Bernoulli distribution 1 2 扔一次硬币,正面向上概率
二项分布 Binomial distribution 多次 2 扔多次硬币,正面向上次数
范畴分布 Multinoulli distribution 1 多个 扔一次骰子,3点向上概率
多项式分布 Multinmial distribution 多次 多个 扔3次骰子,分别为1,2,3点

Laplace 分布

拉普拉斯分布。与指数分布可以对比着来看,看图:

Dirac delta 函数

狄拉克δ函数 或简称 δ函数,定义是在除 0 外其他点都为0,积分为 1 的函数。原点处无限高无限细,总面积为 1。

经验分布

是统计学中一种方法,简要概括为:用样本估计总体,总体是未知的,我们拿到了一些样本,用这些样本去估计总体。不懂可以查看:这里

\[F_n(x)=\begin{cases}0,\,\,\,\,\,\,x<x_1\\\frac{k}{n},\,\,\,\,\,\,x_k\leq x<x_{k+1},k=1,2,...,n-1\\1,\,\,\,\,\,\,x_n\leq x\end{cases}
\]

高斯混合模型

混合分布的定义为将一些简单的已有的概率分布来定义新的概率分布。其中非常强大且常见的混合模型是高斯混合模型。它的混合的组件是高斯分布(正态分布)。这个话题展开来说问题太多了,不适合在本处展开,但是要记住这个问题非常重要。

常用函数有用性质

logistic sigmoid 函数

\[\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1}
\]

逻辑回归函数。logistic 函数或者 sigmoid 函数对应的图像是 sigmoid 曲线,是一条 S 形曲线。值域:(0, 1),从这里是不是就可以理解为什么我们之前的电影评论是好是坏二分类问题的最后一层激活函数用 sigmoid 了。

softplus 函数

\[\zeta(x)=ln(1+e^x)
\]

值域是 0 到正无穷。它的作用是用来产生正态分布的参数,在处理 sigmoid 函数的表达式时,也会出现。

贝叶斯规则

\[P(x|y)=\frac{P(x)P(y|x)}{P(y)}
\]

总结

如上这些内容是《Deep Learning》中涉及到的概率论相关的知识,内容有些分散,但是要记住,日后发现弄不懂的问题可以回来查看。这一篇就到这里。

  • 本文首发自公众号:RAIS,期待你的关注。

【Deep Learning读书笔记】深度学习中的概率论的更多相关文章

  1. The Activation Function in Deep Learning 浅谈深度学习中的激活函数

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激 ...

  2. 《Deep Learning》(深度学习)中文版 开发下载

    <Deep Learning>(深度学习)中文版开放下载   <Deep Learning>(深度学习)是一本皆在帮助学生和从业人员进入机器学习领域的教科书,以开源的形式免费在 ...

  3. Neural Networks and Deep Learning(神经网络与深度学习) - 学习笔记

    catalogue . 引言 . 感知器及激活函数 . 代价函数(loss function) . 用梯度下降法来学习-Learning with gradient descent . 用反向传播调整 ...

  4. 吴恩达 Deep learning 第一周 深度学习概论

    知识点 1. Relu(Rectified Liner Uints 整流线性单元)激活函数:max(0,z) 神经网络中常用ReLU激活函数,与机器学习课程里面提到的sigmoid激活函数相比有以下优 ...

  5. 浅谈深度学习中的激活函数 - The Activation Function in Deep Learning

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激活 ...

  6. Deep Learning深入研究整理学习笔记五

    Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

  7. Deep Learning论文笔记之(一)K-means特征学习

    Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  8. 深度学习中的序列模型演变及学习笔记(含RNN/LSTM/GRU/Seq2Seq/Attention机制)

    [说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...

  9. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

随机推荐

  1. 在GitHub上分享自己的项目

    GitHub主要是用作基于Git的分布式版本管理系统的库,可以保存和管理自己的代码,而且主要用作代码的合作开发. 注册GitHub后你就会有0.3G的免费空间,不过只能创建公开项目,这也满足代码分享的 ...

  2. 【转载】Oracle Spatial中SDO_Geometry详细说明

    转载只供个人学习参考,查看请前往原出处:http://www.cnblogs.com/upDOoGIS/archive/2009/05/20/1469871.html 相关微博:oracle 创建SD ...

  3. Ubunt 16.04 安装 Beyond compare 4

    1. 下载安装包: 2. 安装步骤 3. 运行并注册 之前Beyond compare 3 只有32位,在Ubunt 16.04上运行效率非常低,所以只有安装最新的Beyond compare 4,安 ...

  4. idea激活教程(永久)支持2019 3.1 亲测

    此教程已支持最新2019.3版本 本教程适用Windows.Mac.Ubuntu等所有平台. 激活前准备工作 配置文件修改已经不在bin目录下直接修改,而是通过Idea修改 如果输入code一直弹出来 ...

  5. USB小白学习之路(7) FPGA Communication with PC by CY7C68013,TD_init()解析

    注:这个TD_Init()只对EP6进行了配置,将其配置成为Bluk_In端口,而没有对EP2进行配置.这篇文章直接把寄存器的图片贴上来了,看起来比较杂.感兴趣的可以看下一篇文章,是转自CSDN,对E ...

  6. list转map,set,使用stream进行转化

    #list转map,set,使用stream进行转化 函数式编程: 场景: 从数据库中取出来的数据,经常是list集合类型,但是list转map这种场景虽然不常见,但是有时候也会遇到,最常见的还是转为 ...

  7. Python:turtle库的使用及图形绘制

    目录 一.绘制一个八边形 二.绘制一个八角图形 三.简述问题 四.循环程序设计 五.绘制一个自己喜欢的图形 一.绘制一个八边形 使用turtle库,绘制一个八边形 代码: from turtle im ...

  8. Docker实战之Kafka集群

    1. 概述 Apache Kafka 是一个快速.可扩展的.高吞吐.可容错的分布式发布订阅消息系统.其具有高吞吐量.内置分区.支持数据副本和容错的特性,适合在大规模消息处理场景中使用. 笔者之前在物联 ...

  9. 沙雕与大婶 | Mock调你的外部依赖吧

    故事背景: 沙雕在公司负责API项目的开发,很认真负责,经常加班加点赶进度,却常常被老板吐槽说他开发效率太低,他自己也很委屈,因为他所负责的项目常常依赖大量外部系统,他只好等对方开发完才一个个对接,开 ...

  10. 正式学习MVC 01

    1.新建项目 点击创建新项目,选择ASP.NET web应用程序,对项目进行命名后点击创建. 截图如下: 取消勾选HTTPS配置 可选择空 + mvc 或直接选定MVC 2.目录结构分析 1) App ...