---------------------------------

大数定律:大量样本数据的均值(样本值之和除以样本个数),近似于随机变量的期望(标准概率*样本次数)。(样本(部分)趋近于总体)
中心极限定理:大量样本数据的均值(或者样本和\众数、极差等等,或者任意的非正态的分布都可以)的频率分布,服从正态分布(样本越大,越吻合正态分布)。

大数定律研究的是在什么条件下,这组数据依概率收敛于他们的均值。

中心极限定理研究的是在什么条件下,这些样本依分布收敛于正太分布。

依概率收敛就是强收敛,随机过程中成为强平稳。依分布收敛就是弱收敛,随机过程中成为弱平稳。

 

the size of sample is 4,and mean of it is as aboved.

size--> infinit.  approach of normal distribution.

--------------------------------------------------------

如何证明“分布函数右连续”

 

若定义分布函数F(x)=P{X<=x}的话,则分布函数是右连续的,若定义分布函数是F(x)=P{X<x}的话,分布函数是左连续的。
 

关于分布函数右连续,不是特别理解,求助_概率论与数理统计吧_百度贴吧
https://tieba.baidu.com/p/4522353705

整理图片

----------------
 

------------------------

我们学过的各种分布的应用有:

0-1分布:抛一次硬币,新生儿的性别登记,产品质量的合格与否,电力消耗是否超负荷;

二项分布:射击击中与否的概率,机器是否发生故障;

泊松分布:主要描述大量重复实验中稀有事件发生的次数,即小概率事件,如一本书一页的印刷的错误数、某地区一天邮递遗失的信件数、某一天医院的急诊病人数、一段时间发生交通事故的概率;

几何分布:为了刷到某一分数而参加考试的次数,刷到理想分数就停止;

均匀分布:人工栽培的有一定的均匀间距的树木,从头到尾的排队的人数等;

指数分布:旅客进入机场的时间间隔、许多电子产品的寿命,但人的寿命不属于指数分布;

正态分布:一个地区的男性成年人的身高、测量某零件长度的误差,海洋波浪的高度、半导体器件中的热噪声电流或电压。

需要补的知识点:

课程中所讲授的这几类分布在生活中都有着广泛的应用,譬如:某国家的人的身高、某个省的各个高程值以及 12 岁学生的数学考试分数,这些都是正态分布的应用样例;如果多次抛掷硬币,则在一连串抛币动作中硬币正面朝上的次数也将接近正态分布。在模拟模型中对气体浓度建模时、对某十字路口发生交通事故的时间间隔建模时,以及使用“创建随机点”工具放置随机点时都可以使用均匀分布。在十字路口接连发生的两次交通事故的时间间隔、夜晚在天空两次看到流星的时间间隔,以及街道上各坑洼处之间的距离,这些都是指数分布的典型例子。泊松分布的应用事件可以是十字路口的事故发生次数、出生缺陷数量或一平方公里内驼鹿的数量;此外,泊松分布可以对小概率事件进行建模。

据我了解,概率统计中使用到的分布还有:

整数分布,这是一种离散形式的均匀分布,是指定区间内所有离散值都具有相同概率的一种概率分布状态。

Gamma分布,这是一种连续型概率分布,用于对多个呈指数分布的独立变量的总和建模,可将它视为是指数分布的特例。

负二项分布,这是一种离散型概率分布。负二项分布是在伯努利试验的基础上得出的。负二项分布可以用来分析要抛掷硬币多少次才能使其连续五次都正面朝上。因此,负二项分布的建模对象是

互为对偶的离散型分布与连续型分布,可以看作是由同一个函数——源函数产生的。源函数的正线性组合、乘积和负导数,仍然是源函数。源函数揭示了互为对偶的分布的分布函数之间的相互关系,并能用来求随机变量的数字特征、特征函数、概率母函数、分布的最大值和参数的极大似然估计.

成功之前的失败次数。

-----------------------

贝叶斯公式针对的是某一个过程中已知结果发生求出事件过程的某个条件成立的概率
全概率公式针对的是某一个过程中已知条件求出最后结果的概率
全概率公式是在分块和总的有条件概率的基础上运作的

条件概率相关联与相互独立的关系
相互独立a虽然发生了但是对b不产生任何影响
相互独立:a事件的发生不影响b事件的发生概率
不相容: a事件发生,b一定不发生

独立:没关系
不相容:有关系,互斥

事件A和B的交集为空,A与B就是互斥事件,也叫互不相容事件.指两事件不可能同时发生.
事件A和B的交集不为空,A与B相容.指两事件可能同时发生.

注 意 : (1 1 ) 独 立 事 件 的 条 件 概 率 与 条 件 无 关 ,
(2 2 ) 独 立 事 件 计 算 概 率 尽 可 能 表 示 为 乘 积 事 件.

F(x) 随机变量的分布函数,定义是一个概率;大于等于0,小于等于1
密度函数仅仅要求大于等于零;负无穷到正无穷的积分等于1就可以了,并不要求函数是小于1的

泊松分布最常见的一个应用就是,它作为了排队论的一个输入。

比如在一段时间t(比如 1 个小时)内来到食堂就餐的学生数量肯定不会是一个常数(比如一直是 200 人),而应该符合某种随机规律:

假如在 1 个小时内来 200 个学生的概率是 10%,来 180 个学生的概率是 20%……一般认为,这种随机规律服从的就是泊松分布。

这个
分布是S.-D.泊松研究二项分布的渐近公式时提出来的。泊松分布P (λ)中只有一个参数λ ,它既是泊松分布的均值,也是泊松分布的方差。生活中,当一个随机事件,例如来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。

其实泊松分布在日常中还是很好辨别的,因为他有一个累计的过程。曾看到一篇用泊松分布来分析美国治安的例子,引来给大家看看: 美国枪击案假定它们满足"泊松分布"的三个条件:

(1)枪击案是小概率事件。 
  (2)枪击案是独立的,不会互相影响。

(3)枪击案的发生概率是稳定的。 
显然,第三个条件是关键。如果成立,就说明美国的治安没有恶化;如果不成立,就说明枪击案的发生概率不稳定,正在提高,美国治安恶化。根据资料,1982--2012年枪击案的分布情况如下:

计算得到,平均每年发生2起枪击案,所以 λ = 2 。

上图中,

蓝色的条形柱是实际的观察值,

红色的虚线是理论的预期值。

可以看到,

观察值与期望值还是相当接近的。

我们用"卡方检验",检验观察值与期望值之间是否存在显著差异。卡方统计量 = Σ[(观察值-期望值)^2/期望值] 
        计算得到,卡方统计量等于9.82。查表后得到,置信水平0.90、自由度7的卡方分布临界值为12.017。因此,卡方统计量小于临界值,这表明枪击案的观察值与期望值之间没有显著差异。所以,可以接受"发生枪击案的概率是稳定的"假设,也就是说,从统计学上无法得到美国治安正在恶化的结论。 
       但是,也必须看到,卡方统计量9.82离临界值很接近,p-value只有0.18。也就是说,对于"美国治安没有恶化"的结论,我们只有82%的把握,还有18%的可能是我们错了,美国治安实际上正在恶化。因此,这就需要看今后两年中,是否还有大量枪击案发生。如果确实发生了,泊松分布就不成立了。

泊松分布实例:
 
例子1:  时间段
1). 背景: 我们想要测量 某餐厅 drive-through 周末早上, 15 分钟间隔内 顾客的人数.
假设顾客在不同的15分钟间隔内到达餐厅的概率是相同的,并且相互不影响, 这样我们就可以使用Poisson Distribution, 根据历史数据 周末早上15 分钟间隔内到达餐厅的人数平均值是 10, 在这种情况下我们能构建PMF
P( X ) = (10^x * e^-10) / x!  其中lambda是固定已知的,此处为10.
P( 5 ) = (10 ^ 5 * e ^-10)/5! = 0.0378
  
2). 根据1) 我们可以知道 以 15分钟为间隔的来5个顾客的概率是 0.0378, 但是如果我们想要知道 以 3 分钟Wie间隔的来5个顾客的概率呢?
解:  我们可以根据历史数据 计算每分钟来的人数 10 / 15 = 2/3; 然后 2/3 * 3 计算出 历史数据 3mins间隔下的顾客人数为2. 使用 P( 5 )计算出相对应的概率.
 
 
例子2: 长度/距离
背景: 我们想要知道新建的高速公路上每隔3英里, 产生的会有多少个坑, ( 前提条件不赘述), 根据历史数据, 每英里会有2 个坑, 则平均为 6. 构建PMF (x) = (6^x * e^-6) / x!
 
 

PMF( 概率质量函数 ): 是对 离散随机变量 的定义. 是 离散随机变量 在各个特定取值的概率. 该函数通俗来说,就是 对于一个离散型概率事件来说, 使用这个函数来求它的各个成功事件结果的概率.

PDF ( 概率密度函数 ): 是对 连续性随机变量 的定义. 与PMF不同的是 PDF 在特定点上的值并不是该点的概率, 连续随机概率事件只能求一段区域内发生事件的概率, 通过对这段区间进行积分来求. 通俗来说, 使用这个概率密度函数 将 想要求概率的区间的临界点( 最大值和最小值)带入求积分. 就是该区间的概率.

 

各种分布及应用场合(建模对象)
http://www.360doc.com/content/14/0110/18/15459877_344179498.shtml

在一个时间段内事件平均发生的次数服从泊松分布,这个次数在泊松分布中用lambda表示。这个lambda在指数分布里面的意义基本是一样的,也是在一个时间段内事件平均发生的次数。

泊松分布表示的是事件发生的次数,“次数”这个是离散变量,所以泊松分布是离散随机变量的分布。

指数分布是两件事情发生的平均间隔时间,“时间”是连续变量,所以指数分布是一种连续随机变量的分布。

可以用等公交车作为例子:
某个公交站台一个小时内出现了的公交车的数量 就用泊松分布来表示
某个公交站台任意两辆公交车出现的间隔时间 就用指数分布来表示

概率论与数理统计 Q&A:的更多相关文章

  1. 【概率论与数理统计】小结3 - 一维离散型随机变量及其Python实现

    注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质.对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib ...

  2. 概率论与数理统计图解.tex

    \documentclass[UTF8,a1paper,landscape]{ctexart} \usepackage{tikz} \usepackage{amsmath} \usepackage{a ...

  3. 【概率论与数理统计】小结4 - 一维连续型随机变量及其Python实现

    注:上一小节总结了离散型随机变量,这个小节总结连续型随机变量.离散型随机变量的可能取值只有有限多个或是无限可数的(可以与自然数一一对应),连续型随机变量的可能取值则是一段连续的区域或是整个实数轴,是不 ...

  4. 【总目录】——概率论与数理统计及Python实现

    注:这是一个横跨数年的任务,标题也可以叫做“从To Do List上划掉学习统计学”.在几年前为p值而苦恼的时候,还不知道Python是什么:后来接触过Python,就喜欢上了这门语言.统计作为数据科 ...

  5. MATLAB中的概率论与数理统计

    概率论与数理统计 产生随机数 binornd poissrnd exprnd unidrnd normrnd 概率密度函数(pdf) binopdf poisspdf geopdf unidpdf n ...

  6. 概率论与数理统计讲课PPT和往年期末试卷

    讲课PPT 第17课:数理统计的基本概念 注 : 我会陆续把讲课PPT放上去,大家可以下载. 往年试卷及解答 往年期末试卷及解答 注 : 供同学们参考以备考.

  7. 概率论与数理统计ppt链接

    http://e-learning.ecust.edu.cn/G2S/Template/View.aspx?courseId=26835&topMenuId=72352&action= ...

  8. Probability&Statistics 概率论与数理统计(1)

    基本概念 样本空间: 随机试验E的所有可能结果组成的集合, 为E的样本空间, 记为S 随机事件: E的样本空间S的子集为E的随机事件, 简称事件, 由一个样本点组成的单点集, 称为基本事件 对立事件/ ...

  9. 【机器学习理论】概率论与数理统计--假设检验,卡方检验,t检验,F检验,方差分析

    显著性水平α与P值: 1.显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示. 显著性是对差异的程度而言的,是在进行假设检验前确定的一个可允许作为判断界限的小概率标准. 2.P值是用来 ...

随机推荐

  1. mySQL 教程 第4章 数据查询

    mySQL运算符 这些运算符在SQL查询中用得到. 算数运算符 + 加 - 减 * 乘 / DIV 除 % MOD 取余数 比较运算符 = 等于 <> != 不等于 < <= ...

  2. 【appium】keyevent的keycode

    方法1 AppiumDriver实现了在上述功能,代码如下(java版本) driver.sendKeyEvent(66); 方法2 HashMap<String, Integer> ke ...

  3. sql server 2008数据库 降为 sql server 2005数据库 最终方案总结

    由于xx原因,sql server 要降级,所以有了下文.... 一 直接 通过sql server 自带工具 生成脚本即可,具体操作方法如下: 1.打开 Microsoft Sql Server M ...

  4. make_heap()等函数的用法

    1.make_heap() make_heap()用于把一个可迭代容器变成一个堆,默认是大顶堆. 它有三个参数.第一个参数是指向开始元素的迭代器,第二个参数是指向最末尾元素的迭代器,第三个参数是les ...

  5. shell 8printf

    printf printf使用引用文本或空格分隔的参数,外面可以在printf中使用格式化字符串,还可以制定字符串的宽度.左右对其方式等.printf不会像echo自动添加换行符,因此需要手动添加\n ...

  6. 挂载本地ISO

    http://www.linuxidc.com/Linux/2017-03/142087.htm 挂载本地ISO mount -o loop /home/iso/RHEL-server-7.0-x86 ...

  7. 利用python,简单的词语纠错

    利用python,编写一个简单的词语纠正修改器. 原文:http://norvig.com/spell-correct.html #!/usr/bin/env python # coding=utf- ...

  8. 基于nginx和tengine的tcp反向代理,负载均衡 安装和配置

    先下载nginx_tcp_proxy_module模块. wget https://github.com/yaoweibin/nginx_tcp_proxy_module/archive/master ...

  9. file_get_contents是打工文件或URL获取内容的方法,比其稳定的还有curl_get_contents

    相信使用过file_get_contents函数的朋友都知道,当获取的$url访问不了时,会导致页面漫长的等待,甚至还能导致PHP进程占用CPU达100%,因此这个函数就诞生了 分享一个实际在用的函数 ...

  10. 解决WPF两个图片控件显示相同图片因线程占用,其中一个显示不全的问题

    在做项目的过程中遇到这样一个问题,下面提出一种解决方法,主要思想是图片的Copy,如还有其他方法,欢迎交流. 在前端图片控件绑定显示时,使用转换器进行转义绑定   (1)转换器: public cla ...