用Python学分析 - 二项分布
二项分布(Binomial Distribution)
对Bernoulli试验序列的n次序列,结局A出现的次数x的概率分布服从二项分布
- 两分类变量并非一定会服从二项分布
- 模拟伯努利试验中n次独立的重复,每次试验成功的概率为pi
特征值
- 均值(数学期望)和方差:
- 不同的值,二项式分布有着不同的形态和偏度值
- pi值越大,呈负偏度;pi值越小,呈正偏度
- 当 pi = 0.5时,分布是对称的
- 当 n * pi 与 n * (1-pi) >= 5 时,样本比例p的抽样分布趋向于正态分布
- 当 n 较大,pi不太极端时,可以采用正态近似方法计算概率分布规律
应用
- 博彩行业的规则设定
- 正常值范围的设定(例:医疗行业)
# 对二项分布概念的理解及计算
- # 对二项分布概念的理解及计算
- from scipy.stats import binom
- pi = .3; n = 10
- k = 2; m = 8
- # 求成功次数为i的概率
- pk = 0
- for i in range(n):
- p = binom( n, pi ).pmf( i )
- if i <= k:
- pk += p
- print( 'P(x = {0:d}) = {1:.4f}'.format( i , p ))
- # 求成功小于k次的概率
- print('-'*20)
- p = binom( n, pi ).cdf( k )
- print( 'P(x <= {0:d}) = {1:.4f}'.format( k , p ))
- print( '比较累加值:', pk)
- # 求成功大于k次,小于m次的概率
- print('-'*20)
- p = binom( n, pi ).cdf( m ) - binom( n, pi ).cdf( k )
- print( 'P({0:d} < x <= {1:d}) = {2:.4f}'.format( k , m, p ))
运行结果:
# 比较:p对结果的影响
- import numpy as np
- from scipy.stats import binom
- import matplotlib.pyplot as plt
- num_trials = 60
- x = np.arange(num_trials)
- plt.plot(x, binom(num_trials, 0.2).pmf(x), 'o-', label='p=0.2')
- plt.plot(x, binom(num_trials, 0.5).pmf(x), 'o-', label='p=0.5')
- plt.plot(x, binom(num_trials, 0.7).pmf(x), 'o-', label='p=0.7')
- plt.legend()
- plt.title( '二项分布:p对结果的影响' )
- plt.show()
- print('当p不同时,成功m次的能性的最大值都出现在均值处,对应概率为n*p')
结果:
# 比较:n对结果的影响
- import numpy as np
- from scipy.stats import binom
- import matplotlib.pyplot as plt
- n1 = 10
- n2 = 15
- n3 = 20
- p = 0.5
- x = np.arange( max([n1,n2,n3])+1 )
- plt.plot( x, binom.pmf( x, p = 0.5, n = n1), 'o-', label='n=10')
- plt.plot( x, binom.pmf( x, p = 0.5, n = n2), 'o-', label='n=15')
- plt.plot( x, binom.pmf( x, p = 0.5, n = n3), 'o-', label='n=20')
- plt.legend()
- plt.title( '二项分布:n对结果的影响' )
- plt.show()
- print('当N不同时,成功m次的可能性的最大值都出现在均值处,对应概率为n*p。')
结果:
用Python学分析 - 二项分布的更多相关文章
- 用Python学分析 - 单因素方差分析
单因素方差分析(One-Way Analysis of Variance) 判断控制变量是否对观测变量产生了显著影响 分析步骤 1. 建立检验假设 - H0:不同因子水平间的均值无差异 - H1:不同 ...
- 用Python学分析:集中与分散
散点图进阶,结合箱体图与直方图对数据形成全面的认识 描述数据集中趋势的分析量: 均值 - 全部数据的算术平均值 众数 - 一组数据中出现次数最多的变量值 中位数 - 一组数据经过顺序排列后处于中间位置 ...
- 用Python学分析 - t分布
1. t分布形状类似于标准正态分布2. t分布是对称分布,较正态分布离散度强,密度曲线较标准正态分布密度曲线更扁平3. 对于大型样本,t-值与z-值之间的差别很小 作用- t分布纠正了未知的真实标 ...
- 用Python学分析 - 正态分布
正态分布(Normal Distribution) 1.正态分布是一种连续分布,其函数可以在实线上的任何地方取值. 2.正态分布由两个参数描述:分布的平均值μ和方差σ2 . 3.正态分布的取值可以从负 ...
- 用Python学分析 - 散点图
# 运用散点图对数据分布得到直观的认识 import numpy as np import matplotlib.pyplot as plt # 设计 x, y 轴 n = 10000 x = np. ...
- 《用 Python 学微积分》笔记 3
<用 Python 学微积分>原文见参考资料 1. 16.优化 用一个给定边长 4 的正方形来折一个没有盖的纸盒,设纸盒的底部边长为 l,则纸盒的高为 (4-l)/2,那么纸盒的体积为: ...
- 《用 Python 学微积分》笔记 2
<用 Python 学微积分>原文见参考资料 1. 13.大 O 记法 比较两个函数时,我们会想知道,随着输入值 x 的增长或减小,两个函数的输出值增长或减小的速度究竟谁快谁慢.通过绘制函 ...
- Python学到什么程度就可以去找工作?掌握这4点足够了!
大家在学习Python的时候,有人会问“Python要学到什么程度才能出去找工作”,对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来,一般都不会有什么问 ...
- Python学到什么程度才可以去找工作?掌握这4点足够了!
大家在学习Python的时候,有人会问"Python要学到什么程度才能出去找工作",对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来 ...
随机推荐
- git merge 与 git rebase
git merge git rebase merge V.S. rebase 参考材料 写在开始: 对merge和rebase的用法总有疑惑,好像两个都能完成"获取别的branch的comm ...
- Linux下使用Kickstart自动化安装平台架构
PXE工作于Client/Server的网络模式.在启动过程中,终端要求服务器分配IP地址,再用TFTP协议下载一个自动启动软件包到内存中执行. 要使用kickstart安装平台,包括完整的架构为:K ...
- FFmpeg and x264 Encoding Guide
https://trac.ffmpeg.org/wiki/Encode/H.264 FFmpeg and H.264 Encoding Guide Contents Constant Rate Fac ...
- Neo4j安装后的密码修改
首先默认用户名/密码是neo4j/neo4j. 在安全验证打开的时候,你访问服务器/db/data之类的地址可能会提示您以下信息: { "password_change" : &q ...
- C#本质论笔记
第一章 C#概述 1.1 Helo,World 学习一种新语言最好的办法就是动手写程序. C#编译器创建的.exe程序是一个程序集(Assembly),我们也可以创建能由另一个较大的程序 ...
- iOS xcode9 framework静态库的创建以及xib和图片的使用记录
来到了新公司,要开发的第一个项目据说可能要封成framework,可是我从来没自己做过framework呀!顿时开始发愤图强,赶紧恶补了起来.但是还是遇到了一些乱七八糟的情况,所以写个随笔记下来. 1 ...
- Python_性能测试
使用pip安装Python扩展库memory_profiler from memory_profiler import profile @profile #修饰器 def isPrime(n): if ...
- .net自定义错误页面实现
前言: 在实际的web开发中,经常会遇到以下情况,导致给用不好的体验: a.程序未处理的异常,直接输出显示到用户页面 b.用户访问的资源不存在,直接显示系统默认的404页面 c.其它以下请求错误状态的 ...
- TensorFlow-谷歌深度学习库 文件I/O Wrapper
这篇文章主要介绍一下TensorFlow中相关的文件I/O操作,我们主要使tf.gfile来完成. Exists tf.gfile.Exists(filename) 用来判断一个路径是否存在,如果存在 ...
- sql语句查询执行顺序
http://blog.csdn.net/bitcarmanlee/article/details/51004767