本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。

:以漫画形式来讲解最基本的统计概念和方法。

2 - 探寻参数

2.1 - 中心极限定理(Central Limit Theorem)

概率分布曲线

想准确地预测变量,那么首先要了解目标变量的基本行为。

  • 确定目标变量可能输出的结果,以及这个可能的输出结果是离散值(孤立值)还是连续值(无限值)。
  • 为事件(值)分配概率:如果一个值不会出现,则概率为 0%。概率越高,事件发生的可能性就越大。

大量重复一个实验,并记录检索到的变量值,根据这些值作图,就可以得到一个概率分布曲线。
这个图表明目标变量得到一个值的概率,也就是该变量的概率分布。
理解了值的分布方式后,就可以开始估计事件的概率了,甚至可以使用公式(概率分布函数)。

正态分布(Normal distribution)

也称为正态概率分布、“常态分布”、高斯分布(以著名数学家高斯的名字命名),是最常用的概率分布。
正态分布是只依赖数据集中两个参数的分布

  • 平均值:样本中所有点的平均值。
  • 标准差:表示数据集与样本均值的偏离程度。

如果对概率分布作图,将得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。
也就是说,只要用平均值和标准差就可以解释整个分布,因此预测任何呈正态分布的变量准确率通常都很高。
自然界和日常工作生活中的大部分变量都呈置信度为 x% 的正态分布(x<100),也就是说差不多都能用高斯分布描述。

中心极限定理

从某个总体中采集了一连串各自独立的随机样本。
算出每个样本的平均数。然后把这些平均数按顺序堆积起来。
堆在一起的平均数最终将开始聚集,随着堆放的样本平均数越来越多,堆放的外形就越来越接近正态,就像一个对称的古钟。
概括起来,中心极限定理说明的是在大样本条件下,不论总体的分布如何,样本的均值总是近似地服从正态分布。
可以简单的理解为:随机样本平均数倾向于聚集在总体平均数周围。

事实证明:

  • 平均数堆成的大型数据堆的中心值等于产生样本的总体的中心值。
  • 大型随机样本平均数堆往往比产生这个数堆的总体的外形更窄,以总体平均数为中心。具体程度取决于每个样本的大小。
  • 样本大小越大,平均数堆积形状越窄。

特别注意:中心极限定理只有在每个样本均为随机抽取,且每个样本都足够大时才成立。

2.2 - 概率

概率是一个数值,用于对某个随机事件的长期可能性进行量化。

  • 概率仅适用于长期,短期重来不会带来确信的结论。
  • 每一个概率都有一个对立面,原因是所有概率之和永远是100%。
  • 只能计算随机事件的概率,这也是总是随机采集统计值的原因。

2.3 - 推断

由于样本平均数倾向于聚集在总体平均数周围,可以用来猜测总体平及其大量样本平均数,以此画图显示出样本平均数的堆积形状。
也就是说,用一个随机样本,构建了一个估计抽样分布,然后用这个抽样分布算出置信区间。。

  • 采集极大量样本平均数,以此画图,显示出样本平均数的堆积形状。
  • 以中心极限定理为蓝图绘制图形,这张图叫做估计抽样分布。
  • 估计抽样分布是一个估计结果,是在采集海量样本平均数后,对平均数分布情况的估计。

2.4 - 信心

不断采集更多随机样本,构建更多估计抽样分布,就会不断得到不同的区间。
如果用这种方法计算出极大量各不相同的区间,则大约有1/20样本不包含真正的总体平均数,19/20样本包含真正的总体平均数。
也就是说,有95%的信心来推断总体平均数就在这个范围内的某个地方,有5%的概率是错的。

事实上,从总体中随机采集的任何一个样本都有可能存在误导性。
如果一个样本存在误导性。那么基于这个样本构建的估计抽样分布也存在误导性。
但从长远来看,大多数随机样本平均数倾向于聚集在总体平均数的周围,这种采用估计和剪切的计算方法是有效的。

2.5 - 恨之深

依据如下要素,就可以构建一个估计抽样分布,然后剪去尾部,得到一个可靠的论断,包括一个置信水平和一个置信区间。

  • 一个合理的英文大小
  • 一个样本平均数
  • 一个样本标准差

构建估计抽样分布的这个过程包括一系列数学运算,因此只能对用数字进行度量的特性成立。
对于明显不能用数字表示的特性,这个过程一般难以成立。
实际上,只要能够度量特性(创造一个数字尺度),并将这种度量结果记录在数轴上,就可以计算该特性。

根据单一样本得出的任何结论,都可能大错特错。
即使放大置信水平,涵盖更大区间,仍然有可能是错的。

2.6 - 假设检验

采用估计结果,然后把估计结果移到另一个中心位置,看看能得出什么结论,这个过程被称为假设检验。
目的是检验所设想的总体平均值的位置。

通过假设检验,将猜测值与样本中找到的平均数进行比较,以此检验猜测。
从长期看,期望所有样本平均数的95%都聚集在距离实际总体平均数两个标准差的范围内。

假设性检验的逻辑基础是在“假设条件”成立的情况下,取得当下样本的概率有多大,当概率足够小时就可以认为“假设条件”不成立。
比如,在“假设条件”成立的情况下得到当下样本的概率是5%,那就有95%的把握证明“假设条件”不成立。

简单地说,假设检验的基本思路和原理有两个:

  1. 一个命题只能证伪,不能证明为真。也就是说,个案当然不足以证明一个全称命题,但是却可以否定全称命题。
  2. 在一次观测中,小概率事件不可能发生证明逻辑:想要证明命题为真---》证明该命题的否命题为假---》在否命题的假设下,观察到小概率事件发生了,否命题为假---》命题为真。

举例说明

命题“A是合格的投手”
---》证明否命题“A不是合格投手”为假
---》观察到一个事件(比如A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,概率为p(显著水平),小于0.05
---》小概率事件发生,否命题被推翻,也就是否命题“A不是合格投手”为假
---》原命题“A是合格的投手”为真
---》P值越小,说明这个事件越可能是小概率事件,否命题越可能被推翻,原命题越可信

2.7 - 破立之争

在假设检验的实践中。总是将一种设想与另一种设想进行比较。
假设检验往往包括两种相互对立的设想。
每一种设想各自为抽取到的数据来历做出了不同的解释。
假设检验的要点:断不可妄下结论。

第1步:问题是什么?

  • 确定你要研究的问题是什么.
  • 明确的问题,会帮助你批判性地筛选信息。

第2步:证据是什么?

  • 找到与问题相关的证据。
  • 向专家咨询意见,或求教过来人的经验,或查询相关的数据资料作为证据。

第3步:判断标准是什么

  • 找到证据后,要判断证据是否有效,就需要一个判断标准。
  • 这个判断标准要能够做到“不错过一个坏人,不冤枉一个坏人”的效果。

第4步:做出结论

  • 根据找到的证据和判断标准,做出正确的结论。
  • 这是一种使用数据和概率来做决策的过程。

3 - 走向高级

解决高级统计问题需要依靠各种各样的技巧。
重点在于,即使高级统计学技巧各种各样,无穷无尽。但统计推断的基本步骤保持不变。
本质上一切统计问题都相似,因此解决办法也雷同。
收集样本数据,估计出某种抽样分布,截取概率部分,有时候也需要把这个分布推移到一个新的位置,最后得出有信心的结论。

Data - 深入浅出学统计 - 下篇的更多相关文章

  1. Data - 深入浅出学统计 - 上篇

    本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达. :以漫画形式来讲解最基本的统计概念和方法. ISBN: 9787121299636 https://book.douban.com/su ...

  2. Problem E: 深入浅出学算法019-求n的阶乘

    Problem E: 深入浅出学算法019-求n的阶乘 Time Limit: 1 Sec  Memory Limit: 64 MBSubmit: 5077  Solved: 3148 Descrip ...

  3. 深入浅出学Spring Data JPA

    第一章:Spring Data JPA入门 Spring Data是什么 Spring Data是一个用于简化数据库访问,并支持云服务的开源框架.其主要目标是使得对数据的访问变得方便快捷,并支持map ...

  4. Problem C: 深入浅出学算法004-求多个数的最小公倍数

    Description 求n个整数的最小公倍数 Input 多组测试数据,先输入整数T表示组数 然后每行先输入1个整数n,后面输入n个整数k1 k2...kn Output 求k1 k2 ...kn的 ...

  5. Hive安装与配置——深入浅出学Hive

    第一部分:软件准备与环境规划 Hadoop环境介绍 •Hadoop安装路径 •/home/test/Desktop/hadoop-1.0.0/ •Hadoop 元数据存放目录 •/home/test/ ...

  6. Hive QL——深入浅出学Hive

    第一部分:DDL DDL •建表 •删除表 •修改表结构 •创建/删除视图 •创建数据库 •显示命令 建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_ ...

  7. Hive 内建操作符与函数开发——深入浅出学Hive

    第一部分:关系运算 Hive支持的关系运算符 •常见的关系运算符 •等值比较: = •不等值比较: <> •小于比较: < •小于等于比较: <= •大于比较: > •大 ...

  8. Hive JDBC——深入浅出学Hive

    第一部分:搭建Hive JDBC开发环境 搭建:Steps •新建工程hiveTest •导入Hive依赖的包 •Hive  命令行启动Thrift服务 •hive --service hiveser ...

  9. Problem D: 深入浅出学算法005-数7

    Description 逢年过节,三五好友,相约小聚,酒过三旬,围桌数七. “数七”是一个酒桌上玩的小游戏.就是按照顺序,某人报一个10以下的数字,然后后面的人依次在原来的数字上加1,并喊出来,当然如 ...

随机推荐

  1. GreenPlum failover,primary和mirror切换实验 -- 重要

    GP failover,primary和mirror切换实验 http://blog.sina.com.cn/s/blog_9869114e0101k1nc.html 一.恢复失败的segment出现 ...

  2. python模块之psutil

    一.模块安装 1.简介 psutil是一个跨平台库(http://pythonhosted.org/psutil/)能够轻松实现获取系统运行的进程和系统利用率(包括CPU.内存.磁盘.网络等)信息. ...

  3. AutoCAD .NET二次开发(一)

    其他话不多说,直接进入主题,既然是二次开发,当然是用CAD平台已经封装好了很多类,我们需要熟悉和使用它们.常用的AutoCAD .NET API的四个主要DLL文件是: 名称 作用 备注 AcDbMg ...

  4. 洛谷P2827蚯蚓

    题目 堆+模拟,还有一个小优化(优化后跟堆关系不大,而是类似于贪心). 如果不加优化的话,卡常可以卡到85. 思路是对于对每一秒进行模拟,用堆来维护动态的最大值,然后对于每个长度都加q的情况可以用一个 ...

  5. GoCN每日新闻(2019-09-29)

    1. 干货满满的Go Modules和goproxy.cn https://juejin.im/post/5d8ee2db6fb9a04e0b0d9c8b 2. gnet: 一个轻量级且高性能的 Go ...

  6. 模板 - 数据结构 - 栈/Stack

    普通的栈大家都会写,STL的栈据说默认实现方式是deque,没关系反正deque跑得飞快. 这里收录的是一些奇怪的栈,当然双栈实现的队列收录在队列里面. 对顶栈 众所周知,栈可以维护一系列前缀和,包括 ...

  7. docker 随笔记录

    .docker 固定网络ip地址,启动 Docker的时候,用 --network 参数,可以指定网络类型 eg:docker run -itd --name test1 --network brid ...

  8. VMware 下 Ubuntu 18.04 登录框消失解决

    问题:ubuntu18卡在登陆界面,但是没有出现选择登陆用户的框,只有紫色屏幕 解决方法:参考VMware 下 Ubuntu 18.04 登录框消失解决记录

  9. IdHTTPServer允许跨域访问

    IdHTTPServer允许跨域访问 procedure TMain.idHttpServerCommandGet(AContext: TIdContext; ARequestInfo: TIdHTT ...

  10. jsch连接sftp后连接未释放掉问题排查

    项目中通过jsch中的sftp实现上传下载文件.在压测过程中,由于调用到sftp,下载文件不存在时,系统不断抛出异常,内存飙升,逐渐把swap区也占满,通过top监控未发现占用内存的进程,通过查找ss ...