女士品茶 | The Lady Tasting Tea | 统计学史
The Lady Tasting Tea - How Statistics Revolutionized Science in the Twentieth Century
本书只讨论了20世纪这100年间的统计大变革。
一般的书读读就行,唯独这本书需要慢慢品读,让统计的思想深入骨髓。
这本书不适合空读,而要结合自己对统计学的理解来读,遇到不懂的时候不要跳过,停下来仔细查阅相关资料,而后一旦理解了书中的总结,就很难忘记了。
需要做的事:
- 深刻揣摩每段历史中核心的统计学问题;
- 整理书中的天才们,出现的时间线,代表性的理论;
- 书中重要理论思想内涵的总结
19世纪 - 机械师宇宙观 - 一切过程都是确定的
20世纪 - 统计模型 - 不确定性在真实世界里普遍存在
天才大师们:
Jacob Bernoulli (1655 – 1705) 伯努利
Pierre-Simon, marquis de Laplace (1749 – 1827) 拉普拉斯
Sir Francis Galton (1822 – 1911) 高尔顿
Karl Pearson (1857 – 1936) 卡尔·皮尔逊 - C2 - 偏斜分布
Walter Frank Raphael Weldon (1860 – 1906) 威尔顿
William Sealy Gosset (13 June 1876 – 16 October 1937) “学生”
Sir Ronald Aylmer Fisher (1890 – 1962) 费歇尔 - C1 - 实验设计
Emil Julius Gumbel (1891-1966) - C6
Jerzy Neyman (1894 – 1981) 奈曼
Egon Sharpe Pearson (1895 – 1980) 埃贡·皮尔逊 老pearson的儿子
Edwin James George Pitman 1897-1993
William Edwards Deming (1900 – 1993) 戴明
Leonard Henry Caleb Tippett (8 May 1902 – 9 November 1985) - C6
Andrey Nikolaevich Kolmogorov (1903 – 1987) 柯尔莫哥洛夫
Henry Berthold Mann (1905 – 2000)
Wassily Hoeffding (1914 – 1991) - C9 - U统计量
Donald Ransom Whitney (1915-2007)
John Wilder Tukey (1915 – 2000) 约翰·图
Irving John ("I. J.") Good (1916 – 2009)
George Edward Pelham Box (1919 – 2013)
Persi Warren Diaconis (1945-)
1 The Lady Tasting Tea 女士品茶
1.1 作者序
1.2 第一章 女士品茶
1920年,Fisher就开始聊骚,开展女士品茶试验。
试验是检验真理的唯一标准,对统计也是如此。好的研究者要时刻对猜想和试验结果感到兴奋!
Fisher论述了如何开展科学的实验设计,引领了一场科学革命。
实验是人类增长知识的重要手段,这就是为什么我们这么多大学和研究所都在不停地做着各种花式实验。
一流的科学家从数据中发现新知识,二流的只是在积累数据。
Fisher是搞农业化肥数据分析起家的,发现现有的数据分析都是扯淡,里面包含了无法分开的confounder。
Fisher的科学实验设计方法很快席卷了所有科学实验领域。
注:
作者在辉瑞的经历和我惊人的吻合,需要处理很多疑难数学问题,还要负责讲解,让外行的合作者明白,同时要给出自己的结论。
作者的领悟:科研工作不可能独立完成,太容易犯错,需要多个同行从多方面检视,模型错误,假设错误,人为失误。学会提出问题,与专家讨论,大家一起检视问题,理解问题。
读Fisher的实验设计一书
William Harvey的血液循环路线的实验
Albert michelson的光速测定实验 - 需要一个高灵敏度的激光发射和检测工具,一面镜子。
Gregor mendel的豌豆杂交实验
现代高考的出题也是个实验设计的问题
1.3 第二章 偏斜分布
Laplace已经发明了误差函数(正态分布),他假设我们的观测值就是一个固定真值加上误差。但随着测量精度的提高,我们发现除去误差后,测量数据仍然不是固定的,测量的变量存在固有的随机性。
1890年,karl pearson开始确立了统计模型的本质。
高尔顿热爱研究亲子智商和身高的遗传规律,这个时候的他就开始想通过亲代的性状来预测子代的性状了,现在我们已经能够预测简单疾病了,但对复杂性状仍然无能为力(一个多世纪了)。
向平均回归的现象,regression to the mean:在遗传上,非常高的父亲,其孩子往往会比父亲矮一些。几乎所有的科学观察都在向平均回归。
向平均回归防止世界走向了极端,维持了世界的稳定。这也是为什么人群里无法出现大象和老鼠大小的人。
高尔顿最先发明了相关系数,但却是他的学生pearson完整规范的阐述了相关性。(不懂这里相关性和分布有什么关系)
观念革命:试验结果不是精准无误的测定,它包含了太多的不确定性。我们测量的数据永远是散布的,是有某种分布的,分布告诉我们单次的数值是无法预测的、随机的,但统计模型却能很好的描述这种随机的性质。
测量值本身,而不是测量误差,就具有一种正态分布。pearson提出了偏斜分布,其有四个参数。后来Neyman发现偏斜分布并不能包含所有的分布。
大自然基本上是随机的,真实性只存在于分布函数中。
个人想法:
什么是概率?我得病的概率是多少?万分之一。小概率事件意味着什么?
必须要溯源,否则说不清楚,概率来源于分布,分布说明了随机变量的散布性、不确定性。定义一个随机变量X,X可以取0或1,0为不得病,1为得病,收集1万人的数据,我们可以得到一个伯努利分布,P(X=1) = 0.0001. 不确定是指我们人类无法了解一个事件发生的所有原因,我们只能关注开头和结果。这里的开头是“你是人”,结尾是“你得病”。中间过于复杂的过程都被封装起来了。最终我们发现结果服从一个分布。
我们会说“明天下雨的概率”、“硬币朝上的概率”、“我生病的概率”,但我们不会说“宇宙发生大爆炸的概率”,首先,以我们的认知,宇宙处于一个特例中,无法重复,也没有发现的平行宇宙;其次我们不知道除了大爆炸还有什么可能的结果。
小概率事件:所有概率小于一个阈值,如0.05,的事件都为小概率事件。最科学的解释就是100次试验里,该事件只会发生5次。所以在一次试验里几乎就是不可能发生的。
假设检验的逻辑也是如此,我们假设小概率事件在一次实验里不会发生,我们接受了第一类错误率为0.05.
注:
皮尔逊的两个挚友过早离世,导致老皮尔逊走进了死胡同。
Charles Darwin是pearson同时代的,提出生物变异是适者生存的理论基础。
晚年的karl pearson仍然精力十足,但是对科学不再有重大贡献。
karl pearson首先读的是政治学,崇拜karl marx,所以把自己原来的carl改为karl。
pearson的第一部著作,《科学的法则》。
高尔顿发现了指纹现象。
Biometrika杂志诞生
pearson发明了拟合优度检验,goodness of fit test。
1.4 第三章 可爱的戈赛特先生
吉尼斯(世界纪录的那个)企业有意招聘具有化学背景的高材生,恰好招到了具有数学和化学背景的格赛特。科学问题是如何精准测量瓶中酵母的总量。
确切的数值不存在,存在的是单位液体内酵母数量的概率分布。格赛特成功的发现了泊松分布能很好的解决这个问题。
啤酒厂有保密要求,禁止职员泄露公司机密,格赛特开始在朋友皮尔逊底下进修,开始以“学生”身份发表文章。费歇尔是三人中数学造诣最高的。
“学生”的t检验,小样本问题,做生物实验更是如此,极少情况下我们可以获得大样本。皮尔逊执着于拿到大样本,来估计自己偏斜分布中的四个参数。
格赛特则致力于解决如何衡量小样本中的随机误差,发现了小样本的均值和标准差之比的规律,偏斜分布的前两个参数的比具有一定的规律。
t检验对数据没有假设,数据可以服从任何分布。
注:
老皮尔逊和费歇尔之间有着互相的偏见,而格赛特则负责调解。
1.5 第四章 在垃圾堆中寻觅
时间线回到1919年,开始讲Fisher的故事,Fisher太nb,不得不从其出生开始讲起。
Fisher从小就与人不同,孤单多病,却具有很高的几何天赋,数理统计的直觉,别人需要证明很久的东西在他眼里就是直觉。
Fisher虽是剑桥最突出的高材生,但工作也是一波三折,也算经历了第一次世界大战。
Fisher和老pearson之间的恩怨情仇。
老pearson属于典型的自私固执型的大佬,凭借自己的学术地位来打压、压榨年轻的天才。在每个单位里都存在这种大佬,一心为了自己的名利,但是他们显然快要灯枯油尽了(年龄和灵感),所以不得不靠榨取年轻的精灵来苟且维生,这也是符合自然界规律的。
Fisher数学功底深厚,他支持和推崇优生学说(有选择的改变人类的基因库),所以被指责为法西斯。(有相关的电影了,讽刺最终人类总体变得低智)
(其实错了,自然选择留下的都是最适合生存的人,只能说智商与生存能力有一点的相关性,两者并不等同)
pearson钟情于社会主义,Fisher则更加关注遗传学,开始研究mendel的理论和数据。
孟德尔和Fisher这个时代的人已经慢慢意识到,生物体内存在控制生命性质的基因,统计概率理论可以用于描述生物体内基因与表型互作的不确定性。
Fisher一大著作:《研究工作者的统计方法》工具书,书中省去了复杂数学理论,着重阐述了统计的应用,所以很快就流行起来了。(名言:文章中每多一个公式,读者数量就减半,数学门槛还是很高的)
自此,Fisher带着全家和小姨子开始了在农业站的练级之旅。。。
1.6 第五章 收成变动研究
Fisher的《studies in crop variation》系列,共6篇,google一下就能找到原稿。数据挖掘的鼻祖,真正地从数据中发现知识。
“开发了用于数据分析的原创性工具,建立了这些工具的数学基础,并描述了如何将他们应用到其他领域”
variance和variation的区别?前者特指方差,后者词性更general,表示变动;还有一个variant,特指变异。
<contributions to mathematical statistics> - john wiley
全能的Fisher,不仅要做体力的计算工作,还要思考数学问题,整理数据,设计分析框架,修正不可避免的错误。
高尔顿回归思想的一般化,微积分基础,概率分布,多维几何学。
变异的拆分,时间序列分析的起源。
随机化控制实验,无法控制的肥力梯度效应可以用随机化抵消。
方差分析问世:在精心设计的科学实验中,如何分解各种不同处理的效应?
协方差分析问世:因素分解
自由度的引入:调和不同作者观测到的差异结果。几何洞察力、多维几何空间。指出了老pearson的一个错误。
注:
1. 要深刻理解正态分布,以及其衍生而来卡方分布(独立正态分布的平方和)、t分布(小样本的z分布)、F分布(两个卡方发布之比)。
2. 方差分析的核心,变异分解,总方差=组内方差+组间方差,假设随机误差服从正态分布,因为是多个样本,所以要检验的是两个卡方分布之比。
3. 协方差分析的核心,回归和方差分析,利用回归的方法去掉潜在confounder的影响。
1.7 第六章 百年一遇的大洪水
极值的分布,如何预测罕见洪灾的洪峰的高度?本章的蒂皮特解决了这个难题。
我们人类喜欢精确,我们天生厌恶不确定性,可是我们必须接受不确定性,因为我们是观察者和改造者,不是缔造者。
如何预测纺线的强度?因为是线性的,所以棉线的强度取决于棉线中最脆弱的纤维的强度。
为了解决这个问题,蒂皮特开始在皮尔逊底下进修。可以看出蒂皮特高度评价了皮尔逊。(看问题不能只从一个角度)
蒂皮特找到了样本的数据分布与极值分布的关系,却不知如何解出该方程,所以去请教了Fisher,得到了“蒂皮特的三条极值渐进线”。
冈贝尔的极值统计学,本文作者高度评价了这本书。
1.8 第七章 fisher 的胜利
Fisher和pearson的统计哲学观的分歧和较量。
在顶级期刊上发表论文很难,但更难的是受邀去知名大会上做学术汇报,因为大家会预习你的成果,所以在讨论时会非常详尽,且一针见血。
真正精华的科学研究都是在这种讨论会中形成和接受检验的。
“对他带给统计学研究的无与伦比的热忱,对他提出的数学工具的威力”。
老pearson、小pearson、Fisher、奈曼,相互之间的关系。
统计哲学观的分歧:
老pearson:统计分布是分析数据的真实描述;
Fisher:真实分布是抽象的数学公式,收集的数据只能用于估计其参数。我理解的就是pearson就是想收集数据,然后算他的偏斜分布。而Fisher则认为真实的分布是无法通过观测数据来直接得知的,必须考虑到数据获取过程中的随机性。所以Fisher更强调“估计”,pearson则没有,认为可以直接计算。
测量值的随机性是真实存在的,为了区分开参数的估计值和参数本身,我们把估计值叫做统计量,统计量具有随机性。
好的统计量必须具有三个特性:一致性、无偏性和有效性。
Fisher的极大似然法,为了得到一致且有效的统计量,Fisher发明了MLE。数学上的完备性。
迭代算法,试位法。EM算法,模拟退火算法。。。
Fisher和奈曼之间的恩怨。
1.9 第八章 致死剂量
生物统计学会,选地、汇报讨论、约饭、交友。
一个研究杀虫剂的基友,遇到了困难,于是去读Fisher的著作,必须从应用工具和数学原理这两个角度来研究Fisher的思想。
概率单位分析,杀虫剂的有趣观察,如何从数学和统计的角度思考问题,并把日常语言转化为数学统计语言,这才是最难,也是最重要的!!!
probit,杀虫剂剂量和虫子死掉的概率,两者之间的关系。半数致死剂量。对一只虫子,我们不可能得到能杀死它的剂量,对一群虫子,我们也得不到杀死它们全部的剂量。
无法估计代表我们做不到,我们人类永远只能做我们能做的,因为受限,就像死亡一样。
动乱时代下的统计学家,到底是安稳还是动乱更能成就伟人?时势造英雄!
1.10 第九章 钟型曲线
为什么说英国是统计革命的发源地?
中心极限定理的重要性!
正态分布所具有的优良特性使得其逐渐成为了统计分布的大哥。
如何证明中心极限定理?
林德伯格·利伟条件和U统计量,渐进正态分布的一组统计量。
运筹学,用数学模型和科学思维来解决问题。
1.11 第十章 拟合优度检验
混沌理论,蝴蝶效应。
皮尔逊的拟合优度检验,可以用于检验两个变量之间有无显著性关系。
假设检验
奈曼的散播分布
1.12 第十一章 假设检验
假设检验的效力power的重要性。
概率的现实意义。
1.13 第十二章 置信诡计
1.14 第十三章 贝叶斯异论
1.15 第十四章 数学界的莫扎特
1.16 第十五章 小人物之见解
1.17 第十六章 非参数方法
1.18 第十七章 当部分优于总体时 :随机分布
1.19 第十八章 吸烟引发肺癌吗?
1.20 第十九章 如果您需要最佳人选。。。。
1.21 第二十章 朴实的德克萨斯农家小伙
1.22 第二十一章 家庭中的天才
1.23 第二十二章 统计学界的毕加索
1.24 第二十三章 处理有瑕疵的数据 稳健性
1.25 第二十四章 重塑产业的人 : 戴明与质量管理
1.26 第二十五章 黑衣女士的忠告
1.27 第二十六章 鞅的发展
1.28 第二十七章 意向治疗法
1.29 第二十八章 电脑随心所欲
1.30 第二十九章 泥菩萨
1.31 误称定律
1.32 卡尔达诺
待续~
女士品茶 | The Lady Tasting Tea | 统计学史的更多相关文章
- fisher's exact test
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录视频) https://study.163.com/course/introduction.htm?courseId=1005269003&u ...
- [转] - MC、MC、MCMC简述
贝叶斯集锦(3):从MC.MC到MCMC 2013-07-31 23:03:39 #####一份草稿 贝叶斯计算基础 一.从MC.MC到MCMC 斯坦福统计学教授Persi Diaconis是一位传奇 ...
- 中心极限定理 | central limit theorem | 大数定律 | law of large numbers
每个大学教材上都会提到这个定理,枯燥地给出了定义和公式,并没有解释来龙去脉,导致大多数人望而生畏,并没有理解它的美. <女士品茶>有感 待续~ 参考:怎样理解和区分中心极限定理与大数定律?
- 基因表达半衰期 | mRNA Half-Life
做单细胞RNA-seq分析,自然就能想到我们测到的其实是一个概率学的东西,就像女士品茶里的酵母的泊松分布一样. 真实的细胞里,一切都是连续的,从DNA到mRNA到蛋白,是有一个时间间隔的,每一个pro ...
- 统计学中RR OR AR HR的区别
一.相对危险度(RR)——队列研究中分析暴露因素与发病的关联程度 队列研究是选择暴露及未暴露于某一因素的两组人群,追踪其各自的发病结局,比较两组发病结局的差异,从而判定暴露因素与疾病有无关联及关联大小 ...
- 炒美股史考特(Scottrade)开户准备及如何获取免费交易(最新2017版)
最新美股史考特(Scottrade)开户及汇款攻略 (2017 年 6 月) 一 前言 二 开户流程 三 激活账户 四 转账汇款 五 小结 一 前言:为什么选择史考特(Scottrade ...
- 从史上八大MySQL事故中学到的经验
本文列举了史上八大MySQL宕机事件原因.影响以及人们从中学到的经验,文中用地震级数来类比宕机事件的严重性和后果,排在最严重层级前两位的是由于亚马逊AWS宕机故障(相当于地震十级和九级). 一.Per ...
- 史上最全Windows版本搭建安装React Native环境配置
史上最全Windows版本搭建安装React Native环境配置 配置过React Native 环境的都知道,在Windows React Native环境配置有很多坑要跳,为了帮助新手快速无误的 ...
- 【腾讯Bugly干货分享】OCS——史上最疯狂的iOS动态化方案
本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:https://mp.weixin.qq.com/s/zctwM2Wf8c6_sxT_0yZvXg 导语 在 ...
随机推荐
- 几个不错的echarts +百度地图 案例
https://echarts.baidu.com/examples/editor.html?c=map-polygon https://echarts.baidu.com/examples/edit ...
- VBS 自动发消息给对方
http://www.vbsedit.com/ Dim Name,Msg Name= "我家丫头" Msg = "333" set ws=wscript.cre ...
- java请求url可以带参数
/** * * @param urlStr * url * @param content * 提交的参数 * @param encoding * 编码格式 * @return */ public st ...
- 代码重复检查工具——python的使用CPD比较好用,clone digger针对py2,其他有名的如Simian PMD-CPD CloneDR CCCD CCFinder Bauhaus CodePro
代码重复检测: cpd --minimum-tokens 100 --files g:\source\python\ --language python >log.txt 输出类似: ===== ...
- c#基础用法
1.注释符 1)注销 2)解释 2.3种方式 1)单行注释 // 2)多行注释 /*要注释的内容*/ 3)文档注释 /// 多用来解释类或方法 3.数据类型 1)值类型 2)引用类型 1.对象 obj ...
- Go语言 - 数组 | 多维数组
Array 数组是同一种数据类型元素的集合. 在Go语言中,数组从声明时就确定,使用时可以修改数组成员,但是数组大小不可变化. 1.数组 在定义阶段,长度和类型就固定了,以后不能更改 2.长度也是数组 ...
- Greenplum 激活standby 和恢复 master 原有角色
当Greenplum segment的primary出现问题时,FTS会监测到,GP会自动激活mirror.但是对于GP的master节点,虽然有standby,但是GP并不会自动来完成master和 ...
- C语言定义结构体指针数组并初始化;里面全是结构体的地址
#include <stdio.h> #include <string.h> struct tells;//声明结构体 struct info { char *infos; } ...
- 洛谷P1650赛马与codevs 2181 田忌赛马
洛谷P1650 赛马 题目描述 我国历史上有个著名的故事: 那是在2300年以前.齐国的大将军田忌喜欢赛马.他经常和齐王赛马.他和齐王都有三匹马:常规马,上级马,超级马.一共赛三局,每局的胜者可以从负 ...
- 如何使用ArcGIS Pro发布自定义打印服务
我们知道可以通过ArcGIS Map来发布自定义打印服务.从ArcGIS Enterprise 10.6.1版本起,打印服务的功能更加完善了,改进点包括: 支持打印矢量切片服务 改进了智能制图和颜色透 ...