Data - 深入浅出学统计 - 上篇
本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。
:以漫画形式来讲解最基本的统计概念和方法。
- ISBN: 9787121299636
- https://book.douban.com/subject/26906845/
引言:统计无处不在
统计值无处不在。我们伴随着统计值出生,离开后也会化为统计值。
统计帮助我们把握重要事件的大量数据。进而帮助我们更好地理解这个千变万化的世界,并操纵世界。
统计的真正力量更为特别,统计帮助我们在信息有限的情况下,做出充满信心的决策。
我们总是希望能够得到所有数据,接着算出结果,但显然这很难做到。
实际上,我们只能得到的有限的信息,但好在通过统计工具,能使用这些有限的信息,对所有的情况做出充满信心的描述。
统计学是展示数据的工具,而不是解释数据的工具。
也就是说,“统计”只是将隐藏在混杂的、扑朔迷离的数据中规律性信息,以一种方便解释、易于理解的方式表达出来,用来帮助人们做出判断,而不是代替人们下判断。
以下内容主要讲的就是统计学的基本问题:如何通过样本来充满信心的描述整体。
- 如何采集和调查样本。
- 如何通过样本探索总体的各种特质(统计推论过程:筛选数据、计算置信区间、进行假设检验)
特别注意:可以通过统计进行充满信心的猜测,但永远无法通过统计得出确定无疑的结果。
1 - 收集统计数据
1.1 - 数字
统计并不只关系到数字,而且也关系到我们的信心。
统计的确需要处理大量数字,而且处理起来并不是总是那么简单。
数字很容易被用于撒谎。这通常会让人们对数字过度怀疑,从而忽略了数字的真正威力。
这要求我们在处理任何数字时,都必须带着适当的怀疑。
不管拿到什么数字,都应该问这样几个问题:
- 你从哪里来?
- 谁导致你出现?
- 为什么?
1.2 - 随机原始数据
很多时候,我们都不可能清楚所有要了解的东西,只能通过研究样本,进而了解总体。
必须知晓的事实:
- 不可能通过样本完全确定一个总体。统计指的是做出最佳猜测,而绝非确凿无疑的判断。
- 采集样本犯下的任何错误,都可能会彻底扭曲对较大总体的结论。
通过各种方法采集样本观测值,这个过程并不简单。
最大的挑战可能在于要准确地指出样本中包含哪些内容。目的是避免样本出现偏差,因为偏差可能会导致我们曲解总体。
理想情况是,采集的样本能正确反映总体。
通过随机采集样本来避免偏差。
实践中。我们常常需要设想所有可能令样本发生偏差的问题,并确保这种问题不会出现。
随机样本效果显著的原因是,它表明我们抽取的任何一个样本的可能性都和抽取任何其他样本的可能性是一样大的。
确保样本必须正确是重中之重,因为随机抽样是一切统计调查的关键。
1.3 - 排序
问题的特性十分重要,因为我们的提问类型决定我们最终得到的是类别型数据,还是数值型数据。
这两种数据各自为政,根本差别:是否能够对其进行数学运算。
在下列情况下采集类别数据:
- 在研究只用文字就能描述的特性时
- 在能够用“是”或“否”回答问题时
在下列情况下采集数值型数据:
- 在研究可以用数字进行比较的特性时
尽管可以通过类别数据来了解样本的构成比例,但总得来说,数值型数据更为有用。
在采集到大量数值型数据后,首先要做的就是利用这些数据“画图”,也就是观察现有的数据。
简单的图形能让我们集中关注数据表达的确切意义。
- 直方图:最基本的数值型数据图形,可以对整个数据集进行整体描述,包含精确的细节。
- 箱线图:希望了解数据的概要情况,或者希望对不同样本和群组进行比较时,可以迅速了解数据的汇聚情况。
1.4 - 侦探工作
分析数据就像解谜一样,最终目的是从一个随机样本中收集证据。然后用这些证据形成对总体的描述。
首先需要学习如何做一些基本的侦探工作。
当开始动手调查任何一批数据时,总是观察四个主要特性:大小。形状,位置。分散性。
大小
一般说来,样本越大,结果越好。
样本大小会直接关系到,对一个总体可以具有的置信水平。
但在实际工作中,样本大小总会受到某种限制。
形状
每一个样本的形状都是独一无二的。
无论数据汇聚成什么形状,总是有其原因的。
- 当所有可能结果都比较相似时,可以称这堆数据是平的。
- 当一批数据因为某种原因围绕一个特定数据聚集在一起。那么可以说这批数据是正态。
- 当一批数据由于某种原因,在一个方向上的尾部比另一个方向的尾部延伸的更长。那么可以说这些数据是偏斜的。
位置
位置是对一批数据在一个数轴上落点的量度,简而言之就是数据聚集的地方。
通常可用一个数字来描述位置:平均数。
尽管平均数在量度位置时很有用,很精确。却并非完美。
平均数具有欺骗性。一批数据出现偏斜,平均数就会极具误导性,此时中位数更能体现数据情况,能更好地描述典型值。
分散性
是对一批数据宽度的度量,也是对变性的度量。
分布越宽,变异越大。
测量分散性,一个简单明了的办法是,算出全距:最大值与最小值的差值,然后分成四块,每块包含相同数目的数据点,中间的两块被称为四分位距(IQR)。
利用全剧可以了解整个样本的每一部分的变异性,尤其对于偏斜数据的调查研究特别有用。
分散性最常见度量方法是标准差(SD)。
范围较宽的数据具有较大的标准差。标准差越大,意味着变异越大。
1.5 - 怪异的错误
特别注意:通过统计永远不能彻底证明任何结论。
发掘两种变量之间的关系时,往往一个潜在变量会影响结论,甚至将结论搞得面目全非。
潜在变量会给各种统计分析带来麻烦。因此统计师的部分工作就是发现潜在变量。
如果不找出这种潜在变量,就会有“以假乱真”的风险。
1.6 - 样本到总体
最终目标是根据样本。对总体做出充满信心的描述。
将样本数据堆积起来之后,形成的堆积图形成为样本直方图,具有形状、背景、分散性等一些重要特性。
把总体堆积起来,所形成的图形称为总体分布,同样也具有形状,位置,分散性的特征。
样本的特性叫做“统计值”,是实际算出来的结果。
总体的特性叫做“参数”,是真正想知道的信息。
虽然无法直接观察参数,却可以利用统计值去发掘参数,尽管无法利用统计值得出确定的参数。
Data - 深入浅出学统计 - 上篇的更多相关文章
- Data - 深入浅出学统计 - 下篇
本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达. :以漫画形式来讲解最基本的统计概念和方法. ISBN: 9787121299636 https://book.douban.com/su ...
- Problem E: 深入浅出学算法019-求n的阶乘
Problem E: 深入浅出学算法019-求n的阶乘 Time Limit: 1 Sec Memory Limit: 64 MBSubmit: 5077 Solved: 3148 Descrip ...
- 深入浅出学Spring Data JPA
第一章:Spring Data JPA入门 Spring Data是什么 Spring Data是一个用于简化数据库访问,并支持云服务的开源框架.其主要目标是使得对数据的访问变得方便快捷,并支持map ...
- Problem C: 深入浅出学算法004-求多个数的最小公倍数
Description 求n个整数的最小公倍数 Input 多组测试数据,先输入整数T表示组数 然后每行先输入1个整数n,后面输入n个整数k1 k2...kn Output 求k1 k2 ...kn的 ...
- Hive安装与配置——深入浅出学Hive
第一部分:软件准备与环境规划 Hadoop环境介绍 •Hadoop安装路径 •/home/test/Desktop/hadoop-1.0.0/ •Hadoop 元数据存放目录 •/home/test/ ...
- Hive QL——深入浅出学Hive
第一部分:DDL DDL •建表 •删除表 •修改表结构 •创建/删除视图 •创建数据库 •显示命令 建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_ ...
- Hive 内建操作符与函数开发——深入浅出学Hive
第一部分:关系运算 Hive支持的关系运算符 •常见的关系运算符 •等值比较: = •不等值比较: <> •小于比较: < •小于等于比较: <= •大于比较: > •大 ...
- Hive JDBC——深入浅出学Hive
第一部分:搭建Hive JDBC开发环境 搭建:Steps •新建工程hiveTest •导入Hive依赖的包 •Hive 命令行启动Thrift服务 •hive --service hiveser ...
- Problem D: 深入浅出学算法005-数7
Description 逢年过节,三五好友,相约小聚,酒过三旬,围桌数七. “数七”是一个酒桌上玩的小游戏.就是按照顺序,某人报一个10以下的数字,然后后面的人依次在原来的数字上加1,并喊出来,当然如 ...
随机推荐
- linux学习3 Linux云计算系列课程体系全面介绍
一.课程体系 二.IT领域职位介绍
- 关于Pi
- Hdu 2157 How many ways??(DP||矩阵乘法)
How many ways?? Time Limit:1000 MS Memory Limit: 32768 K Problem Description 春天到了, HDU校园里开满了花, 姹紫嫣红, ...
- SSM 整合 ehcache spring 配置文件报错
添加 <!-- end MyBatis使用ehcache缓存 --> <cache:annotation-driven cache-manager="cacheManage ...
- Mysql中EXISTS关键字用法、总结
在做教务系统的时候,一个学生(alumni_info)有多个教育经历(alumni_education),使用的数据库是mysql,之前使用左链接查询的,发现数据量才只有几万条时,查询就很慢了,早上想 ...
- python中requests里.text和.content方法的区别
requests对象的get和post方法都会返回一个Response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等.其中返回的网页部分会存在.content和.text两个对 ...
- 【转】利用Python将多个PDF合并为一个
本脚本用来合并pdf文件,输出的pdf文件按输入的pdf文件名生成书签 使用示例如下: python pdfmerge.py -p "D:\pdf-files" -o " ...
- linux设备树编译器DTC【转】
本文转载自:https://blog.csdn.net/chenmiaowu88/article/details/54342823 参考文件: \kernel\Documentation\device ...
- linux下查看指定进程的所有连接信息(转)
定位某个进程的网络故障时经常需要用到的一个功能就是查找所有连接的信息.通常查找某个端口的连接信息使用 ss 或者 netstat 可以轻松拿到,如果是主动与别的机器建立的连接信息则可以通过 lsof ...
- vue.js的app.js太大怎么优化?
vue.js的app.js太大怎么优化? # http://nginx.org/en/docs/http/ngx_http_gzip_module.htmlgzip on;gzip_min_lengt ...