描述统计学

当我们面对大量信息的时候，经常会出现数据越多，事实越模糊的情况，因此我们需要对数据进行简化，描述统计学就是用几个关键的数字来描述数据集的整体情况。

1.集中趋势

1.1 众数

众数是样本观测值在频数分布表中频数最多的那一组的组中值

当众数不止一个时，可以用众数指定具有最高频数的数值组，被称为众数组。
求众数三步法：
① 把数据中的不同类别或数值全部找出来
② 写出每个数值或类别的频数
③ 挑出具有最高频数的一个或几个数值，得出众数。
用众数代表一组数据，可靠性较差，不过，众数不受极端数据的影响，并且求法简便。

在一组数据中，如果个别数据有很大的变动，选择中位数表示这组数据的“集中趋势”就比较适合。

1.2 中位数

当异常值使平均值产生误导时，我们需要使用其他方式表示典型值，我们可以取中位数。
求中位数三步法：
① 从小到大按顺序排列数字
② 如果有奇数个数值，则中位数位于中间的数值。如果有n个数，则中间数的位置为（n+1）/ 2
③ 如果有偶数个数值，则将两个中间数相加，然后除以2。中间位置的算法是（n+1）/2，两个中间数分别位于这两个中间位置的两侧
中位数永远处于中间，它是个中间值。但是碰到数据较多的数据集时，计算中位数相对会比较麻烦

1.3 分位数

分位数指的就是连续分布函数中的一个点，这个点对应概率p。若概率0<p<1，随机变量X或它的概率分布的分位数Y，是指满足条件p(X≤Y )=α的实数。

常用的有中位数（即二分位数）、四分位数、百分位数等。下面介绍下四分位数，

四分位数（Quartile）是统计学中分位数的一种，即把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。
1）第一四分位数(Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字；

2）第二四分位数(Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字；
3）第三四分位数(Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。

1.4 平均数

平均数是统计学中最常用的统计量，用来表明资料中各观测值相对集中较多的中心位置。

算数平均数

算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。
把n个数的总和除以n，所得的商叫做这n个数的算术平均数。

加权平均数

加权平均值即将各数值乘以相应的权数，然后加总求和得到总体值，再除以总的单位数。
加权平均值的大小不仅取决于总体中各单位的数值（变量值）的大小，而且取决于各数值出现的次数（频数），由于各数值出现的次数对其在平均数中的影响起着权衡轻重的作用，因此叫做权数。
若n个数的权分别是那么做这n个数的加权平均值。

几何平均数

n个观察值连乘积的n次方根就是几何平均数。根据资料的条件不同，几何平均数分为加权和不加权之分。

1) 简单几何平均

2）加权几何平均

特点：
1、几何平均数受极端值的影响较算术平均数小；
2、如果变量值有负值，计算出的几何平均数就会成为负数或虚数；
3、它仅适用于具有等比或近似等比关系的数据；
4、几何平均数的对数是各变量值对数的算术平均数。

2.离中趋势

2.1 数值型数据

方差

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数.

总体方差计算公式：

为总体方差，为变量，为总体均值，为总体例数
但在实际应用中，总体均数难以得到时，应用样本统计量代替总体参数，有样本方差：

为样本方差，X为变量，为样本均值，n为样本例数.
在概率分布中，设X是一个离散型随机变量，若E{[X-E（X）]^2}存在，则称E{[X-E（X）]^2}为X的方差，记为D（X）或Var（X），其中E（X）是X的期望值，X是变量值。在应用上引入量，称为标准差或均方差.

标准差

标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根.它反映组内个体间的离散程度.

标准差与平均值定义公式：

标准差表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方，标准差通常是相对于样本数据的平均值而定的，通常用M±SD来表示，表示样本某个数据观察值相距平均值有多远。从这里可以看到，标准差受到极值的影响。标准差越小，表明数据越聚集；标准差越大，表明数据越离散.

极差

极差又称范围误差或全距(Range)，以R表示，是用来表示统计资料中的变异量数(measures of variation)，其最大值与最小值之间的差距，即最大值减最小值后所得之数据.

计算方式 :最直接也是最简单的方法，即最大值－最小值（也就是极差）来评价一组数据的离散度。例如比赛中去掉最高最低分就是极差的具体应用。

在统计中常用极差来刻画一组数据的离散程度，以及反映的是变量分布的变异范围和离散幅度，在总体中任何两个单位的标准值之差都不能超过极差。同时，它能体现一组数据波动的范围。极差越大，离散程度越大，反之，离散程度越小。

2.2 顺序数据--四分位差

前面已经介绍过四分位数，四分位差（quartile deviation），就是上四分位数（Q3）与下四分位数（Q1）的差。

计算公式为：Q = Q3-Q1
四分位差反映了中间50%数据的离散程度，其数值越小，说明中间的数据越集中；其数值越大，说明中间的数据越分散。四分位差不受极值的影响。此外，由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差，但不适合分类数据。

2.3 分类数据--异众比率

异众比率指的是总体中非众数次数与总体全部次数之比。换句话说，异众比率指非众数组的频数占总频数的比例。

计算公式1 ：

其中
表示异众比率，
为变量值的总频数；
为众数组的频数，m表示数组的数量。

计算公式2：

其中，表示异众比率，
表示众数次数，N表示总体单位总数（即总体次数）。
异众比率主要适合测度分类数据的离散程度，当然，对于顺序的数据以及数值型数据也可以计算异众比率.
异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性就越差；异众比率越小，说明非众数组的频数占总频数的比重越小，众数的代表性越好.

2.4 相对离散程度--离散系数

离散系数是衡量资料中各观测值离散程度的一个统计量。当进行两个或多个资料离散程度的比较时，如果度量单位与平均数相同，可以直接利用标准差来比较。如果单位和（或）平均数不同时，比较其离散程度就不能采用标准差，而需采用标准差与平均数的比值（相对值）来比较：

表示总体离散系数和样本离散系数.
离散系数通常可以进行多个总体的对比，通过离散系数大小的比较可以说明不同总体平均指标（一般来说是平均数）的代表性或稳定性大小。一般来说，离散系数越小，说明平均指标的代表性越好；离散系数越大，平均指标的代表性越差.

1.优点

比起标准差来，离散系数的好处是不需要参照数据的平均值。离散系数是一个无量纲量，因此在比较两组量纲不同或均值不同的数据时，应该用变异系数而不是标准差来作为比较的参考。

2.缺点

当平均值接近于0的时候，微小的扰动也会对离散系数产生巨大影响，因此造成精确度不足。

离散系数无法发展出类似于均值的置信区间的工具

3 分布的形状

3.1 偏态系数

偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度，用SK表示偏斜系数:偏态系数小于0，因为平均数在众数之左，是一种左偏的分布，又称为负偏。偏态系数大于0，因为均值在众数之右，是一种右偏的分布，又称为正偏。
偏态系数是根据众数、中位数与均值各自的性质，通过比较众数或中位数与均值来衡量偏斜度的，即偏态系数是对分布偏斜方向和程度的刻画.

简单偏态系数

计算公式为：

加权偏态系数

计算公式为：

零值：偏态系数的取值为0时，表示数据为完全的对称分布，即正态分布。正值：偏态系数的取值为正数时，表示数据为正偏态或右偏态。负值：偏态系数的取值为负数时，表示数据为负偏态，或左偏态。

3.2 峰态系数

峰态系数( kurtosis)即“峰度”。是用来反映频数分布曲线顶端尖峭或扁平程度的指标.
计算公式：

峰度系数用来度量数据在中心聚集程度。在正态分布情况下，峰度系数值是3（但是SPSS等软件中将正态分布峰度值定为0，是因为已经减去3，这样比较起来方）.大于3的峰度系数说明观察量更集中，有比正态分布更短的尾部；小于3的峰度系数说明观测量不那么集中，有比正态分布更长的尾部，类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2，将拒绝正态性。
在金融中，若某分布与正态分布有相同的方差，但是峰度系数大于3，则呈现“尖峰厚尾”形态，峰度更高，两段的尾部更厚，也就是极值更多的意思。

自言自语

有幸遇到居士，能和那么多伙伴一起学习，感谢为我们解答疑惑的大佬们！！

第一周，由于自己没安排好时间，做的总结也不怎么样，只有一些理论，并没有实际操作，争取下一周用Python写出来。

感谢遇见，继续加油！

数据分析First week（7.15~7.21）的更多相关文章

ffmpeg-20160908[09,10,13,15,19,21,22,24]-bin.7z
ESC 退出 0 进度条开关 1 屏幕原始大小 2 屏幕1/2大小 3 屏幕1/3大小 4 屏幕1/4大小 5 屏幕横向放大 20 像素 6 屏幕横向缩小 20 像素 S 下一帧 [ -2秒 ] +2 ...
优步UBER司机全国各地奖励政策汇总 (2月15日-2月21日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
简易数据分析 15 | Web Scraper 高级用法——CSS 选择器的使用
这是简易数据分析系列的第 15 篇文章. 年末事情比较忙,很久不更新了,后台一直有读者催更,我看了一些读者给我的私信,发现一些通用的问题,所以单独写篇文章,介绍一些 Web Scraper 的进阶用法 ...
Python数据分析之numpy学习
Python模块中的numpy,这是一个处理数组的强大模块,而该模块也是其他数据分析模块(如pandas和scipy)的核心. 接下面将从这5个方面来介绍numpy模块的内容: 1)数组的创建 2)有 ...
数据分析三剑客之numpy
Numpy 简介数据分析三剑客:Numpy,Pandas,Matplotlib NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算, ...
(转)Python数据分析之numpy学习
原文:https://www.cnblogs.com/nxld/p/6058572.html https://morvanzhou.github.io/tutorials/data-manipulat ...
python 数据分析----numpy
NumPy是高性能科学计算和数据分析的基础包.它是pandas等其他各种工具的基础. NumPy的主要功能: ndarray,一个多维数组结构,高效且节省空间无需循环对整组数据进行快速运算的数学函数 ...
利用python进行数据分析1_numpy的基本操作，建模基础
import numpy as np # 生成指定维度的随机多维数据 data=np.random.rand(2,3) print(data) print(type(data)) 结果: [[0.11 ...
Python——全国瓜子二手车数据分析
继瓜子二手车数据爬去之后,在此进行处理分析 Pycharm代码 # coding:utf8 # author:Jery # datetime:2019/5/3 17:35 # software:PyC ...

随机推荐

上海python14期第一次周考
上海python14期第一次周考 1 介绍满分50分考试范围: Python语法数据类型流程控制考试时间: 周五下午3.00点-晚6:00 2 基础题(38分) 什么是编程语言?什么是语言? ...
Redis RDB 分析工具 rdbtools 说明
背景 Redis是基于内存的KV数据库,内存作为存储介质,关注其内存的使用情况是一个重要指标,解析其内部的存储信息是给出优化方法和维护的最基本要求.解析内存有二种方法:第一个是通过scan遍历所有ke ...
Maven 专题（四）：什么是Maven
1 Maven 简介 Maven 是 Apache 软件基金会组织维护的一款自动化构建工具,专注服务于 Java 平台的项目构建和依赖管理.Maven 这个单词的本意是:专家,内行.读音是['meɪ ...
java 面向对象（十九）：关键字：static
static:静态的1.可以用来修饰的结构:主要用来修饰类的内部结构属性.方法.代码块.内部类2.static修饰属性:静态变量(或类变量) 2.1 属性,是否使用static修饰,又分为:静态属性 ...
java 基本语法（九）数组（二）一维数组
1.一维数组的声明与初始化正确的方式: int num;//声明 num = 10;//初始化 int id = 1001;//声明 + 初始化 int[] ids;//声明 //1.1 静态初始化 ...
机器学习实战基础（十八）：sklearn中的数据预处理和特征工程（十一）特征选择之 Wrapper包装法
Wrapper包装法包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择,比如coef_属性或feature_importances_属性来完成特征选择.但不 ...
这就是Java代码生成器的制作流程
1. 前言前几天写了篇关于Mybatis Plus代码生成器的文章,不少同学私下问我这个代码生成器是如何运作的,为什么要用到一些模板引擎,所以今天来说明下代码生成器的流程. 2. 代码生成器的使用场 ...
sql与SQL CODE和SQL State相关报错
操作数据库过程中,遇到许多问题,很多都与SQL CODE和SQL State相关,现在把一个完整的SQLCODE和SQLState错误信息和相关解释作以下说明,一来可以自己参考,对DB2错误自行找出原 ...
盘点JMeter不为人知那一些细节
Jmeter工作原理向服务器提交请求,并从服务器取回请求返回的结果.即建立一个线程池,多线程运行取样器产生大量负载,在运行过程中通过断言来验证结果的正确性,通过监听器来记录测试结果. 文章内容以Jm ...
3个月不发工资，拖延转正？2天跳槽软件测试成功，9.5k他不香吗！
今天聊到的小哥哥很悲催又很神奇,身处武汉的他,正好赶上了疫情,不仅长达3个月没有发工资,拖延转正,还要降薪,三重打击,实名悲催. 不破不立,试用期80%再打8折,怎么跳槽工资都得比这高,果然,仅仅两天 ...

数据分析First week（7.15~7.21）

描述统计学

1.集中趋势

1.1 众数

1.2 中位数

1.3 分位数

1.4 平均数

算数平均数

加权平均数

几何平均数

1) 简单几何平均

2）加权几何平均

2.离中趋势

2.1 数值型数据

2.2 顺序数据--四分位差

2.3 分类数据--异众比率

计算公式1 ：

计算公式2：

2.4 相对离散程度--离散系数

1.优点

2.缺点

3 分布的形状

3.1 偏态系数

简单偏态系数

加权偏态系数

零值：偏态系数的取值为0时，表示数据为完全的对称分布，即正态分布。正值：偏态系数的取值为正数时，表示数据为正偏态或右偏态。负值：偏态系数的取值为负数时，表示数据为负偏态，或左偏态。

3.2 峰态系数

自言自语

数据分析First week（7.15~7.21）的更多相关文章

随机推荐

热门专题