介绍箱线图之前,需要先介绍若干个其需要的术语

min:整个样本的最小值

max:整个样本的最大值

Range:即整个样本的取值范围,Range = max - min

Inter-Quartile Range (IQR):四分之一range,即通过取3次中位数(median),将整个range分成四等份,其中间的两份就是IQR,下面图示说明一下:

计算方法:

1. 先对整个样本值集合计算median,将数据分为两等份:

2. 分别对前后两份数据再次计算median:

3. 则Q3 - Q1 = IQR


使用IQR检测outliers:

简单说,就是一种规则而已:小于Q1 - 1.5倍IQR的数据,以及大于Q3 + 1.5倍IQR的数据,都是疑似的异常点:


箱线图的绘制,依赖5个数字:min、Q1、M(median)、Q3、max,课程里起了个名字叫:Five Number Summary

  1. 左边的箭头,表示range,即最小值到最大值的范围
  2. 右边的箱子,表示IQR,其中箱子的上沿是Q3、下沿是Q1,中间的线是M。注意箱子的高度有意义,宽度没意义
  3. 箱子下面的一竖一横两条线,表示最小有效范围(即从Q1向下到Q1 - 1.5*IQR)【上图中min和最小有小范围重合了,所以不存在超小的异常值】
  4. 箱子上面的一竖一横两条线,表示最大有效范围(即从Q3向上到Q3 + 1.5*IQR)
  5. 箱子最上面的那个点,表示整个样本的最大值,但其不在有效范围,是疑似异常值

下面这种箱线图的表示方法,把样本的分布和箱线图并列画在一起:

可以看出一些规律:箱子范围内,M和Q1距离近,落在其中的样本点也最密集,M和Q3距离远,落在其中的样本点也稀疏。所以通过箱线图的M和Q1、Q3的位置,可以相对地判断样本分布的位置和疏密程度。


箱线图的另一个用处是:可以同类特征相互比较:

上图中是奥斯卡影帝影后的年龄箱线图比对,可以看到很多有意思的现象:

  1. 影帝的获奖年龄普遍大于影后,说明奥斯卡比较青睐成熟男演员和年轻女演员
  2. 影帝获奖年龄在40-45岁左右为最高峰;影后在30-35岁为最高峰;
  3. 影帝的年龄范围小于影后,最小的影后21岁,最大的影后80岁

斯坦福【概率与统计】课程笔记(五):EDA | 箱线图的更多相关文章

  1. 扩增子统计绘图1箱线图:Alpha多样性

    绘制Alpha多样性线箱图 绘图和统计全部为R语言,建议复制代码,在Rstuido中运行,并设置工作目录为存储之前分析结果文件的result目录 # 运行前,请在Rstudio中菜单栏选择“Sessi ...

  2. IOS学习之斯坦福大学IOS开发课程笔记(第六课)

    转载请注明出处 http://blog.csdn.net/pony_maggie/article/details/28398697 作者:小马 这节课主要讲述多个MVC是怎样协同工作的.到眼下为止.全 ...

  3. Python课程笔记 (五)

    今天主要学习图形用户界面,更多的还是要我们自己去实际操作,课仿佛上了一半就完了,分享一下课程(这里在SixthClass)的源码: https://gitee.com/wang_ming_er/pyt ...

  4. 斯坦福大学IOS开发课程笔记(第七课第一部分)

    转载请注明出处 http://blog.csdn.net/pony_maggie/article/details/31462099 作者:小马 这节课的内容太多,分两部分介绍.本节课主要是介绍怎样开发 ...

  5. 斯坦福【概率与统计】课程笔记(二):从EDA开始

    探索性数据分析(Exploratory Data Analysis) 本节课程先从统计分析四步骤中的第二步:EDA开始. 课程定义了若干个术语,如果学习过机器学习的同学,应该很容易类比理解: popu ...

  6. 深度学习课程笔记(十五)Recurrent Neural Network

    深度学习课程笔记(十五)Recurrent Neural Network 2018-08-07 18:55:12 This video tutorial can be found from: Yout ...

  7. Andrew Ng机器学习课程笔记(五)之应用机器学习的建议

    Andrew Ng机器学习课程笔记(五)之 应用机器学习的建议 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...

  8. 深度学习课程笔记(五)Ensemble

    深度学习课程笔记(五)Ensemble  2017.10.06 材料来自: 首先提到的是 Bagging 的方法: 我们可以利用这里的 Bagging 的方法,结合多个强分类器,来提升总的结果.例如: ...

  9. CS231n课程笔记翻译8:神经网络笔记 part3

    译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Neural Nets notes 3,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,堃堃和巩子嘉进行校对修改.译文含 ...

随机推荐

  1. tmux多终端工具

    在Linux服务器上没有办法像在桌面系统一样开多个终端,所以有时后进行一些操作不是太方便,所以可以使用tmux工具,创建多个终端. 这里仅仅是简单的介绍一下如何创建多个终端和进行多个终端之间切换,tm ...

  2. P1613跑路

    题目描述 小A的工作不仅繁琐,更有苛刻的规定,要求小A每天早上在6:00之前到达公司,否则这个月工资清零.可是小A偏偏又有赖床的坏毛病.于是为了保住自己的工资,小A买了一个十分牛B的空间跑路器,每秒钟 ...

  3. seaborn教程4——分类数据可视化

    https://segmentfault.com/a/1190000015310299 Seaborn学习大纲 seaborn的学习内容主要包含以下几个部分: 风格管理 绘图风格设置 颜色风格设置 绘 ...

  4. Qt 如何使用反射?

    Qt 如何使用反射? c++ 反射 标准库暂时还没有,那我们来看看如何使用 qt 来进行反射. 反射类的案例 1. 通过注册的类型需找 id 进行实例化该类 myclass.h #include &l ...

  5. mysql处理重复数据仅保留一条记录

    目的:去除(或删除)一个表里面手机号重复的数据,但是需要保留其中一个记录,换句话说,表里面手机号不为空的数据,一个手机有且只有一条记录 表结构: CREATE TABLE `account` ( `i ...

  6. linux误用rm删除文件后恢复

    linux 系统:ubuntu16.04 误把/usr/local local文件删除了,要疯 步骤: 1.对于文件系统为ext3文件系统 sudo apt-get install ext3grep ...

  7. 【JAVA】eclipse-使用入门及常用快捷键

    目录 下载与安装 HelloWorld 新建项目 视图与视窗 快捷键 个性化设置 导入项目 jar包 下载与安装 下载 网址:官网下载 注意: 下载javaee版 注意与本机的java环境相匹配,32 ...

  8. linux下创建svn仓库及用户

    1 Linux下创建svn仓库 1.1 启动SVN服务 svnserve -d -r  /SVNRootDirectry 其中SVNRootDirectry是你的SVN 根目录,例如192.85.1. ...

  9. Oracle:同步两张表的相同字段

    有一个需求需要同步两张表的相同字段,比如表A和表B,这两张表是不同的用户下的表,表结构是一样的. 一开始我简单写了一个sql语句,如下: update ord_log1 A set (A.pid, A ...

  10. Spark 读取HBase数据

    Spark1.6.2 读取 HBase 1.2.3 //hbase-common-1.2.3.jar //hbase-protocol-1.2.3.jar //hbase-server-1.2.3.j ...