斯坦福【概率与统计】课程笔记(五):EDA | 箱线图
介绍箱线图之前,需要先介绍若干个其需要的术语
min:整个样本的最小值
max:整个样本的最大值
Range:即整个样本的取值范围,Range = max - min
Inter-Quartile Range (IQR):四分之一range,即通过取3次中位数(median),将整个range分成四等份,其中间的两份就是IQR,下面图示说明一下:
计算方法:
1. 先对整个样本值集合计算median,将数据分为两等份:
2. 分别对前后两份数据再次计算median:
3. 则Q3 - Q1 = IQR
使用IQR检测outliers:
简单说,就是一种规则而已:小于Q1 - 1.5倍IQR的数据,以及大于Q3 + 1.5倍IQR的数据,都是疑似的异常点:
箱线图的绘制,依赖5个数字:min、Q1、M(median)、Q3、max,课程里起了个名字叫:Five Number Summary
- 左边的箭头,表示range,即最小值到最大值的范围
- 右边的箱子,表示IQR,其中箱子的上沿是Q3、下沿是Q1,中间的线是M。注意箱子的高度有意义,宽度没意义
- 箱子下面的一竖一横两条线,表示最小有效范围(即从Q1向下到Q1 - 1.5*IQR)【上图中min和最小有小范围重合了,所以不存在超小的异常值】
- 箱子上面的一竖一横两条线,表示最大有效范围(即从Q3向上到Q3 + 1.5*IQR)
- 箱子最上面的那个点,表示整个样本的最大值,但其不在有效范围,是疑似异常值
下面这种箱线图的表示方法,把样本的分布和箱线图并列画在一起:
可以看出一些规律:箱子范围内,M和Q1距离近,落在其中的样本点也最密集,M和Q3距离远,落在其中的样本点也稀疏。所以通过箱线图的M和Q1、Q3的位置,可以相对地判断样本分布的位置和疏密程度。
箱线图的另一个用处是:可以同类特征相互比较:
上图中是奥斯卡影帝影后的年龄箱线图比对,可以看到很多有意思的现象:
- 影帝的获奖年龄普遍大于影后,说明奥斯卡比较青睐成熟男演员和年轻女演员
- 影帝获奖年龄在40-45岁左右为最高峰;影后在30-35岁为最高峰;
- 影帝的年龄范围小于影后,最小的影后21岁,最大的影后80岁
斯坦福【概率与统计】课程笔记(五):EDA | 箱线图的更多相关文章
- 扩增子统计绘图1箱线图:Alpha多样性
绘制Alpha多样性线箱图 绘图和统计全部为R语言,建议复制代码,在Rstuido中运行,并设置工作目录为存储之前分析结果文件的result目录 # 运行前,请在Rstudio中菜单栏选择“Sessi ...
- IOS学习之斯坦福大学IOS开发课程笔记(第六课)
转载请注明出处 http://blog.csdn.net/pony_maggie/article/details/28398697 作者:小马 这节课主要讲述多个MVC是怎样协同工作的.到眼下为止.全 ...
- Python课程笔记 (五)
今天主要学习图形用户界面,更多的还是要我们自己去实际操作,课仿佛上了一半就完了,分享一下课程(这里在SixthClass)的源码: https://gitee.com/wang_ming_er/pyt ...
- 斯坦福大学IOS开发课程笔记(第七课第一部分)
转载请注明出处 http://blog.csdn.net/pony_maggie/article/details/31462099 作者:小马 这节课的内容太多,分两部分介绍.本节课主要是介绍怎样开发 ...
- 斯坦福【概率与统计】课程笔记(二):从EDA开始
探索性数据分析(Exploratory Data Analysis) 本节课程先从统计分析四步骤中的第二步:EDA开始. 课程定义了若干个术语,如果学习过机器学习的同学,应该很容易类比理解: popu ...
- 深度学习课程笔记(十五)Recurrent Neural Network
深度学习课程笔记(十五)Recurrent Neural Network 2018-08-07 18:55:12 This video tutorial can be found from: Yout ...
- Andrew Ng机器学习课程笔记(五)之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之 应用机器学习的建议 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...
- 深度学习课程笔记(五)Ensemble
深度学习课程笔记(五)Ensemble 2017.10.06 材料来自: 首先提到的是 Bagging 的方法: 我们可以利用这里的 Bagging 的方法,结合多个强分类器,来提升总的结果.例如: ...
- CS231n课程笔记翻译8:神经网络笔记 part3
译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Neural Nets notes 3,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,堃堃和巩子嘉进行校对修改.译文含 ...
随机推荐
- MySQL-第二篇SQL语句基础(1)语句分类及DDL语句
1.什么是SQL语句 SQL是Structed Query Language的缩写,即结构化查询语言.SQL是操作和检索数据库的标准语言,标准的SQL语句可以操作任何关系数据库. 2.标准的SQL语句 ...
- [CF960G]Bandit Blues(第一类斯特林数+分治卷积)
Solution: 先考虑前缀,设 \(f(i, j)\) 为长度为 \(i\) 的排列中满足前缀最大值为自己的数有 \(j\) 个的排列数. 假设新加一个数 \(i+1\) 那么会有: \[ f ...
- [洛谷P1552] [APIO2012]派遣(左偏树)
这道题是我做的左偏树的入门题,奈何还是看了zsy大佬的题解才能过,唉,我太弱了. 左偏树总结 Part 1 理解题目 很显然,通过管理关系的不断连边,最后连出来的肯定是一棵树,那么不难得出,当一个忍者 ...
- C# 下载PDF文件(http与ftp)
1.下载http模式的pdf文件(以ASP.NET为例,将PDF存在项目的目录下,可以通过http直接打开项目下的pdf文件) #region 调用本地文件使用返回pdfbyte数组 /// < ...
- WEB应用安全解决方案测试验证
WEB应用安全解决方案测试报告 --- By jiang.jx at 2017-08-11 WEB应用安全解决方案.docx 链接:https://share.weiyun.com/068b05467 ...
- 高阶函数map,filter,reduce的用法
1.filter filter函数的主要用途是对数组元素进行过滤,并返回一个符合条件的元素的数组 let nums = [10,20,30,111,222,333] 选出nums中小于100的数: l ...
- GeneXus笔记本—常用函数(中)
这篇文章是接着上一篇 常用函数(上)来写的 上次写到了Format 这个函数 我们继续接着这个往下来好了(づ ̄ 3 ̄)づ 还是一样 函数列表在此 https://wiki.genexus.com/c ...
- 常见面试SQL问题
一.表内容 Tdate Tresulte 2019/5/9 胜 2019/5/9 胜 2019/5/9 负 2019/5/9 负 2019/5/10 胜 2019/5/10 负 2019/5/10 负 ...
- k8s阅读笔记2-k8s架构
前言 阅读地址 https://rootsongjc.gitbooks.io/kubernetes-handbook/content/concepts/ 架构 架构图说明: master 指服务端 1 ...
- Sass函数--列表函数append
append() 函数是用来将某个值插入到列表中,并且处于最末位. >> append(10px 20px ,30px) (10px 20px 30px) >> append( ...