箱线图boxplot--展示数据的分布 图表作用: 1.反映一组数据的分布特征,如:分布是否对称,是否存在离群点 2.对多组数据的分布特征进行比较 3.如果只有一个定量变量,很少用箱线图去看数据的分布,而是用直方图去观察.一般都要跟其余的定性变量做分组箱线图,可以起对比作用.(key) 适合数据类型: 针对连续型变量 用法: 只有一个变量.一组的数据(1个变量,0个定性变量),比如:学生的成绩情况 只有一个变量.多组数据(1个变量,1个定性变量[班级]),比如:1.2.3班学生的成绩情况 只有一…
箱线图通过数据的四分位数来展示数据的分布情况.例如:数据的中心位置,数据间的离散程度,是否有异常值等. 把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)分别为数据的第25%,50%和75%的数字. I-------------I o I-------------I o I-------------I o I-------------I Q1                Q2                 Q3 (lower quartile) …
简述:   盒图是在1977年由美国的统计学家约翰·图基(John Tukey)发明的.它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max).也可以往盒图里面加入平均值(mean).如上图.下四分位数.中位数.上四分位数组成一个"带有隔间的盒子".上四分位数到最大值之间建立一条延伸线,这个延伸线成为"胡须(whisker)". 由于现实数据中总是存在各式各样地"脏数据",也成为&q…
# -*- coding: utf-8 -*- """ Created on Wed Jun 14 13:00:11 2017 @author: Miao """ import numpy as np import scipy import matplotlib as mpl mpl.use('agg') import matplotlib.pyplot as plt from matplotlib.backends.backend_pdf im…
一.箱线图 Box-plot 箱线图一般被用作显示数据分散情况.具体是计算一组数据的中位数.25%分位数.75%分位数.上边界.下边界,来将数据从大到小排列,直观展示数据整体的分布情况. 大部分正常数据在箱体中,上下边界之外的就是异常数据了. 上下边界的计算公式是: UpperLimit=Q3+1.5IQR=75%分位数+(75%分位数-25%分位数)1.5 LowerLimit=Q1-1.5IQR=25%分位数-(75%分位数-25%分位数)1.5 参数说明: 1.Q1表示下四分位数,即25%…
(一)箱线图---由一个箱体和一对箱须组成,箱体是由第一个四分位数,中位数和第三四分位数组成,箱须末端之外的数值是离散群,主要应用在一系列测量和观测数据的比较场景 import matplotlib as mpl import matplotlib.pyplot as plt import numpy as np mpl.rcParams["font.sans-serif"] = ["FangSong"] mpl.rcParams["axes.unicod…
In [1]: from matplotlib import pyplot as plt import numpy as np import matplotlib as mpl mpl.rcParams['font.sans-serif'] = ['SimHei'] # 中文字体支持   1 饼图-pie()¶   1.1 pie()方法参数说明¶   pie()是matplotlib中画饼图的方法,其主要参数如下:  …
直方图用于展示数据的分布情况,x轴是一个连续变量,y轴是该变量的频次. 下面利用Nathan Yau所著的<鲜活的数据:数据可视化指南>一书中的数据,学习画图. 数据地址:http://datasets.flowingdata.com/crimeRatesByState2005.csv 以下是这个数据文件的前5行: state murder forcible_rape robbery aggravated_assault \ 0 United States 5.6 31.7 140.7 291…
#!/usr/bin/env python# -*- coding:utf-8 -*- from matplotlib.pyplot import * x=[1,2,3,4]y=[5,4,3,2] # 创建新图标figure() # 对角线图 第1个参数:2行 第2个参数:3列的网格 第3个参数:图形在网格的位置subplot(231)plot(x,y) # 垂直柱状图subplot(232)bar(x,y) # 水平柱状图subplot(233)barh(x,y) # 堆叠柱状图-颜色间隔su…
//2019.07.23 1.箱形图,又称为盒式图,一般可以很好地反映出数据分布的特征,也可以进行多项数据之间分布特征的比较,它主要包含五个基础数据:中位数,两个上下分位数以及上下边缘线数据 其中的一些参数具体含义及其计算过程如下: 2.双轴图的绘制代码:import numpy as npimport matplotlib.pyplot as pltimport pandas as pdplt.rcParams["font.sans-serif"]=["SimHei&quo…