QQ-plot深入理解与实现

26JUN

June 26, 2013

最近在看关于CSI(Channel State Information)相关的论文，发现论文中用到了QQ-plot。Sigh！我承认我是第一次见到这个名词，异常陌生。维基百科给出了如下定义：

“在统计学中，QQ-plot(Q代表分位数Quantile)是一种通过画出分位数来比较两个概率分布的图形方法。首先选定区间长度，点(x,y)对应于第一个分布(x轴)的分位数和第二个分布(y轴)相同的分位数。因此画出的是一条含参数的曲线，参数为区间个数。如果被比较的两个分布比较相似，则其QQ图近似地位于y=x上。如果两个分布线性相关，则QQ图上的点近似地落在一条直线上，但并不一定是y=x这条线。QQ图同样可以用来估计一个分布的位置参数。”

这段话刚开始看的时候，的确不是很清楚，难以理解。我也在网上找了一些资料，最有用的当属网上的一本在线电子书《Online Statistics
Education: An Interactive Multimedia Course of Study》，里面的Chanpter8专门有讲解QQ-plot。本文中主要借鉴了这门书中的内容，以更浅显易懂的语言来讲清楚QQ-plot，我学习的过程中也用Matlab做了一些试验，文中将代码一并附上。

QQ-plot其实是Quantile-Quantile Plot的缩写，Quantile分位现在理解没有关系，看到最后你就会理解它的意思了。QQ-plot的目的是什么呢？是为了验证两组数据的分布是否相同或者相似，因此在实际中很多情况都会用到。为了讲清楚QQ-plot，我们先来介绍另外两种以图形的方式评价数据分布情况的方法：直方图(histogram)和经验累积分布函数(empirical cumulative distribution
function, eCDF)。

我们考虑一个随机变量X服从[0,1]区间内均匀分布，我们任取n个数据{ x1,x2...,xnx1,x2...,xn }。本例中n=100，直方图频率分布如图1所示。直方图的概率分布与bins的个数有关(bins为10,5,3)。不同的bins对应的图形也不同，图bins=10的时候还呈现锯齿状，但是bins=3的时候就趋于平稳，所以根据直方图来看累积分布不是很靠谱。随后，我们又使用eCDF对数据进行分析，如图2所示。黄色部分即为eCDF与理论CDF的误差，根据大数定理，当n取值越大，误差越小。

图1. 直方图统计

图2. eCDF vs 理论CDF

Data (x)	Rank (q)	Middle of the qth Interval
0.03 0.24 0.41 0.59 0.67	1 2 3 4 5	0.1 0.3 0.5 0.7 0.9

Data (z)	Rank (q)	Middle of the qth Interval	Normal(q)
-1.96 -.78 .31 1.15 1.62	1 2 3 4 5	0.1 0.3 0.5 0.7 0.9	-1.28 -0.52 0.00 0.52 1.28

【机器学习】QQ-plot深入理解与实现的更多相关文章

GWAS: 曼哈顿图，QQ plot 图，膨胀系数（ manhattan、Genomic Inflation Factor）
画曼哈顿图和QQ plot 首推R包“qqman”,简约方便.下面具体介绍以下. 一.画曼哈顿图 install.packages("qqman") library(qqman) ...
机器学习(四)：通俗理解支持向量机SVM及代码实践
上一篇文章我们介绍了使用逻辑回归来处理分类问题,本文我们讲一个更强大的分类模型.本文依旧侧重代码实践,你会发现我们解决问题的手段越来越丰富,问题处理起来越来越简单. 支持向量机(Support Vec ...
Python机器学习笔记：深入理解Keras中序贯模型和函数模型
先从sklearn说起吧,如果学习了sklearn的话,那么学习Keras相对来说比较容易.为什么这样说呢? 我们首先比较一下sklearn的机器学习大致使用流程和Keras的大致使用流程: skl ...
机器学习入门一、理解机器学习+简单感知机(JAVA实现)
首先先来讲讲闲话如果让你现在去搞机器学习,你会去吗?不会的话是因为你对这方面不感兴趣,还是因为你觉得这东西太难了,自己肯定学不来?如果你觉的太难了,很好,相信看完这篇文章,你就会有胆量踏入机器学习这 ...
菜鸟之路——机器学习之决策树个人理解及Python实现
最近开始学习机器学习,以下会记录我学习中遇到的问题以及我个人的理解决策树算法,网上很多介绍,在这不复制粘贴.下面解释几个关键词就好. 信息熵(entropy):就是信息不确定性的多少 H(x)=-Σ ...
100天搞定机器学习|day37 无公式理解反向传播算法之精髓
100天搞定机器学习(Day1-34) 100天搞定机器学习|Day35 深度学习之神经网络的结构 100天搞定机器学习|Day36 深度学习之梯度下降算法本篇为100天搞定机器学习之第37天,亦 ...
ViewPager+Fragment的结合使用，实现QQ界面的理解
http://www.cssxt.com/html/2449/2449.html 效果如图: 实现代码解析:MainActivity.java1.引入布局文件2.4个标题控件的初始化以及点击事件的监听 ...
菜鸟之路——机器学习之非线性回归个人理解及python实现
关键词: 梯度下降:就是让数据顺着梯度最大的方向,也就是函数导数最大的放下下降,使其快速的接近结果. Cost函数等公式太长,不在这打了.网上多得是. 这个非线性回归说白了就是缩小版的神经网络. py ...
菜鸟之路——机器学习之线性回归个人理解及Python实现
这一节很简单,都是高中讲过的东西简单线性回归:y=b0+b1x+ε.b1=(Σ(xi-x–)(yi-y–))/Σ(xi-x–)ˆ2 b0=y--b1x- 其中ε取为均值为0的正态 ...

随机推荐

springboot 集成swagger2.x 后静态资源报404
package com.bgs360.configuration; import org.springframework.context.EnvironmentAware; import org.sp ...
JVM GC之垃圾收集器
简述如果说收集算法时内存回收的方法论,那么垃圾收集器就是内存回收的具体实现.这里我们讨论的垃圾收集器是基于JKD1.7之后的Hotspot虚拟机,这个虚拟机包含的所有收集器如图: Serial 收集 ...
JavaWeb_(Spring框架)Spring整合Hibernate
Dao层类要继承HibernateDaoSupport.java父类原先使用Hibernate框架hibernate.cfg.xml配置数据库 <hibernate-configuration ...
Liunx反弹shell的几种方式
什么是反弹shell? 简单理解,通常是我们主动发起请求,去访问服务器(某个IP的某个端口),比如我们常访问的web服务器:http(https)://ip:80,这是因为在服务器上面开启了80端口的 ...
【Redis 向Redis中批量导入mysql中的数据(亲自测试)】
转自:https://blog.csdn.net/kenianni/article/details/84910638 有改动,仅供个人学习问题提出:缓存的冷启动问题应用系统新版本上线,这时候 re ...
预处理、const、static与sizeof-内联函数与宏有什么区别
1:二者的区别如下: (1)内联函数在编译时展开,宏在预编译时展开. (2)在编译的时候,内联函数可以直接被镶嵌到目标代码中,而宏只是一个简单的文本替换. (3)内联函数可以完成诸如类型检测.语句是否 ...
cassandra3.11.4集群搭建
环境:[centos7.cassandra-3.11.4] 三个节点:[主机名为master,slave-1,slave-2, 用户均为root] 1.下载cassandra cassandra下载地 ...
psql物化视图自动更新
更新物化视图示例 CREATE TABLE model.test ( id SERIAL PRIMARY KEY, name VARCHAR(60)); . 创建物化视图 CREATE MATERIA ...
qt QTableView中嵌入复选框CheckBox 的四种方法总结
第一种不能之前显示,必须双击/选中后才能显示,不适用. 第二种比较简单,通常用这种方法. 第三种只适合静态显示静态数据用第四种比较适合扩展,它除了可以嵌入复选框,还可以通过paint()绘制其它控件 ...
Java-CAS 与原子类
CAS(Compare and Swap),即比较并替换,实现并发算法时常用到的一种技术. CAS 的思想很简单:三个参数,一个当前内存值 V.旧的预期值 A.即将更新的值 B,当且仅当预期值 A 和 ...

【机器学习】QQ-plot深入理解与实现

QQ-plot深入理解与实现

【机器学习】QQ-plot深入理解与实现的更多相关文章

随机推荐

热门专题